Ivan Žilić / 4. svibnja 2021. / Članci / čita se 10 minuta
Mjere su samo procjene neke latentne, fundamentalno neopazive varijable, iako često postaju bitnije od pojave koju mjere te su ključni parametar na koji se kalibriraju javne politike, piše Ivan Žilić u članku u kojem opservira do kojih sve teorijskih i praktičkih pogrešaka dovodi oslonac na mjerenje, o kojem su se ekonomisti učinili ovisnicima
Već godinu dana smo, možda kao nikada dosad, pod potpunom dominacijom statistike – brojeve novozaraženih, hospitaliziranih, na respiratoru, te nažalost umrlih pratimo svakodnevno kao prvu i glavnu vijest. Tmurna zdravstvena statistika uparena je i sa sivom ekonomskom, a i Richterovu skalu smo upoznali bolje no što smo željeli, pa si čovjek ne može pomoći da, iako možda voli brojke, postane zasićen svom tom kvantificiranom crninom. U današnjem svijetu gdje sve pretvaramo u brojeve i vodimo se za njima, prošla godina je dala posebno značenje sintagmi tiranija metrike.
U istoimenoj knjizi (The Tyranny of Metrics), koja nema veze s pandemijom, Jerry Muller, kao što i naslov sugerira, osporava stav da napredak dolazi isključivo kroz mjerenje i postavljanje kvantificiranih ciljeva. Štoviše, Muller daje brojne primjere u kojima ilustrira kako nije sve što je bitno mjerljivo, niti je sve što je mjerljivo bitno, te da mjere, kad postanu cilj, postaju predmet manipulacije. Iako je ekonomija kao disciplina odgovorna za većinu stvari koje Muller smatra problematičnima, postoji srednjestrujaška ekonomska argumentacija koja ga podržava. Stoga ću u ovom eseju, umoran od crne statistike, iznijeti pokoji ekonomski argument koji podupire stav da je – bitno ekonomistu nevidljivo.
Iz ekonomske perspektive, kalibriranje individualnog ponašanja i javnih politika na temelju mjerenih vrijednosti ima smisla. Ekonomisti vole mjeriti jer kvantifikacija omogućava praćenje i modeliranje, stoga imaju brojne jednostavne mjere za komplicirane pojave – od agregatnih poput mjera za ekonomsku aktivnost ili kretanje cijena, do pojedinačnih metrika poput produktivnosti firme ili radnika. Sve te mjere izravno ili posredno utječu na naše živote – određuju se kvantitativni agregatni ciljevi (gdje želimo biti 2030.) što usmjeruje javne politike, ili nam se pak postavljaju individualne metrike koje formiraju naše profesionalne živote i dokolicu.
Kvantifikacija u ekonomiji ima pivotalno mjesto jer služi da se odgovori na jedno od temeljnih ekonomskih pitanja: kako ljudi, firme ili države reagiraju na poticaje (eng. incentives)? I zaista, brojne su prednosti mjerenja, praćenja statistika i postavljanja kvantitativnih ciljeva – od deskriptivne uloge, smanjivanja asimetrije informacija, do promoviranja odgovornosti i poticanja produktivnosti. Primjerice, praćenje državne potrošnje može dovesti do odgovornijeg raspolaganja sredstvima, dok praćenje produktivnosti zaposlenika može stvarno potaknuti ljude da kvalitetnije rade.
Ipak, postoje bitni ekonomski radovi koji sugeriraju da opsesija metrikama može biti kontraproduktivna. Primjerice, u poznatom radu iz 1991. Nobelovci Holmstrom i Milgrom promatraju kompleksan posao koji uključuje više zadaća. Ako se takav posao vrednuje pomoću jedne mjere, resursi će se preusmjeriti u ispunjavanje zadaće koja je mjerena, zanemarujući ostale, što može ugroziti ciljeve organizacije. Klasičan primjer je postavljanje obrazovnih ciljeva u vidu mjerenja znanja učenika na standardiziranim ispitima, što rezultira time da učitelji i profesori pripremaju učenike za ispite (eng. coaching), umjesto da prenose znanje (eng. teaching). Posao učitelja je slojevit i kompleksan, i ako se vrednuje samo na temelju rezultata standardiziranog ispita, ponašanje će se prilagoditi tako da rezultati vrednovanja budu povoljni.
U ovom kontekstu, mjerenje nema samo deskriptivnu ulogu koja olakšava praćenje, već i alokativnu, jer se uspostavljanjem mjera i sustava vrednovanja, implicitno i usmjeravaju resursi. Mjerenje je po definiciji smanjivanje dimenzionalnosti pojave koju promatramo. Većina ciljeva i motiva, bilo na pojedinačnoj razini, ili na razini firme ili države, su višeslojni. Zato i koristimo mjere, jer pojednostavljuju stvarnost do razine da je se može pratiti, no stavljanjem fokusa samo na jednu od mjera, bira se ‘pobjednik’, što usmjerava ponašanje. Kako pokazuje rad Bakera iz 1992. koji proširuje Holmstrovove teze, ovo je posebno problematično u sustavima gdje ciljeve nije lagano mjeriti, a time i ugovorno definirati.
Ipak, ovi zaključci često promiču nositeljima javnih politika. Primjerice, SAD su 2001. godine donijele veliki obrazovni zakon No Child Left Behind, čiji je cilj bio povećati odgovornost škola za rezultate učenika. Odgovornost se promicala uporabom standardiziranih testova, čije su rezultate škole morale objavljivati, a bile su propisane i sankcije za škole čiji učenici u velikoj mjeri ne uspiju svladati definirane obrazovne ishode. Namjera je bila da sva djeca, pogotovo iz obitelji lošijeg socioekonomskog statusa, dobiju kvalitetne obrazovne inpute – stoga je i naziv programa prenosio snažnu poruku da nijedno dijete neće biti obrazovno zapostavljeno.
Rezultat reforme je bio toliko u suprotnosti s ciljevima da su Neal i Schanzenbach svoj rad iz 2010. godine koji analizira program u Chicagu nazvali Left Behind by Design – zapostavljeni po dizajnu. Učitelji su prilagodili svoj rad tako da što više učenika zadovolji definirane obrazovne ishode, ali na način da se fokusiraju na učenike koji su blizu dosezanja tog ishoda. Sve ostale – one koji su bili daleko ispod ili iznad obrazovnog ishoda – su zapostavili. Iako je cilj programa bio poboljšati obrazovne ishode svih učenika, dizajn metrike kojom se mjerila uspješnost doveo je do toga da učitelji preusmjere fokus samo na određenu grupu učenika, koja nije uključivala one kojima je dodatni obrazovni input najpotrebniji.
Primjeri iz obrazovanja mogu biti i drastičniji. Suočeni s pritiskom zadovoljavanja kvantitativnog cilja, učitelji mogu i varati. Primjerice, popularni ekonomist Steven Levitt, autor knjige Freakonomics, u radu iz 2003. godine s Jacobom, pokazuje da gotovo 5 posto učitelja u Chicagu, suočenih sa shemama vrednovanja koje su vezane na uspjehe učenika, doslovno mijenja netočne odgovore na ispitima. Iako primjer s varanjem možda i nije dobra argumentacija zašto pretjerano korištenje metrika nije uvijek dobro, prenosi općenitu misao koja se ponekad naziva Goodheartov zakon – kad mjera postane cilj, prestaje biti dobra mjera. Ili možda slobodnije – gdje ima mjerenja, ima i muljanja.
Osim obrazovnih situacija, spomenuta The Tyranny of Metrics nudi i anegdotalne primjere opasnosti pretjeranog korištenja metrika u zdravstvu, znanosti, vojsci i policiji. Primjerice, uvođenje vrednovanja liječnika po učinku (eng. pay-for-performance) u javnom zdravstvu Velike Britanije u 1990-ima, dovelo je do kritika da se time potiče liječenje samo mjerenih dimenzija zdravlja (eng. treating to the test), što je problematično jer za određena zdravstvena stanja je teško pronaći prikladnu metriku. Zapravo je fokus na zadovoljavanje metrike jedan od pozadinskih motiva kultne serije Žica (The Wire), čiji koautor Ed Burns, i sam bivši policijski detektiv, svjedoči da su policijski šefovi često favorizirali rješavanje manjih i jednostavnijih slučajeva koji se mogu brzo pojaviti u statistici.
Uvođenje vrednovanja liječnika po učinku (eng. pay-for-performance) u javnom zdravstvu Velike Britanije u 1990-ima, dovelo je do kritika da se time potiče liječenje samo mjerenih dimenzija zdravlja (eng. treating to the test)
No mjerenje ne dovodi samo do realokacije resursa u smjeru mjerene dimenzije, čime mjera postaje važnija od onog što mjeri, već može i smanjiti unutarnju motivaciju za obavljanje neke zadaće. Nobelovac Tirole i Benabou u radu iz 2003. godine diskutiraju međuodnos vanjskih i unutarnjih poriva za obavljanje posla, te nude model koji ujedinjuje oba motiva.
Početna točka rada je dihotomija između ekonomista, koji se većinom oslanjaju na vanjsku motivaciju, i psihologa, koji naglašavaju potencijalne negativne aspekte vanjske motivacije na intrinzične porive. Primjerice, istraživanja su pokazala da programi koji nude vanjsku nagradu za zadaće poput skidanja kilograma, prestanak pušenja ili vezanja sigurnosnog pojasa u automobilu djeluju samo privremeno – osobe koje su dobile vanjski poticaj (novčanu nagradu) u početku su bile više fokusirane na aktivnost, no dugoročno su pokazivale manje posvećenosti cilju u odnosu na kontrolnu (netretiranu) grupu. Stoga se korištenju metrike često prigovara i kratkoročna vremenska perspektiva unutar koje djeluje.
I zaista, Benabou i Tirole iz svog modela zaključuju kako vanjski poticaji, koji se implicitno oslanjaju na mjerenje, samo u kratkom roku djeluju kao pozitivni čimbenici (eng. positive reinforcers), dok se u dugom roku pretvaraju u negativne (eng. negative reinforcers). Odnos unutarnjih i vanjskih motiva može objasniti i zašto ljudi pristaju raditi teške poslove za nevelike plaće, ili kako Heyes u naslovu rada iz 2005. provocira – zašto je loše plaćena medicinska sestra svejedno dobra medicinska sestra.
Problemi oko mjerenja nisu samo alokativne i bihevioralne, već i statističke prirode. Bilo koja mjera suštinski je procjenitelj (eng. estimator), dok je ishod mjerenja procjena (eng. estimation), u ekonometrijskom smislu riječi. Prije no što koristimo neki procjenitelj, trebali bi istražiti njegova svojstva – mjeri li procjenitelj zaista objekt koji želimo da mjeri (konzistenost) te koliko precizno mjeri taj objekt (efikasnost). Tek kad znamo karakteristike procjenitelja, možemo ga koristiti.
Test znanja u školi procjenitelj je znanja, a rezultat testa je procjena. Ipak, sama konstrukcija testa je arbitrarna, zapravo ne znamo što to točno test mjeri i kolika je preciznost mjerenja, a najgore od svega je što imamo samo jednu realizaciju testa određenog gradiva za pojedinog učenika. Koristeći procjenitelj čije karakteristike ne znamo, i imajući samo jednu opservaciju, možemo biti sigurni samo u jedno – radimo lošu ekonometriju.
Ova je argumentacija možda jasnija na primjeru. OECD-ov PISA program testira znanje iz više predmeta na međunarodnom uzorku 15-godišnjaka, uključujući i Hrvatsku. Mikro podaci rezultata tih testiranja, na razini učenika, mogu se slobodno preuzeti. Ako pogledamo rezultate matematičke pismenosti, vidjet ćemo da za svakog učenika postoji 5 rezultata, iako je svaki učenik rješavao ispit samo jednom. PISA razumije da je test samo procjena, te da iz jedne realizacije tog testa ne možemo naučiti previše. Stoga modelski procjenjuju znanje na temelju rezultata testa, te daju pet slučajnih vučenja iz procijenjene distribucije znanja.
Ideja ove prakse može se primijeniti i na druge ekonomske pokazatelje. Mjere su samo procjene neke latentne, fundamentalno neopazive varijable, iako često postaju bitnije od pojave koju mjere te su ključni parametar na koji se kalibriraju javne politike. Knjiga Mismeasuring Our Lives u kojoj Fitoussi i Nobelovci Stiglitz i Sen kritiziraju BDP kao mjeru ekonomske aktivnosti započinje rečenicama (slobodan prijevod): „Ono što mjerimo utječe na ono što radimo. Ako krivo mjerimo, težit ćemo krivim stvarima“.
Kad se ovako naredaju argumenti koji tumače da su sve mjere potencijalno krive, da pogrešno alociraju resurse i smanjuju unutarnju motivaciju, mogu zvučati ekstremno, no ponekad je argumentacija jasnija kad je dovedena do krajnosti. Iako postoje ekonomski argumenti i empirijske činjenice koje ukazuju na to da pretjerana uporaba metrike može imati brojne neočekivane nuspojave, ekonomisti, kao i agenti koje promatraju, nisu skloni kutnim, krajnjim rješenjima.
Stoga namjera nije prenijeti poruku da su sve mjere loše i da ih ne treba koristiti (kao da je to uopće moguće), već da korištenje metrike treba uzeti s dozom rezerve i ne pobrkati sa znanjem. U kompliciranim situacijama koje nas okružuju, ponekad je jednostavnije posegnuti za prečacem, jednostavnom mjerom nečeg kompleksnog, no jednostavne mjere ne znače da pojednostavljujemo problem, već samo da ga ne shvaćamo dovoljno ozbiljno. Koliko god se potencijali i korištenje mjerenja povećavaju, teško da će ikad zamijeniti diskrecijsko razumijevanje.
Na početku sam rekao da postoje ekonomski argumenti koji podupiru stav da je bitno ekonomistima nevidljivo. Bio sam malo neiskren, postoji puno ekonomista kojima je bitno vidljivo, zapravo sam htio reći da je bitno ekonomistima – nemjerljivo.
Korištena literatura:
Baker, G. P. (1992). Incentive contracts and performance measurement. Journal of Political Economy, 100(3), 598-614.
Benabou, R., & Tirole, J. (2003). Intrinsic and extrinsic motivation. The Review of Economic Studies, 70(3), 489-520.
Fitoussi, J.-P., Sen, A. & Stiglitz, J. E. (2010) Mismeasuring Our Lives: Why GDP Doesn’t Add Up, The New Press, New York.
Heyes, A. (2005). The economics of vocation or ‘why is a badly paid nurse a good nurse’?. Journal of Health Economics, 24(3), 561-569.
Holmstrom, B., & Milgrom, P. (1991). Multitask principal-agent analyses: Incentive contracts, asset ownership, and job design. JL Econ. & Org., 7, 24.
Jacob, B. A., & Levitt, S. D. (2003). Rotten apples: An investigation of the prevalence and predictors of teacher cheating. The Quarterly Journal of Economics, 118(3), 843-877.
Muller, J. Z. (2018). The Tyranny of Metrics. Princeton University Press.
Neal, D., & Schanzenbach, D. W. (2010). Left behind by design: Proficiency counts and test-based accountability. The Review of Economics and Statistics, 92(2), 263-283.