replikacijska kriza (2)

Kako je institucionalizirana proizvodnja loše znanosti.

Ivan Flis / 8. lipnja 2022. / Članci Rasprave / čita se 21 minutu

Tamo gdje je inferencijalna revolucija stubokom zamijenila gotovo sve disciplinarne standarde znanstvene kvalitete, institucionalizacija publish & perish kulture proizvela je devastirajuće posljedice, piše Ivan Flis u drugom članku o replikacijskoj krizi u nekolicini društvenih i medicinskih znanosti

U ovom nastavku serije članaka o replikacijskoj krizi dotaknut ćemo se njenih povijesnih korijena, uglavnom ne pretjerano detaljno raspravljanih. Replikacijska kriza skup je metodoloških, statističkih i organizacijskih kritika koje su se pojavile unazad zadnjih deset godina u znanstvenim zajednicama prvenstveno psihologa i biomedicinara, putem kojih mnogobrojni istraživači tvrde kako velika proporcija objavljenih članaka sadrži rezultate koji se u ponovljenim istraživanjima ne mogu opet dobiti. Dva dubinska socijalno-epistemička procesa, započeta sredinom dvadesetog stoljeća, stvorili su preduvjete za krizu. Prvi ključan proces je takozvana inferencijalna revolucija (Gigerenzer i sur., 1990). Mnoge discipline, posebice kvantitativne društvene znanosti i biomedicina, u procese kritične evaluacije znanja ugradile su statističke kriterije koji, prema nekima, proizvode duboke neželjene posljedice. Sasvim specifično, pod tim se ‘novim’ statističkim kriterijima misli na frekventističku inferencijalnu statistiku koja je postala sine qua non znanstvenog zaključivanja kvantitativnih društvenih i biomedicinskih znanstvenika tijekom pedesetih, šezdesetih i sedamdesetih godina prošlog stoljeća. Drugi dubinski proces je razvoj korporativnog znanstvenog objavljivanja i komplicirane institucionalizirane metrike ‘odjeka’ i kvantificirane procjene znanstvene kvalitete. Na sveučilištima u zapadnoj Europi i Sjevernoj Americi, objavljeni znanstveni članak u recenziranom časopisu (i citati koje privuče) glavna je valuta za zaposlenje, napredovanje, te izdašno projektno financiranje. Zanimljivo je da kritičari ne tvrde nužno da se rašireni problem manjka replikabilnosti pojavio zbog namjerne prevare, već metodološke aljkavosti (eng. questionable research practice) dovedene do razine disciplinarno institucionalizirane prakse.

Frekventističko testiranje hipoteza (naganjanja značajnosti pod svaku cijenu) te pritisak za objavljivanjem ovdje nazivam socijalno-epistemičkim procesima jer predstavljaju institucionalne okvire ponašanja znanstvenika koji imaju dalekosežne posljedice na to što se istražuje, kako se istražuje, te kako se nagrađuje ono što relevantne znanstvene zajednice smatraju najboljom znanošću. Tema ovog teksta je, dakle, komplicirani međuodnos s jedne strane frekventističke inferencijalne statistike kao, od sredine 20. stoljeća ‘novog’, normativnog kriterija za evaluaciju znanstvenog doprinosa, a s druge strane sustav objavljivanja koji te normativne kriterije institucionalizira i pretvara u karijerni selekcijski pritisak. Ovaj će tekst opisati izvore znanstvenog statusa quo koji dovodi do replikacijskih problema. U prošlom tekstu o Bemovoj prekogniciji dotakli smo se sadržaja kritike, a u idućem tekstu ću razraditi detalje reformskog pokreta znanstvenika koji pokušavaju „popraviti“ svoje znanosti, uloge Otvorene znanosti u tim reformama te metaznanosti kao empirijskog evaluatora uspješnosti reformskih inicijativa.

  • Inferencijalna revolucija

Prije sredine 20. stoljeća u znanstvenim časopisima većine društvenih i biomedicinskih znanosti niste mogli pronaći puno statistike. Ako se gdjegdje mogla pronaći, gotovo nikad to nije bilo u inferencijalnom kapacitetu za testiranje hipoteza, u smislu da je autor koristio test značajnosti kao probabilistički dokaz istinitosti ili bar točnosti hipoteza. Nakon 1950-ih, to se promijenilo u svim disciplinama koje su na neki način preuzele ideje Ronalda Fishera o eksperimentalnim nacrtima i testiranju statističke značajnosti.

Frekventističko testiranje hipoteza razvio je kao odgovor na manjkavosti u primjeni Bayesova teorema u njegovo vrijeme. Sir Ronald Fisher (Wikipedia)

Sir Ronald A. Fisher prihvatio je 1919. poziciju statističara na Rothamsted Experimental Station, jednoj od u svijetu najstarijih znanstvenih stanica za istraživanje poljoprivrede. Tada su u Rothamsteadu istraživali kako različite kompozicije tla utječu na prinose raznih usjeva. Kroz godine, istraživači u Rothamstedu su prikupili ogromne količine podataka, ali nitko nije domislio baš dobar način za njihovu analizu. Fisherov zadatak bio je osmisliti način kako testirati razlike između različitih vrsta tla, te utvrditi koji od raznih uvjeta u tim eksperimentima s usjevima proizvode veće prinose. Fisherova prva knjiga, Statistical Methods For Research Workers iz 1925., bila je „uspješna u tome da upozna biologe i agronome sa tehnikama statističke analize, te je prodala više od 20.000 kopija u prvih 25 godina izdavanja“ (Gigerenzer  i sur., 1990, str. 92). No, za našu priču, važnija je njegova treća knjiga pod naslovom The Design of Experiments iz 1935., u kojoj je Fisher eksplicirao osnovne karakteristike svojeg statistički motiviranog „komparativnog eksperimentiranja“. Iz današnje perspektive, izrazito je zanimljivo da je Fisher razvio frekventističko testiranje hipoteza kao direktan odgovor na manjkavosti u primjeni Bayesova teorema u njegovo vrijeme. Ta povijesna fusnota nam se možda čini neobična danas, kada mnogi zagovornici bajezijanske statistike tvrde kako bi se većina problema riješila kada bi znanstvenici jednostavno napustili frekventističko testiranje i naučili bajezijansko. Do kraja teksta ćemo vidjeti zašto to vjerojatno nije panaceja za svladavanje replikacijske krize.

Jerzy Neyman i Egon Pearson kritizirali su Fishera vrlo rano. Njihova se kritika može svesti na prigovore da Fisherov postupak testira samo jednu hipotezu, dok su oni zagovarali testiranje seta kontradiktornih hipoteza kako bi – u svijetlu opaženih podataka – mogli odabrati najvjerojatniju. Iz te rasprave, Fishera s jedne a Neymana i Pearsona s druge strane, dolazi razlika između pogreške tipa I i pogreške tipa II. Pogreška tipa I, slučaj kada se odbaci nul hipoteza koja je u stvarnosti točna, bila je na određeni način u fokusu Fisherova interesa. Posebice zato što u Fisherovom prijedlogu testiranja hipoteza, razina značajnosti koja određuje zonu detekcije diskrepancije između podataka i očekivane nulte hipoteze nije bila konvencionalna. Fisher nije postavio konvenciju koja je kasnije postala gotovo sveprisutna kao razina od 1% ili 5%, već je savjetovao postavljanje različitih kriterija s obzirom na podatke, nacrt i uvjete istraživanja. Pogrešku tipa II, kada se ne detektira razlika koja u stvarnosti postoji, artikulirali su Neyman i Pearson kao prigovor, pošto je Fisherov postupak na nju bio slijep. Još jedna prednost Neyman-Pearsonova postupka bila je mogućnost kalkulacije statističke snage, odnosno izračun vjerojatnosti da primijenjeni statistički test detektira razliku ako ona u stvarnosti postoji.

Iako su njihove ideje prikazane, njihovih imena nema u knjigama. Jerzy Neyman i Egon Pearson

Polemične rasprave između Fishera, Pearsona, Neymana i zagovornika bajezijanske statistike okosnica su inferencijalne statistike od kada ona postoji u svojoj trenutnoj inačici. No, ta je kuriozitetna kontroverza više-manje nestala kada se tu ‘novu’ inferencijalnu statistiku počelo izvoziti preko disciplinarnih granica u, posebice društvene, znanosti, poput psihologije, sociologije i obrazovnih znanosti. Jedna vrsta hibrida između Fisherova i Neymanovog-Pearsonovog postupka postala je standard koji se dan-danas primjenjuje u mnogim znanostima (Gigerenzer i sur., 1990, p. 107):

Hibridna teorija kombinira koncepte iz Fisherovog i Neyman-Pearsonovog pristupa. Prezentira se [u znanstvenim udžbenicima] kao anonimna statistička metoda, dok se istovremeno neriješeni kontroverzni problemi i alternativni pristupi znanstvenom zaključivanju u potpunosti ignoriraju. Ključni koncepti iz Neyman-Pearsonove teorije predstavljaju se pored Fisherovog testiranja značajnosti, bez spominjanja da su sami autori percipirali svoje ideje kao nepomirljive. Na primjer, provjeravajući (bez slučajnog uzorkovanja) trideset knjiga o statistici u psihologiji, pedagogiji i sociologiji koje su nam bile dostupne, nismo uopće pronašli imena Neymana i E. S. Pearsona u njih dvadeset i pet, iako su neke njihove ideje bile prikazane. Niti jedna nije čak ni natuknula postojanje kontroverze, a kamoli objasnila što točno je bilo sporno. Glavni koncepti nisu povezani s njihovim tvorcima – što je izrazito neobično u području poput psihologije, gdje udžbenici nižu suprotstavljene teorije i istraživače koji su ih predložili gotovo za svaki fenomen s kojima se bave. Statistika je tretirana kao apstrahirana istina, monolitna logika induktivnog zaključivanja.

Do kraja dvadesetog stoljeća, hibridna inferencijalna statistika postala je standard kvantitativnog znanstvenog istraživanja u velikom broju društvenih znanosti i biomedicine. Koja je zaista razlika između Fishera, Neymana-Pearsona i hibridnog postupka koji je postao standard u tolikim znanostima? Razliku između njih je najlakše prikazati ako ih postavimo kao algoritme za donošenje odluke o hipotezama (prema Gigerenzer, 2004). Kad bi sve tri prikazali na taj način, izgledale bi ovako:

Fisherov postupak testiranja nul hipoteze:

  1. Postavi statističku nul hipotezu. Nul hipoteza ne treba biti nulta hipoteza (drugim riječima, ne treba tvrditi da razlike između testiranih skupina ne postoje uopće).
  2. Prijavi točnu razinu značajnosti (npr. p = 0.051 ili p = 0.049). Nemoj koristiti konvencionalne razine poput 5%, a posebice nemoj govoriti o prihvaćanju ili odbacivanju hipoteza.
  3. Koristi ovu proceduru samo ako znaš jako malo o testiranom problemu.

Neyman-Pearsonov postupak, s druge strane, izgledao bi ovako:

  1. Postavi dvije statističke hipoteze, H1 i H2, te odluči o prihvatljivoj α (vjerojatnost greške tipa I), β (vjerojatnost greške tipa II) i veličini uzorka prije nego provedeš eksperiment, na temelju subjektivnih cost-benefita te odluke će ti odrediti područje odbacivanja za svaku hipotezu.
  2. Ako podaci budu u području odbacivanja H1, prihvati H2; u svim drugim slučajevima, prihvati H1. Imaj u vidu da prihvaćanje hipoteze ne znači da vjeruješ u nju, već samo da se ponašaš kao da je istinita.
  3. Korisnost ove procedure je ograničena na situacije u kojima imaš disjunkciju u hipotezama (npr. ili je µ1= 8 ili µ2=10 istinita) te samo na situacije u kojima možeš napraviti smislenu procjenu prednosti i mana pri odabiru alfe i bete.

Hibridni postupak bi tada izgledao ovako:

  1. Postavi statističku nul hipotezu koja tvrdi ili „da ne postoje razlike između eksperimentalnih skupina“ ili „da nema korelacija između mjerenih varijabli“. Nemoj specificirati predviđanja svoje istraživačke hipoteze ili bilo kakve alternativne sadržajne hipoteze.
  2. Koristi razinu od 5% kao konvenciju za odbacivanje nul hipoteze. Ako su rezultati značajni, prihvati svoju istraživačku hipotezu. Prijavi rezultate kao p<0.05, p<0.01, ili p<0.001 (koja god vrijednost je iduća najbliža p-vrijednosti koja je izračunata).
  3. Uvijek provedi ovu proceduru.

Tako specificiran, hibridni postupak daje mehanički kriterij za prihvaćanje ili odbacivanje hipoteza. Isto tako, može ga se u potpunosti odvojiti od svih sadržajnih razmatranja o nacrtu istraživanja, eksperimentalnih kontrola, valjanosti zaključka, ili razmatranja kako sam objekt istraživanja definira različite statističke vrijednosti modela ili preduvjete njegova postavljanja. Razlike između pristupa Neymana-Pearsona i Fishera, te sadržajne rasprave o definiciji hipoteza koje se testiraju, postaju potpuno bespredmetne.

Ovdje je vrlo važna jedna primjedba povjesničara znanosti Theodeorea Portera. Porter kaže kako je potpuno pogrešna romantična ideja da se statistički postupci direktno deriviraju iz neke ezoterične i formalne matematike, pa tek onda primjenjuju u raznim znanstvenim područjima. „[S]tatističko zaključivanje nije putovalo prema dolje uzduž hijerarhije znanosti, iz matematike i fizike u biologiju i, na kraju, u društvene znanosti. Dapače, najrevnije je prihvaćeno u slabijim disciplinama, kao što su psihologija i medicinska istraživanja, te svakako u njihovim primijenjenim subdisciplinama“ (Porter, p. 200). Inferencijalna statistika koja je Fisheru bila korisna za rasuđivanje o tome koje tlo je najpogodnije za koji usjev, te eksperimentalni nacrti koji ju ‘hrane’ podacima, uz minimalne su se promjene lako mogli transferirati u obrazovanje, medicinu, industriju…

Statističko zaključivanje najrevnije je prihvaćeno u slabijim disciplinama. Theodore Porter

Uzmimo dva povijesna primjera: medicina i psihologija. U medicini se druga polovica dvadesetog stoljeća često naziva ‘statističkom erom’ kliničke medicine. Glavni lučonoše te nove ere bili su, kako ih povjesničar medicine Harry Marks naziva, terapeutski reformatori. Terapeutski reformatori nisu bili samo statističari, već raznolika grupa liječnika i stručnjaka u pomoćnim medicinskim znanostima, koji su željeli „koristiti znanost kontroliranih eksperimenata kako bi usmjerili medicinsku praksu“ (Marks, 1997, p. 2). Inferencijalna statistika bila je jedna od njihovih reformskih alatki, te su je uveli u medicinu putem randomiziranih kontroliranih kliničkih eksperimenata (randomized controlled trial, RCT). RCT je u svom začetku, kako kaže Marks, tek još jedna „ekstenzija R. A. Fisherovih ideja o eksperimentalnim nacrtima“ (1997, str. 132). Drugim riječima, Fisherove upute kako postaviti nacrt eksperimenta i koristiti frekventističko testiranje nul hipoteza predstavljaju u biomedicini 20. stoljeća okosnicu dubokog previranja oko toga koja grupa stručnjaka će za sve ostale definirati što znači objektivno i odgovorno medicinsko istraživanje.

Stručna informirana procjena pojedinog liječnika te sadržajna razmatranja testiranih efekata postali su slabije prihvaćeni oblici donošenje objektivnog znanstvenog mišljenja, ili su potpuno nestali

Marksov argument se svodi na to da su profesije poput liječničke tijekom dvadesetog stoljeća odgovorile na sve veće laičke, ali i regulatorne, zahtjeve za transparentnošću i objektivnim dokazima za korisnost (ili, u medicini još važnije, sigurnost) terapijskih intervencija pomoću inferencijalne statistike. Frekventistička inferencijalna statistika, te nacrti istraživanja koji su proizvodili baš onako organizirane podatke da su mogli ‘hraniti’ testove značajnosti, predstavljali su mehanički, objektivni, neosobni postupak za dokazivanje korisnosti pojedinih lijekova i terapijskih intervencija. Zanimljivo je da su pri tome proizveli sličan efekt kao i u društvenim znanostima koje su institucionalizirale inferencijalnu statistiku; to da su stručna informirana procjena pojedinog liječnika te sadržajna razmatranja testiranih efekata postali manje prihvaćeni modusi za donošenje objektivnog znanstvenog mišljenja, ili su u nekim slučajevima potpuno nestali. Danas susrećemo posljedice tog procesa svaki puta kada istraživač u biomedicini naziva RCT ‘zlatnim standardom’ ili vrhom hijerarhije dokazivanja, neovisno o primjerenosti tih postupaka za pojedini istraživački problem.

Slučaj psihologije drugačiji je od medicine, iako je naizgled proizveo isti efekt, frekventističku inferencijalnu statistiku kao jedinu relevantnu strategiju znanstvenog zaključivanja. U psihologiji, početkom i sredinom dvadesetog stoljeća dogodila se intelektualna i geografska migracija: od fin de siècle njemačkih laboratorija za istraživanje percepcije koji su preuzeli i razvili psihologijsko eksperimentiranje po uzoru na eksperimente u fiziologiji, ka američkim laboratorijima primijenjene psihologije s početka 20. stoljeća koji su se bavili ‘socijalnom statistikom’ i novim metodama mjerenja poput upitnika i papir-olovka testova. Psihologija, koja u Sjedinjenim Američkim Državama doživljava pravu transformaciju iz rigidne njemačke eksperimentalne znanosti u pragmatičnu američku praktičnu znanost, predstavljala je savršen poligon za primjenu ideja ‘inferencijalnih stručnjaka’. Ne samo to, nego je tom primjenom davala kvantitativni kredibilitet psiholozima koji su se već tada udaljili od ograničenih eksperimenata u psihofizici i percepciji, te počeli istraživati ‘teške’ fenomene poput inteligencije, ličnosti, ili nejednakosti u društvu. Ako su eksperimentalni psiholozi željeli zadržati svoj status metodološke i znanstvene elite unutar psihologijskih subdisciplina, trebala im je nova organizacijska osovina koju su pronašli u frekventističkoj inferencijalnoj statistici.

Kvantitativna psihologija grupa i pripadajuća joj inferencijalna statistika puno je lakše mogla odgovoriti na primijenjene probleme od kompliciranih, detaljnih i više-manje individualnih eksperimenata. Kako to opisuje povjesničar psihologije Kurt Danziger (1990, p. 103): „[Istraživanja] su trebala proizvesti podatke koji bi bili korisni u donošenju odluka i ograničenim administrativnim kontekstima. To je značilo istraživanja koja su donosila usporedive kvantitativne podatke o izvedbi velikog broja osoba u ograničenim uvjetima.“

Kasno 20. stoljeće i pojava ‘psihologiziranih društava’. Nikolas Rose (Wikimedia Commons)

Iscrpljujući introspektivni eksperimenti starih njemačkih profesora nisu mogli doći ni blizu korisnosti papir-olovka testova. Papir-olovka testovi, te pripadajuća im socijalna statistika sa korijenima u Galtonovom i Pearsonovom eugeničkom pogledu na individualne varijacije između ljudi, postala je izvrstan parnjak inferencijalnoj statistici statističkih testova. Jedan od najpoznatijih primjera ovog „trijumfa kvantitativnog“ kako to naziva Danziger, bili su papir-olovka testovi inteligencije koje su američki psiholozi više-manje uspješno primijenili za masovnu selekcijsku procjenu inteligencije milijuna regruta u Prvom i Drugom svjetskom ratu (Capshew, 1999). Slično kao i u prethodnoj Marksovoj analizi razvoja u medicini, povjesničari psihologije 20. stoljeća poput Danzigera tvrde da je institucionalno dominantna kombinacija inferencijalne statistike i nacrta istraživanja isplivala na vrh i reorganizirala cijelu znanstvenu disciplinu ne nužno zbog svoje epistemičke premoći („bolja za donošenje zaključka“), već je bila praktično korisnija krajnjim korisnicima psihologijskog znanja. Terminom Nikolasa Rosea, „psihologizirana društva“ kasnog 20. stoljeća bila su u potpunosti spremna za administrativno korištenje takvih znanstvenih zaključka u vojsci, industriji, školama, zatvorima, bolnicama i drugdje.

Drugim riječima, do kraja dvadesetog stoljeća veliki broj društvenih i biomedicinskih znanosti je institucionalizirao, kroz obrazovanje novih stručnjaka i uredničke politike časopisa, hibridnu frekventističku inferencijalnu statistiku kao preferiran način znanstvenog zaključivanja. Gigerenzerovim rječnikom, monolitnu logiku induktivnog zaključivanja. Ta institucionalizacija, kako nam opisuju Gigerenzer, Porter, Marks i Danziger, imala je svoje kritičare i nije prošla bez otpora, ali je na kraju bila više-manje uspješna. Njezina se institucionalizacija odvila u kontekstu, da koristim Ted Porterov termin, „politike objektivnosti“. U zapadnim demokracijama, tijekom dvadesetog stoljeća, došlo je do eksplozije nepovjerenja, odnosno kako to Porter kaže, „barem nepovjerenja u osobnu prosudbu“. Statistička analiza, odnosno kvantifikacija povjerenja išla je rame uz rame s metodološkim reformama baš onih znanstvenih disciplina koje stoje na prvoj liniji obrane znanstvenog autoriteta – znanosti koje proizvode praktična rješenja i opisuju fenomene koji su nam svima poznati iz svakidašnjeg života. Omogućila je da osobnu prosudbu, koja je u periodu od stotinu godina potpuno izgubila kredibilitet, zamijenimo objektiviziranim, birokratiziranim, kvantitativnim kriterijima za ‘dobro’ zaključivanje.

Je li cjepivo efikasno, neefikasno ili opasno kod neke specifične bolesti? Možemo li na objektivan način odabrati kandidate koji će upisati najbolje srednje škole i sveučilišta? Kako da spriječimo ili bar smanjimo obiteljsko nasilje?

Je li cjepivo efikasno, neefikasno ili opasno kod neke specifične bolesti? Možemo li na objektivan način odabrati kandidate koji će upisati najbolje srednje škole i sveučilišta? Kako da spriječimo ili bar smanjimo obiteljsko nasilje? Već iz ova tri pitanja koja možemo susresti na naslovnicama novina naziremo zašto je sirenski poziv inferencijalnih stručnjaka u statistici toliko moćan. ‘Objektivni’  odgovori znanstvenih autoriteta imaju nemjerljivo veću društvenu premiju od nejasnih, kondicionalnih, kompliciranih i jedva razumljivih opisa kompleksnih fenomena. Čak i onda kada su ti ‘objektivni’ odgovori u potpunosti neprimjereni, a detaljni i fuzzy znanstveni opisi nasušno potrebni.

Znači li to da nema mjesta za inferencijalnu statistiku u znanosti? Ne, takav stav ne bi bilo opravdano zauzeti. Problem sa inferencijalnom statistikom nastaje kada je znanstvena zajednica u nekoj disciplini shvati kao zlatni i jedini put do opravdanih istinitih uvjerenja. Kada statistička logika počne u potpunosti definirati što su korisni istraživački nacrti; kako postavljamo, definiramo i evaluiramo teorije; te što se uopće može legitimno reći o nekom fenomenu od interesa. Kada se statistička logika testiranja hipoteza administrativno ugradi  u gatekeeping mehanizme neke discipline nauštrb svega ostalog.

Ako znanstvena disciplina internalizira značajnost hibridnog testiranja kao jedini (ili bar dominantni) sadržajni kriterij za dokazivanje istinitosti ili neistinitosti hipoteza, jednostavan truizam je da će ponašanje stotina tisuća znanstvenika koji prate takve leme za zaključivanje proizvesti sistematske utjecaje na cijele literature znanstvenih disciplina. Literatura, kao takva, će postati dubinski strukturirana kroz postupke zaključivanje individualnih znanstvenika. Kada na temelju te strukture literature počnemo provoditi selekciju znanstvenika, stvaramo uvjete za prirodnu selekciju loše znanosti.

  • Prirodna selekcija loše znanosti

Još je Derek de Solla Price, ‘otac scijentometrije’, opisao kako se znanstvene zajednice i literature oko kojih su okupljene, šire eksponencijalno. Svakih nekoliko godina, broj produktivnih znanstvenika se udvostručuje, kao i njihovi outputi. Pritisak natjecanja je enorman. Znanstvenike se evaluira putem više proxy mjera kvalitete koje se uglavnom svedu na različite artikulacije i kvantifikacije prestiža. Najčešći je broj objavljenih radova, posebice u najprestižnijim transdisciplinarnim časopisima poput Naturea, Sciencea ili Cella. Zatim prema broju citata, odnosno famoznom odjeku (impact), tih radova. Prestiž rada se isto tako usko veže uz sposobnost znanstvenika da osvoji najizdašnije i najkompetitivnije financiranje raznih privatnih, nacionalnih i supranacionalnih zaklada.

Svi znanstvenici danas, a i unazad više desetljeća, djeluju u takvim sustavima. Neki, poput hrvatskog, još su u začecima i pokušavaju doseći razinu kompetitivnosti i pritiska ‘najboljih’. Drugi, poput na primjer nizozemskog, već se godinama pokušavaju udaljiti od destruktivnih pritiska koje takvi sustavi proizvode.[i] U razgovorima o replikacijskoj krizi, na funkcioniranje sustava znanstvenog objavljivanja (i industrije ‘metrika produktivnosti’ koje idu uz njega) gleda se kao na izvorište velikog broja problema. Ekonomskim rječnikom, sustav znanstvenog objavljivanja smatra se administrativnim utjelovljenim kontraproduktivnih ‘poticaja struktura’ (incentive structures) koje proizvode negativne posljedice poput raširenog plagiranja, povlačenja već objavljenih radova, srozavanja kriterija recenzije i uredničkih politika, te niske replikabilnosti istraživanja.

Preuzeto s https://scienceandink.com/

Znanstveno objavljivanje, u toj perspektivi,  jest okolina koja stvara selekcijske pritiske za širenje i preživljavanje loše znanosti. Na taj su način replikacijsku krizu, kao produkt izrazite i raširene selekcije, opisali kulturalni evolucionisti Paul Smaldino i Richard McElreath (2016). Prema njihovim modelima i analitičkom opisu, „neki od najmoćnijih poticaja u današnjoj znanosti aktivno ohrabruju, nagrađuju i šire manjkave istraživačke metode i pogrešno korištenje statističkih procedura“ (2016, str. 2). Možda najvažniji aspekt Smaldinovog i McElreathova objašnjenja je da ne podrazumijeva nikakvu zlu namjeru, aktivnu prevaru ili čak maliciozno strategiziranje od strane samih znanstvenika, jer njihova loša (nereplikabilna) znanost „proizlazi iz pozitivne selekcije metoda i navika koje vode do objavljivanja“ (2016, p. 2). Dakle, radeći najbolje što mogu, proizvode lošu znanost.

Uvjerenje da znanstveni status quo, odnosno način kako su se stvari uvijek radile (ili bar od sredine pedesetih prošlog stoljeća), u kombinaciji sa pritiskom za objavljivanjem, proizvodi upitne istraživačke prakse i nisku replikabilnost jedna je od okosnica za kritiku unutar razgovora o replikacijskoj krizi. Ovdje možemo pronaći i genezu poveznice između pokreta za Otvorenu znanosti i replikacijskih kritičara. Otvorena znanost, kao jedan od najuspješnijih političko-epistemičkih pokreta u današnjoj znanosti, okuplja gotovo sve konstruktivne i optimistične vizije nekog budućeg znanstvenog sustava koji bolje funkcionira od današnjeg.[ii] Zanimljivo je da u razgovorima o prirodnoj selekciji loše znanosti, upitnim istraživačkim praksama i replikabilnosti, disfunkciju današnjeg znanstvenog objavljivanja više ne vezujemo samo uz procesne probleme ili probleme pristupa kao što je to bio slučaj s pokretom za otvoreni pristup znanstvenim radovima. U disciplinama poput psihologije i biomedicine (Errington i sur. 2021), spuštamo ih do razine epistemičkih fundamenata, odnosno same mogućnosti da te discipline u ovakvom sustavu uopće mogu proizvoditi znanje kojem bi trebali vjerovati.

Tamo gdje je inferencijalna revolucija stubokom zamijenila gotovo sve disciplinarne standarde znanstvene kvalitete, institucionalizacija publish & perish kulture proizvela je devastirajuće posljedice. Sama po sebi, frekventistička ili bajezijanska inferencijalna statistika ne proizvode takve vrste posljedica. Ili, s druge strane, pritisci za objavljivanjem generiraju gubitke i osobnu patnju i u subdisciplinama fizikalnih znanosti, ali uglavnom ne poljuljavaju naše uvjerenje u to da su te discipline, unatoč pritiscima, sposobne na duge staze proizvoditi znanje u koje koliko-toliko možemo imati povjerenja. Problem sa frekventističkom inferencijalnom statistikom nije inherentan toj statistici, u smislu da je ona intelektualno pogrešna. Problem je u tome da se razine statističke značajnosti koje proizvodi tretiraju kao ‘svete krave’ na temelju kojih se donose odluke o istinitosti cijelih teorija i uspješnosti znanstvenika. Dobro znanstveno zaključivanje puno je kompleksniji proces od primjene statističkog testa koji proizvodi dihotomnu evaluaciju ‘vjerojatno’ ili ‘malo vjerojatno’. Posebice kada se ta dihotomna evaluacija tretira kao tvrdnja o istinitosti ili neistinitosti hipoteza, te birokratizirano koristi u administrativne svrhe evaluacije pojedinih znanstvenika. Možemo biti sigurni da ni terapeutski reformatori ni pragmatični psiholozi koji su se svojim novim metodama učinili korisnima za društvo sredinom dvadesetog stoljeća, nisu namjeravali proizvesti inferencijalni režim koji guši njihove discipline. Kao i u mnogim drugim primjerima, povijesni razvoj znanosti je komplicirani proces kojim naizgled dobre intervencije dugoročno proizvode nenadane posljedice.

  • Bilješke

[i] Vidi nacionalnu znanstvenu inicijativu Science in Transiton, https://scienceintransition.nl/en/about-science-in-transition

[ii] Za kratki opis, vidi Vlašiček i Flis (2022).

  • Literatura

Capshew, J. H. (1999). Psychologists on the March: Science, Practice, and Professional Identity in America, 1929-1969. Cambridge University Press.

Danziger, K. (1990). Constructing the Subject: Historical Origins of Psychological Research. Cambridge University Press.

Errington, T. M., Denis, A., Perfito, N., Iorns, E., & Nosek, B. A. (2021). Reproducibility in cancer biology: challenges for assessing replicability in preclinical cancer biology. Elife10, e67995.

Gigerenzer, G. (2004). Mindless statistics. The Journal of Socio-Economics, 33(5), 587–606. https://doi.org/10.1016/j.socec.2004.09.033

Gigerenzer, G., Swijtink, Z., Porter, T., Daston, L., Beatty, J., & Krüger, L. (1990). The Empire of Chance: How Probability Changed Science and Everyday Life. Cambridge University Press.

Marks, H. M. (1997). The Progress of Experiment: Science and Therapeutic Reform in the United States, 1900-1990. Cambridge University Press.

Nickerson, R. S. (2000). Null hypothesis significance testing: A review of an old and continuing controversy. Psychological Methods, 5(2), 241–301. https://doi.org/10.1037/1082-989X.5.2.241

Porter, T. M. (1995). Trust in Numbers: The Pursuit of Objectivity in Science and Public Life. Princeton University Press.

Rosenthal, R. (1979). The file drawer problem and tolerance for null results. Psychological Bulletin, 86(3), 638–641.

Smaldino Paul E. & McElreath Richard. (2016). The natural selection of bad science. Royal Society Open Science, 3(9), 160384. https://doi.org/10.1098/rsos.160384

Vlašiček, D., & Flis, I. (2021). Otvorena znanost. Kratak pregled pokreta i metodološkog značaja. Revija za Sociologiju, 51(3), 507-516.

  • Bilješke

[i] Vidi nacionalnu znanstvenu inicijativu Science in Transiton, https://scienceintransition.nl/en/about-science-in-transition

[ii] Za kratki opis, vidi Vlašiček i Flis (2022).