Replikacijska kriza (1)

Samo pozitivni se broje (i objavljuju). Upitne istraživačke prakse i problem provjere rezultata eksperimenata.

Ivan Flis / 30. travnja 2022. / Članci / čita se 15 minuta

Nakon što je ugledni znanstveni časopis objavio rezultate eksperimenta koji 'potvrđuje gledanje u budućnost', u psihologiji je pokrenut reformski pokret o čemu u svom prvom članku o replikacijskoj krizi u znanosti piše Ivan Flis

  • Autor je psiholog, koji se bavi poviješću i filozofijom znanosti, znanstveni suradnik na Hrvatskom katoličkom sveučilištu

Zamislite da poznati eksperimentalni socijalni psiholog, emeritus američkog Ivy League sveučilišta, potkraj karijere pošalje dugačak rukopis u Journal of Personality and Social Psychology. Časopis je jedna od prestižnih publikacija Američke psihologijske asocijacije (APA-e) u subdisciplinama socijalne psihologije i psihologije ličnosti, sa stopom odbijanja rukopisa od 85% u toj godini (American Psychologist, 2012). Rukopis je posebice zanimljiv jer donosi rezultate serije eksperimenata koje je naš ‘ajviligerski’ emeritus proveo na više od tisuću sudionika kako bi dokazao prekogniciju. Prekognicija, kao što će svi fanovi Dosjea X i slične fantastike znati, parapsihološki je termin koji označava gledanje u budućnost. Rukopis je nakon recenzije objavljen kao znanstveni članak. Znači li to da parapsihološki fenomen prekognicije postoji?

To nije zamišljeni scenarij. To se zaista dogodilo, 2011. godine, kada je Daryl J. Bem sa Sveučilišta Cornell u Journal of Personality and Social Psychology objavio rad pod naslovom Feeling the Future: Experimental Evidence for Anomalous Retroactive Influences on Cognition and Affect, u kojem je tvrdio da je dokazao prekogniciju.

Bemov rad bio je ingeniozan. Slijedeći tradiciju izrazito metodološki i statistički inovativnih američkih parapsihologa dvadesetog stoljeća, Bem je u radu napravio pravu malu parapsihološku inovaciju. Umjesto da je smišljao komplicirane eksperimente koji bi bili strani njegovim kolegama socijalnim psiholozima, uzeo je njihove uvriježene eksperimentalne paradigme i samo ih ‘doradio’ kako bi bile parapsihološki interesantne.

Daryl Bem na konferenciji 1983. godine (Wikimedia Commons)

Uzmimo za primjer treći eksperiment u njegovom članku. U njemu je Bem domislio nešto što naziva retroaktivno udešavanje (eng. retroactive priming). Udešavanje je teorijski konstrukt sa standardnom eksperimentalnom paradigmom poznatom svakom socijalnom i kognitivnom psihologu. U takvom eksperimentu, sudionicima se prezentira neka slika i traži se da brzo procijene je li im ugodna ili neugodna, te se njihovo vrijeme reakcije zabilježi. No, trenutak prije same slike na ekranu, pojavi se pozitivna ili negativna riječ (npr. dobro ili loše). Pojavljivanje te riječi je udešavanje – eksperimenti su pokazali da sudionici brže odgovaraju kada su valencije riječi i slike usklađene, nego kada su neusklađene. Bem je ovu paradigmu doradio tako da je svoje sudionike udešavao nakon što su izrekli svoju procjenu. Na taj način, u slučaju da statistički zabilježi uzorak u podacima sličan udešavanju (da usklađeni parovi riječi i slika imaju kraće vrijeme reakcije, a neusklađeni duže), mogao bi tvrditi da je svoje sudionike udesio unatrag kroz vrijeme. Odnosno, da su oni ‘osjetili’, ili prekognitivno vidjeli riječ koja će ih udesiti par trenutaka u budućnosti..

U samom eksperimentu pola je uvjeta bilo ‘standardno’ (udešavanje trenutak prije pokazivanja slike) a pola ‘dorađeno’ (udešavanje trenutak nakon procjene slike). Valencije udešavanja, te raspored uvjeta u usklađene/neusklađene parove riječi i slika, određeni su unaprijed. Bem je koristio relativno komplicirani postupak konstrukcije parova udešavajućih riječi i slika, tako da ih je slučajnim odabiranjem uparivao dok nije dobio pola standardnih uvjeta i pola ‘dorađenih’ odnosno retroaktivnih. Detaljno provedenim i opisanim postupkom konstrukcije uvjeta istraživač se zaštitio od kritike da je manipulirao provedena udešavanja tijekom eksperimenta.

Ispada da su sudionici njegova eksperimenta nekako osjetili kojom riječi će biti udešeni nakon svoje procjene slike, te je ta riječ unatrag kroz vrijeme, usporavala ili ubrzavala njihovu procjenu.

U metodologiji eksperimentalnih nacrta, ovakav pažljiv postupak bi se podveo pod metrijsku karakteristiku valjanosti. Valjanost nam govori, među ostalim, da je istraživač postavio takve eksperimentalne kontrole da sa dozom sigurnosti možemo tvrditi kako će baš takvim eksperimentalnim postupkom mjeriti to što je naumio mjeriti. U Bemovom slučaju, to je efekt prekognicije na procjenu slike, koji je želio usporediti sa standardnim udešavanjem. Taj efekt će se pokazati ako u eksperimentalnim uvjetima u kojima je sudionik udešen nakon svoje procjene slike, usklađena udešavanja proizvode sistematski manja vremena reakcija nego neusklađena. Drugim riječima, Bem će u svom nacrtu proizvesti dokaz za prekogniciju ako statističkim testom detektira razliku između usklađenih i neusklađenih retroaktivnih udešavanja koja je usporediva s tom razlikom kod standardnih udešavanja. Bemovi rezultati eksperimenta 3 pokazivali su da u uvjetima standardnog udešavanja, usklađeni su uvjeti bili u prosjeku 23,6 milisekundi brže procijenjeni od neusklađenih. U uvjetima retroaktivnog udešavanja, usklađeni uvjeti bili su 15 milisekundi brže procijenjeni od neusklađenih. Oba rezultata bila su statistički značajna što bi značilo, ako vjerujemo u kontrole postavljene u Bemovu nacrtu, da je on dokazao efekt retroaktivnog udešavanja. Ispada da su sudionici njegova eksperimenta, u prosjeku, nekako osjetili kojom riječi će biti udešeni nakon svoje procjene slike, te je ta riječ unatrag kroz vrijeme, usporavala ili ubrzavala njihovu procjenu.

Svi Bemovi eksperimenti bili su slične prirode kao ovaj primjer s prekognicijom. Eksperimente je sveukupno proveo na uzorku većem od 1000 sudionika. Koristio je slične ‘dorađene’ standardne eksperimentalne paradigme socijalne psihologije u svih šest eksperimenata.[i] Podatke je analizirao standardnim postupcima u zajednici eksperimentalnih psihologa, koristeći frekventističko testiranje nul hipoteza. Nacrte istraživanja pripremio je pažljivo, pazeći na sve kontrole i valjanosti koje svaki preddiplomac studija psihologije teško uči kao stupove psihologijskih eksperimentalnih nacrta. Prošao je recenziju u jednom od najčitanijih časopisa svoje (ne parapsihološke!) znanstvene discipline, te mu je urednik odobrio objavljivanje rada. Sam je bio na kraju izrazito uspješne karijere, tijekom koje je pisao udžbenike, izrazito produktivno objavljivao u nekontroverznim područjima psihologije te sakupio mnogo citata i obrazovao cijele generacije budućih psihologa. Drugim riječima, jedan od najuglednijih socijalnih psihologa svoje generacije je u jednom od najuglednijih svjetskih časopisa objavio eksperimentalni dokaz prekognicije.

  • Nenadane posljedice Bemove prekognicije

Znanstvena zajednica relativno je brzo reagirala na Bemov članak. Na kraju krajeva, ulozi su bili jako visoki. Bem je ili dokazao ono za čim su parapsiholozi tragali stoljećima – stabilan eksperimentalni dokaz tvz. psi-fenomena; ili je učinio razvidnim kako nešto duboko i sistemski ne funkcionira u znanstvenom zaključivanju i objavljivanju eksperimentalnih rezultata socijalnih psihologa. Jer ako je zaista sve učinio po pravilima struke, a dokazao fenomen koji gotovo cijela znanstvena zajednica ne smatra dijelom naše fizikalne stvarnosti, onda mora da nešto ne valja s pravilima struke. Njegov rad bio je kao Sokalova afera za kvantitativnu psihologiju, samo slojevitija, jer ovaj Sokal nije bio ciničan. Već u svesku s Bemovim radom izašao je odgovor skupine nizozemskih metodologa sa Sveučilišta u Amsterdamu, u kojem su bajezijanski re-analizirali Bemove podatke i pobili sve njegove hipoteze. No, njihov zaključak upućivao je na to da objavljivanje Bemovog rada nije tek još jedna kuriozitetna fusnota u povijesti psihologije, već razlog za brigu:

Iako Bemovi eksperimenti sami po sebi ne dokazuju prekogniciju, oni nas upućuju na to da su naši akademski standardi dokazivanja baždareni na preniskoj razini. Lako je okriviti Bema za prikazivanje rezultata koji su prikupljeni djelomično u eksploratornom istraživanju; isto tako je lako kriviti Bema za prikazivanje rezultata koji precjenjuju dokaze kako bi potvrdili H1 [alternativnu hipotezu; da prekognicija postoji] zato što je koristio p-vrijednosti umjesto statističkog testa koji uspoređuje H0 sa H1. Kakogod, Bem je igrao prema implicitnim pravilima koja vode znanstveno objavljivanje – štoviše, Bem je napravio puno više eksperimenata nego što bi inače bilo potrebno. Stoga, bilo bi pogrešno interpretirati našu istragu Bemovih eksperimenata kao napad na samo istraživanje jednog nevjerojatnog fenomena; umjesto toga, naša istraga upućuje na to da je nešto duboko krivo u načinu na koji eksperimentalni psiholozi dizajniraju svoje eksperimente i prijavljuju njihove statističke rezultate.

Drugim riječima, nešto je trulo u državi Danskoj, a ne u Bemovoj glavi. Jedini razlog zašto je Bemov rad privukao toliko reanaliza, ruganja i komentara je zbog toga što je govorio o psi-fenomenu. Što znači da svi drugi, manje kontroverzni fenomeni, potencijalno koriste iste metodologije i načine zaključivanja, samo ih nitko drugi puta ne pogleda nakon što su već objavljeni.

Bemov rad djelovao je kao poziv na buđenje, na artikulaciju dubokih problema s psihologijskom znanosti koji su se godinama spominjali u kuloarima raznih sveučilišta i konferencija. Odjednom, postojao je razlog za artikulaciju tih šaputanja. Već iduće godine, u Perspectives on Psychological Science, perjanici APS-a (Association for Psychological Science, najuglednije američke organizacije za psihologijsku znanost) izašao je poseban broj posvećen replikabilnosti psihologijskih istraživanja. Urednici su bili spomenuti Eric-Jan Wagenmakers (predvodnik metodologa koji su bajezijanski reanalizirali Bemove podatke) iz Amsterdama i jedan od najutjecajnih živućih kognitivnih psihologa, Harold Pashler s kalifornijskog državnog sveučilišta u San Diegu. Njih dvojica (2012) su Bemovu epizodu uklopili u cijeli niz događaja unazad dvije godine koji su otkrivali konture krize u nastajanju: slučaj karijerne prevare Diederika Stapela (Abma 2013, Derksen 2021), susrete nekih znanstvenika s velikim problemima pri objavljivanju provedenih replikacija već objavljenih istraživanja (odnosno uredničke nevoljkosti da objavljuju replikacije), te cijelog niza izvještaja koji su upućivali na to da su mnogi uvriježeni postupci koje psiholozi koriste u pripremanju svojih istraživanja i analizi podataka u biti „upitne istraživačke prakse“ (eng. questionable research practices, QRPs; za više vidi Simons, Nelson, & Simonsohn, 2011; John, Loewenstein, & Prelec, 2012).

Upitne istraživačke prakse su u kasnijim godinama postale centralni organizacijski koncept za reformski pokret u psihologiji, jer je jasno artikulirano da prihvaćene metodologije ne moraju biti korumpirane prevarom da bi sistemski dovodile do krivih zaključaka. Dovoljna je bila institucionalizirana upitna primjena. Kod Bema, zato što je spretno koristio eksperimentalne nacrte i frekventističku statistiku da bi dokazao psi-fenomen. Kod većine drugih psihologa, dovoljan je bio motiv potrage za značajnim rezultatima kako bi uopće dobili priliku za objavljivanjem u svojim časopisima.

Uvodnik posebnog broja posvećenog replikacijskoj krizi u psihologiji.

Centralne teme budućeg reformskog pokreta u psihologiji artikulirane su u tom posebnom svesku. Bakker, van Dijk i Wicherts (2012) iznijeli su argument da ako znanost shvatimo kao igru u kojoj je cilj objavljivanje, puno je uspješnija strategija objavljivanje brzih istraživanja niske statističke snage na malim uzorcima nego priprema zahtjevnijih istraživanja. Ferguson i Heene (2012) pokazali su kako tendencija znanstvenika u psihologiji da ne objavljuju frekventistički neznačajne rezultate (eng. publication bias; publikacijska pristranost) dovodi do „prostranog groblja nemrtvih teorija“ jer se nikada ništa zaista ne pobija. U samoj psihologiji, ovaj argument je ponešto stariji. Artikulirao ga je već Rosenthal (1979) i nazvao problem papir-ladica, jer sve neznačajne studije završe u ladici nekog znanstvenika, a ne na stranicama časopisa. Nosek, Spies, i Motyl (2012) objavili su svoju drugu po redu viziju znanstvene utopije, u kojoj je riješena tenzija između potrage za znanstvenom istinom i objavljivosti. Wagnemakers i njegovi kolege (2012) artikulirali su ono što će postati agenda za cijeli reformski pokret kasnije, a to je poziv za predregistracijom, odnosno jasnim razdvajanjem eksploratornog i konfirmatornog istraživanja u psihologiji. Poznati stanfordski enfant terrible epidemiologije, John Ioannidis (2012), ponudio je svoje razloga zašto misli da znanost kao takva nije samo-ispravljujuća.

No, prava najava onog što će pogoditi znanstvenu javnost kroz par godina bio je kratki suhoparni izvještaj o budućem kolaborativnom projektu za provjeravanje reproducibilnosti psihologijskih istraživanja. Rad je potpisan konzorcijski, pod imenom Open Science Collaboration (2012). Taj je konzorcij u trenutku objavljivanja najave njihovih budućih radova okupljao 72 znanstvenika-volontera sa 41 institucije, pod vodstvom Briana Noseka. Taj će konzorcij ova previranja unutar psihologijske znanstvene zajednice dovest do naslovnica novina.

Devet krugova znanstvenog pakla. Preuzeto sa Neuroskeptic
  • Procjenjivanje reproducibilnosti psihologijske literature

Na ljeto 2015., u časopisu Science objavljen je veliki konzorcijski rad Open Science Collaborationa. U radu je skupina od 270 autora, pod vodstvom Briana Noseka, napravila stotinu replikacija već objavljenih studija. Odabrali su zadnju prijavljenu studiju u stotinu članaka objavljenih u tri časopisa, Psychological Science (jedan od disciplinarnog najprestižnijih časopisa), u već spomenutom Journal of Personality and Social Psychology eksperimentalnih socijalnih psihologa, te Journal of Experimental Psychology: Learning, Memory, and Cognition u kojemu se objavljuju eksperimentalne studije u kognitivnoj psihologiji. Svaki od replikacijskih timova kontaktirao je autore originalnih članaka te pokušao detaljno rekonstruirati nacrte i postupak provedbe istraživanja, kako bi što bliže rekreirali samu studiju i analizu podataka. U svakoj od tih studija identificiran je ključni rezultat – to su uglavnom bili rezultati inferencijalnih testova (t, ili F vrijednost) ili neka mjere veličine efekta. Kada su meta-analitički usporedili veličine efekta u originalnim studijama i svojim replikacijama, intervali oko repliciranih rezultata u 68% slučajeva nisu uključivali originalni rezultat. Drugim riječima, 2/3 studija nisu bile replicirane.

U trenutku pisanja ovog teksta, ta velika replikacija ima preko 7000 zabilježenih citata na Google Znalcu. Kolaborativni rad replikatora, kao i kritike psihologijskih metodologa, gurnule su prvo socijalnu psihologiju u duboku krizu povjerenja, a zatim i sve ostale discipline kvantitativne psihologije. To nije bilo neočekivano. Ako su njihovi rezultati bili barem približno točni, oni su upućivali na to da „najbolji od najboljih“ u najprestižnijim disciplinarnim časopisima psihologije nisu u stanju objaviti rezultate koji će proći jednostavan test direktne replikacije.

Dvije trećine studija nisu bile replicirane. Preuzeto iz rada Estimating the reproducbility of psychological science.

Medijski portali su uskoro počeli pisati o replikacijskoj krizi, te su ju pretvorili iz metodološko-statističke rasprave sa znanstvenih konferencija i stranica znanstvenih časopisa u društvenu temu za široku obrazovanu publiku. Kako je to opisao znanstveni novinar Ed Yong: „Tijekom godina pisanja o ovoj priči, razgovarao sam s mnogim psiholozima koji se osjećaju isto: predavačima koji ne znaju što da kažu studentima, studentima koji su nesigurni u koja istraživačka područja krenuti, te profesorima koji gledaju kako im akademsko tlo pod nogama nestaje. Ali sam upoznao mnoge psihologe koji pokušavaju popraviti situaciju.“

Psiholozi koji pokušavaju popraviti situaciju, od sredine 2010-ih naovamo, oformili su pokret za reformu psihologijske znanosti. Pokret je nastao na razmeđu bombastičnih naslova o neuspjelim replikacijama, raznih Facebook grupa i Twitter profila, te mnogobrojnih inicijativa za poboljšanje psihologije poput Psychological Science Acceleratora ili niza ManyLabs projekata koji su nastali po uzoru na Open Science Collaboration.

Ako je disfunkcija sustava znanstvenog objavljivanja jedan od uzroka replikacijske krize, znači li to da je problem puno širi od kvantitativne psihologije. Preuzeto sa Preuzeto s https://xkcd.com/882

Je li reforma uspjela? Što je uopće pokušala reformirati? Isto tako, jesu li ovi problemi specifični za psihologijsku znanost, ili imaju implikacije i za druge znanstvene discipline? Koja je spona između replikacijske krize i otvorene znanosti? Replikacijska kriza i razne predložene intervencije za njeno rješavanje otvaraju mnogobrojna statističko-metodološka pitanja. No, rasprava ne staje samo na statistici i nacrtima istraživanja. Proširuje se u epistemološke fundamente znanstvene psihologije, primjene inferencijalne statistike u društvenim i biomedicinskim znanostima, te široku temu duboke disfunkcije komercijalnog sustava znanstvenog objavljivanja.

U idućim tekstovima o replikacijskoj krizi pokušat ćemo obuhvatiti neke od tih tema. Prvo, koji su točno problemi u pozadini neuspjelih replikacija u psihologiji, te kakva rješenja su predložena. Drugo, ako je disfunkcija sustava znanstvenog objavljivanja jedan od uzroka replikacijske krize, znači li to da je problem puno širi od kvantitativne psihologije? U tom dijelu ćemo se posebice osvrnuti na nedavni razvoj nove kvantitativne metaznanosti kao „znanosti o znanosti“. Te na kraju, koji su to longue durée društveni procesi u razvoju znanosti doveli do trenutnog stanja u kvantitativnoj psihologiji, posebice kad taj razvoj sagledamo iz perspektive povijesti i filozofije znanosti.

  • Bilješka

[i] Eksperiment 1 i 2 slijedili su paradigmu pristup/izbjegavanje, eksperiment 3 i 4 već opisano afektivno udešavanje, eksperiment 5, 6 i 7 habituaciju, dok su eksperiment 8 i 9 koristili facilitaciju prisjećanja.

  • Literatura

Abma, R. (2013). De publicatiefabriek: Over de betekenis van de affaire-Stapel [Tvornica publikacija:  Značenje afere Stapel]. Uitgeverij Vantilt.

American Psychologist. (2012). Summary report of journal operations, 2011. American Psychologist, 67(5), 410–411. https://doi.org/10.1037/a0028431

Bakker, M., Dijk, A. van, & Wicherts, J. M. (2012). The Rules of the Game Called Psychological Science. Perspectives on Psychological Science, 7(6), 543–554. https://doi.org/10.1177/1745691612459060

Bem, D. J. (2011). Feeling the future: Experimental evidence for anomalous retroactive influences on cognition and affect. Journal of Personality and Social Psychology, 100(3), 407–425. https://doi.org/10.1037/a0021524

Derksen, M. (2021). A Menagerie of Imposters and Truth-Tellers: Diederik Stapel and the Crisis in Psychology. In S. Woolgar, E. Vogel, D. Moats, & C.-F. Helgesson (Eds.), The Imposter as Social Theory: Thinking with Gatecrashers, Cheats and Charlatans (pp. 53–76). Bristol University Press.

Ferguson, C. J., & Heene, M. (2012). A Vast Graveyard of Undead Theories Publication Bias and Psychological Science’s Aversion to the Null. Perspectives on Psychological Science, 7(6), 555–561. https://doi.org/10.1177/1745691612459059

Ioannidis, J. P. A. (2012). Why Science Is Not Necessarily Self-Correcting. Perspectives on Psychological Science, 7(6), 645–654. https://doi.org/10.1177/1745691612464056

John, L. K., Loewenstein, G., & Prelec, D. (2012). Measuring the Prevalence of Questionable Research Practices With Incentives for Truth Telling. Psychological Science, 23(5), 524–532. https://doi.org/10.1177/0956797611430953

Nosek, B. A., Spies, J. R., & Motyl, M. (2012). Scientific Utopia: II. Restructuring Incentives and Practices to Promote Truth Over Publishability. Perspectives on Psychological Science, 7(6), 615–631. https://doi.org/10.1177/1745691612459058

Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251), aac4716. https://doi.org/10.1126/science.aac4716

Open Science Collaboration (2012). An Open, Large-Scale, Collaborative Effort to Estimate the Reproducibility of Psychological Science. Perspectives on Psychological Science, 7(6), 657–660. https://doi.org/10.1177/1745691612462588

Pashler, H., & Wagenmakers, E.-J. (2012). Editors’ Introduction to the Special Section on Replicability in Psychological Science: A Crisis of Confidence? Perspectives on Psychological Science, 7(6), 528–530. https://doi.org/10.1177/1745691612465253

Rosenthal, R. (1979). The file drawer problem and tolerance for null results. Psychological Bulletin, 86(3), 638–641. https://doi.org/10.1037/0033-2909.86.3.638

Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). False-Positive Psychology Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant. Psychological Science, 22(11), 1359–1366. https://doi.org/10.1177/0956797611417632

Wagenmakers, E.-J., Wetzels, R., Borsboom, D., & van der Maas, H. L. J. (2011). Why Psychologists Must Change the Way They Analyze Their Data: The Case of Psi: Comment on Bem (2011). Journal of Personality and Social Psychology, 100(3), 426–432. https://doi.org/10.1037/a0022790

Wagenmakers, E.-J., Wetzels, R., Borsboom, D., Van der Maas, H. L. J., & Kievit, R. A. (2012). An Agenda for Purely Confirmatory Research. Perspectives on Psychological Science, 7(6), 632–638. https://doi.org/10.1177/1745691612463078