Replicatiecrisis

De replicatiecrisis is een probleem in de wetenschap waarbij veel, soms tot dan toe baanbrekende, onderzoeken niet reproduceerbaar bleken. Begin jaren 2010 werd duidelijk dat dit niet slechts incidenteel was, maar dat het een wijdverbreid probleem was. Dit is schadelijk voor de wetenschap, onder meer omdat replicatie een van de criteria is om wetenschap te onderscheiden van pseudowetenschap.

Reproduceerbaarheid is een belangrijk onderdeel van de wetenschappelijke methode en als een experiment niet herhaald kan worden met vergelijkbare resultaten, impliceert dit dat de oorspronkelijke metingen en mogelijk ook de te onderbouwen hypothese of theorie onjuist waren.[1] Een wetenschappelijke studie moet dan ook herhaald worden om zeker te maken dat het geen anekdotisch bewijs betreft. Bij directe replicatie wordt het originele onderzoek vrijwel exact gevolgd, terwijl bij een conceptuele replicatie een andere methode wordt gebruikt of een andere groep wordt onderzocht.

De replicatiecrisis heeft de aandacht versterkt voor metawetenschap, het toepassen van wetenschappelijke methodes om de manier waarop wetenschap wordt bedreven te onderzoeken.

Aanloop[bewerken | brontekst bewerken]

Al in 2005 betoogde John Ioannidis dat de manier waarop de p-waarde wordt gebruikt om significantie aan te tonen ertoe leidt dat de meeste publicaties foutpositieve resultaten bevatten.[2] Ioannidis en Thomas Trikalinos noemden dit het Proteusfenomeen.[3]

Reproducibility Project[bewerken | brontekst bewerken]

In 2011 werd duidelijk dat Diederik Stapel zich schuldig had gemaakt aan wetenschappelijke fraude, meer specifiek aan datamanipulatie en het verzinnen van gegevens. Schokkend was niet alleen de fraude zelf, maar ook dat de 55 publicaties waarbij fraude werd vastgesteld door het systeem van peerreview waren gekomen.[4]

In hetzelfde jaar kwam Daryl Bem met een studie waarin de mogelijkheid om de toekomst te voelen werd geopperd.[5] Dit was het begin van een controverse die niet alleen problemen met replicatie onder de aandacht bracht, maar ook de moeilijkheid om mislukte pogingen gepubliceerd te krijgen. Zo kregen onder meer Stuart Ritchie, Chris French en Richard Wiseman hun studie maar met moeite gepubliceerd.[6] Replicatiestudies zijn niet geliefd, niet bij wetenschappelijk tijdschriften, maar ook niet bij financiers.

Dat de studie van Bem toch gepubliceerd was, kwam omdat deze op het eerste gezicht aan alle voorwaarden voldeed die worden gesteld aan hoe gegevensverzameling en -verwerking plaats zou moeten vinden. Toevallig werd in oktober 2011 het artikel False Positive Psychology gepubliceerd waarin duidelijk werd gemaakt hoe groot de invloed kan zijn van de selectie van gegevens op het aantal foutpositieve resultaten. Onderzocht werd in hoeverre mensen zich jonger of ouder voelden na het horen van een bepaald muzieknummer. Het controlenummer was Kalimba van Mr. Scruff en de eerste vraag was of mensen zich na het horen van het kinderliedje Hot Potato van The Wiggles ouder zouden voelen dan na het horen van Kalimba. De tweede vraag was of mensen zich na het horen van When I'm Sixty-Four van The Beatles juist jonger zouden voelen. Beide vragen werden bevestigend beantwoord, wat ondersteund wordt met wat een valide onderbouwing lijkt te zijn. In de rest van het artikel wordt duidelijk gemaakt dat de gewenste resultaten bereikt werden door bepaalde selectiekeuzes te maken, maar vooral hoe makkelijk het is om bewust of onbewust het aantal foutpositieve resultaten sterk te veranderen.[7]

Deze drie gebeurtenissen waren aanleiding voor het Reproducibility Project dat eind 2011 begon onder Brian Nosek. Het project was een crowdsourcing en wist uiteindelijk met 270 auteurs 100 gepubliceerde studies te onderzoeken. Dit waren allemaal studies uit 2008 en gepubliceerd in Psychological Science, Journal of Personality and Social Psychology en Journal of Experimental Psychology: Learning, Memory, and Cognition. Het resultaat werd in 2015 gepubliceerd.[8] Het eerste wat opviel was dat 97% van de studies stelde significante resultaten te hebben, er werden dus vrijwel geen studies gepubliceerd waarbij de aanvankelijke hypothese niet houdbaar bleek, maar juist de nulhypothese van toepassing was. Meer specifiek was bij deze 97 studies de p-waarde kleiner dan de gebruikelijke, maar arbitraire 0,05. Bij de pogingen tot replicatie was het aantal significante resultaten gedaald tot 35 studies (36%) en bleek de effectgrootte nog niet de helft van de oorspronkelijke studies.[9]

Omvangrijker[bewerken | brontekst bewerken]

In 2016 werd een grootschalige studie gepubliceerd waarin meer dan 250.000 nulhypothese-significantietoetsingen werden onderzocht met het speciaal daarvoor ontwikkeld pakket statcheck.[10] Met dit programma werden de helft van de studies onderzocht die tussen 1985 en 2013 in 8 psychologietijdschriften waren gepubliceerd. In de helft van de publicaties voldeed ten minste een p-waarde niet aan alle voorwaarden en in 1/8 van de studies kon deze van invloed zijn op de statistische uitkomst.[11]

Hoewel de crisis in de psychologie veel aandacht kreeg in de media, speelde het ook in andere vakgebieden. Om te voorkomen dat er te veel wordt geïnvesteerd in onderzoeksrichtingen die geen resultaat opleveren, voeren de meeste farmaceutische bedrijven validatieonderzoeken uit. Bij Bayer werd zo in 2011 gevonden dat van 67 projecten slechts zo'n 20-25% te reproduceren was.[12]

Het biotechnologische bedrijf Amgen had een decennium lang geprobeerd om studies op het gebied van hematologie en oncologie te repliceren. Er waren 53 zeer belangrijke studies geïdentificeerd, maar bij slechts 6 (11%) daarvan bleek het mogelijk de resultaten te repliceren.[13]

In 2016 bleek dat het probleem veel breder was. Van 1576 wetenschappers – scheikundigen, natuurkundigen, ingenieurs, aard- en milieuwetenschappers, biologen, geneeskundigen en andere vakgebieden – gaf 90% aan te denken dat er in meer of mindere mate sprake was van een replicatiecrisis. Meer dan 70% van hen hadden zonder succes gepoogd andere studies te repliceren, terwijl ruim de helft niet in staat bleek eigen studies te repliceren.[14]

Van de 18 economische studies die tussen 2011 en 2014 in de American Economic Review en de Quarterly Journal of Economics werden gepubliceerd, bleken er 11 (61%) te repliceren, terwijl de effectgrootte 66% was van die in de originele studies.[15] Binnen de economische wetenschappen leek het onderzoek naar problemen rond replicatie echter op weerstand te stuiten.[16]

Een groot deel van deze auteurs boog zich daarna over sociale wetenschappen en kwam in 2018 tot de conclusie dat van 21 studies die tussen 2010 en 2015 in Nature en Science werden gepubliceerd, konden er 13 (62%) gerepliceerd worden en daarbij was de effectgrootte zo'n 50% van de originele effectgrootte.[17]

In datzelfde jaar werden 28 klassieke psychologische studies onderzocht, waarvan er 15 (54%) significant bleken te zijn, maar ook daarvan was de effectgrootte zo'n 75% van de originele studies, al was er nogal wat variatie rond dit gemiddelde, aangezien zo'n 25% een hogere effectgrootte had dan het origineel.[18]

Oorzaken[bewerken | brontekst bewerken]

Oorspronkelijke studies[bewerken | brontekst bewerken]

Er zijn verschillende oorzaken dat studies een hypothese bevestigen, zonder dat dit gerechtvaardigd is. Allereerst speelt het bevestigingsvooroordeel ook bij wetenschappers een rol, ook al worden zij geacht niet zozeer te verifiëren als wel te falsificeren.

Daarnaast is een academische carrière afhankelijk van de mate waarin een wetenschapper gepubliceerd wordt. Dit fenomeen van publiceer of sterf speelt al lange tijd, het werd voor het eerst in 1928 genoemd.[19] Dat blijkt ook uit een uitspraak van Hannah Arendt uit 1972:

This business of "publish or perish" has been a catastrophe. People write things which should never have been written and which should never be printed. Nobody's interested. But for them to keep their jobs and get the proper promotion, they've got to do it.[20]

Er is dan ook een publicatiebias en publicaties zijn waarschijnlijker bij hypothesebevestigende studies, hypotheseweerleggende studies verdwijnen veelal in de onderste bureaulade, het bureaulade-effect.[21] Bewuste of onbewuste gegevensselectie kan daarbij het resultaat zijn. Voor een wetenschappelijke promotie is oorspronkelijk onderzoek zelfs een vereiste, waarmee een replicatiestudies uitgesloten zijn.

Replicatiestudies[bewerken | brontekst bewerken]

Een studie uit 2012 vond dat van de psychologische onderzoeken uit 100 tijdschriften die sinds 1900 waren gepubliceerd, mogelijk slechts zo'n 1% replicatiestudies betrof. Wel nam het aantal de laatste decennia gestaag toe. In tegenstelling tot de bovenstaande studies, wist de meerderheid van de replicatiestudies de oorspronkelijke resultaten te repliceren, al was dit minder het geval als geen van de oorspronkelijke auteurs betrokken was bij de replicatiestudie.[22]

Uit de studie uit 2016 onder 1576 wetenschappers bleek dat maar weinigen hadden geprobeerd replicaties gepubliceerd te krijgen en diegenen die dat wel hadden, was vaak gevraagd om minder nadruk op de originele studie te leggen.[14]

Gevolgen[bewerken | brontekst bewerken]

Foutpositieve resultaten zetten allereerst de wetenschap op een achterstand, aangezien onderzoeksrichtingen gevolgd blijven worden die weinig kans hebben om vooruitgang te boeken.

Het gevaar bestaat ook dat de replicatiecrisis het vertrouwen in de wetenschap ondermijnt.[23] Hoewel hier weinig onderzoek naar is gedaan, lijkt dit effect beperkt door de geringe publieke bekendheid met deze crisis. Replicatie wordt daarnaast gezien als het zelfreinigende mechanisme van wetenschap.[24]

Oplossingen[bewerken | brontekst bewerken]

In hun studie uit 2011 stellen Simmons et al. een aantal randvoorwaarden voor bij de gegevensanalyse. Zo zouden de criteria voor de gegevensselectie – zoals bepalen en verwijderen van uitbijters – vooraf (ex ante) gedaan moeten worden om gegevensmassage te voorkomen en zouden er minstens 20 observaties per cel gedaan moeten worden.[7]

Een funnel-plot kan worden gebruikt bij meta-analyses om te bepalen of er aanwijzingen zijn voor publicatiebias.

Noten[bewerken | brontekst bewerken]

  1. Lamal, P.A. (1990): 'On the Importance of Replication' in Journal of Social Behavior and Personality, Volume 5, Issue 4, p. 31-35
  2. Ioannidis, J.P.A. (2005) 'Why Most Published Research Findings Are False' in PLoS Medicine, Volume 2, Issue 8, e124
  3. Ioannidis, J.P.A.; Trikalinos, T.A. (2005): 'Early extreme contradictory estimates may appear in published research: The Proteus phenomenon in molecular genetics research and randomised trials' in Journal of Clinical Epidemiology, Volume 58, Issue 6, p. 543-549
  4. Commissie Levelt; Commissie Noort; Commissie Drenth (2012): 'Falende wetenschap: De frauduleuze onderzoekspraktijken van sociaal-psycholoog Diederik Stapel'
  5. Bem, D.J. (2011): 'Feeling the future: experimental evidence for anomalous retroactive influences on cognition and affect' in Journal of Personality and Social Psychology, Volume 100, Issue 3, p. 407-425
  6. Ritchie, S.J.; Wiseman, R.; French, C.C. (2012): 'Failing the Future: Three Unsuccessful Attempts to Replicate Bem's ‘Retroactive Facilitation of Recall’ Effect' in PLoS ONE, Volume 7, Issue 3
  7. a b Simmons, J.P.; Nelson, L.D.; Simonsohn, U. (2011): 'False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant' in Psychological Science, Volume 22, Issue 11, p. 1359-1366
  8. Open Science Collaboration (2015): 'Estimating the reproducibility of psychological science' in Science, Volume 349, Issue 6251, p. 943-951
  9. Strogatz, S. (2020): 'Rebecca Goldin and Brian Nosek on Hard Truths in Math and Psychology' in Quanta Magazine'
  10. Epskamp, S.; Nuijten, M.B. (2016): 'statcheck: Extract statistics from articles and recompute p values. R package version 1.0.1.'
  11. Nuijten, M.B.; Hartgerink, C.H. J.; Assen, M.A.L.M. van; Epskamp, S.; Wicherts, J.M. (2015): 'The prevalence of statistical reporting errors in psychology (1985–2013)' in Behavior Research Methods, Volume 48, Issue 4
  12. Prinz, F.; Schlange, T.; Asadullah, K. (2011): 'Believe it or not: how much can we rely on published data on potential drug targets?' in Nature Reviews Drug Discovery, Volume 10, No. 712
  13. Begley, C.G.; Ellis, L.M. (2012): 'Raise standards for preclinical cancer research' in Nature, Volume 483, No. 7391, p. 531-533
  14. a b Baker, M. 2016): '1,500 scientists lift the lid on reproducibility' in Nature, Volume 533, No. 7604, p. 452-454
  15. Camerer, C.F; Dreber, A. et al. (2016): 'Evaluating replicability of laboratory experiments in economics' in Science, Volume 351, No. 6280, p. 1433-1436
  16. Duvendack, M.; Palmer-Jones, R.; Reed, W.R. (2017): 'What Is Meant by "Replication" and Why Does It Encounter Resistance in Economics?' in American Economic Review, Volume 107, No. 5, p. 46-51
  17. Camerer, C.F; Dreber, A. et al. (2018): 'Evaluating the replicability of social science experiments in Nature and Science between 2010 and 2015' in Nature Human Behaviour, Volume 2, Issue 9, p. 637-644
  18. Klein, R.A.; Vianello, M.; Hasselman, F. et al. (2018): 'Many Labs 2: Investigating Variation in Replicability Across Samples and Settings' in Advances in Methods and Practices in Psychological Science, p. 443-490
  19. Case, C.M. (1928): 'Scholarship in Sociology' in Sociology and Social Research, Volume 12, p. 323-340
  20. Arendt, H. (2018): Thinking Without a Banister. Essays in Understanding, 1953-1975, Schocken Books, p. 442
  21. Rosenthal, R. (1979): 'The "File Drawer Problem" and the Tolerance for Null Results' in Psychological Bulletin, Volume 86, No. 3, p. 638-641
  22. Makel, M.C.; Plucker, J.A.; Hegarty, B. (2012): 'Replications in Psychology Research: How Often Do They Really Occur?' in Perspectives on Psychological Science, Volume 7, Issue 6, p. 537-542
  23. Białek, M. (2018): 'Replications can cause distorted belief in scientific progress' in Behavioral and Brain Sciences, Volume 41, e122
  24. Mede, N.G.; Schäfer, M.S.; Ziegler, R.; Weißkopf, M. (2020): 'The "replication crisis" in the public eye: Germans' awareness and perceptions of the (ir)reproducibility of scientific research' in Public Understanding of Science, Volume 30, Issue 1, p. 91–102