La crisis de replicación (también llamada crisis de replicabilidad y crisis de reproducibilidad ) es una crisis metodológica continua en la que los resultados de muchos estudios científicos son difíciles o imposibles de reproducir . Debido a que la reproducibilidad de los resultados empíricos es una parte esencial del método científico , [2] tales fallas socavan la credibilidad de las teorías que se basan en ellos y potencialmente ponen en duda partes sustanciales del conocimiento científico.
La crisis de replicación se discute con frecuencia en relación con la psicología y la medicina , donde se han realizado esfuerzos considerables para volver a investigar los resultados clásicos, para determinar si son confiables y, si no lo son, las razones del fracaso. [3] [4] Los datos indican claramente que otras ciencias naturales y sociales también se ven afectadas. [5]
La frase crisis de replicación se acuñó a principios de la década de 2010 [6] como parte de una creciente conciencia del problema. Las consideraciones sobre causas y remedios han dado lugar a una nueva disciplina científica, la metaciencia , [7] que utiliza métodos de investigación empírica para examinar la práctica de la investigación empírica.
Las consideraciones sobre la reproducibilidad se dividen en dos categorías. La reproducibilidad en sentido estricto se refiere a reexaminar y validar el análisis de un conjunto determinado de datos. La replicación se refiere a repetir el experimento o estudio para obtener datos nuevos e independientes con el objetivo de llegar a conclusiones iguales o similares.
La replicación ha sido llamada "la piedra angular de la ciencia". [8] [9] El científico de salud ambiental Stefan Schmidt comenzó una revisión de 2009 con esta descripción de la replicación:
La replicación es una de las cuestiones centrales en cualquier ciencia empírica. Confirmar resultados o hipótesis mediante un procedimiento de repetición está en la base de cualquier concepción científica. Un experimento de replicación para demostrar que cualquier otro investigador puede obtener los mismos hallazgos en cualquier otro lugar se concibe como una operacionalización de la objetividad. Es la prueba de que el experimento refleja un conocimiento que puede separarse de las circunstancias específicas (como el tiempo, el lugar o las personas) bajo las cuales se obtuvo. [10]
Pero existe un consenso limitado sobre cómo definir la replicación y los conceptos potencialmente relacionados. [11] [12] [10] Se han identificado varios tipos de replicación:
La reproducibilidad también se puede distinguir de la replicación , en cuanto se refiere a reproducir los mismos resultados utilizando el mismo conjunto de datos. La reproducibilidad de este tipo es la razón por la que muchos investigadores ponen sus datos a disposición de otros para que los prueben. [14]
La crisis de replicación no significa necesariamente que estos campos no sean científicos. [15] [16] [17] Más bien, este proceso es parte del proceso científico en el que se podan ideas antiguas o aquellas que no pueden resistir un escrutinio cuidadoso, [18] [19] aunque este proceso de poda no siempre es efectivo. [20] [21]
Generalmente se considera que una hipótesis está respaldada cuando los resultados coinciden con el patrón previsto y se determina que ese patrón de resultados es estadísticamente significativo . Los resultados se consideran significativos siempre que la frecuencia relativa del patrón observado cae por debajo de un valor elegido arbitrariamente (es decir, el nivel de significancia ) al asumir que la hipótesis nula es verdadera. Esto generalmente responde a la pregunta de qué tan improbables serían los resultados si no existiera ninguna diferencia a nivel de la población estadística . Si la probabilidad asociada con la estadística de prueba excede el valor crítico elegido , los resultados se consideran estadísticamente significativos. [22] La probabilidad correspondiente de exceder el valor crítico se representa como p < 0,05, donde p (normalmente denominado " valor p ") es el nivel de probabilidad. Esto debería dar como resultado que el 5% de las hipótesis respaldadas sean falsos positivos (una hipótesis incorrecta se considera correcta por error), suponiendo que los estudios cumplan con todos los supuestos estadísticos. Algunos campos utilizan valores p más pequeños, como p < 0,01 (1 % de probabilidad de un falso positivo) o p < 0,001 (0,1 % de probabilidad de un falso positivo). Pero una menor probabilidad de un falso positivo a menudo requiere tamaños de muestra mayores o una mayor probabilidad de un falso negativo (una hipótesis correcta se considera erróneamente incorrecta) . Aunque la prueba del valor p es el método más utilizado, no es el único.
El comienzo de la crisis de replicación se remonta a una serie de acontecimientos ocurridos a principios de la década de 2010. El filósofo de la ciencia y epistemólogo social Felipe Romero identificó cuatro eventos que pueden considerarse precursores de la crisis actual: [23]
Esta serie de eventos generó un gran escepticismo sobre la validez de la investigación existente a la luz de fallas metodológicas generalizadas y fallas para replicar los hallazgos. Esto llevó a destacados académicos a declarar una "crisis de confianza" en la psicología y otros campos, [39] y la situación resultante llegó a conocerse como la "crisis de replicación".
Aunque el comienzo de la crisis de replicación se remonta a principios de la década de 2010, algunos autores señalan que las preocupaciones sobre la replicabilidad y las prácticas de investigación en las ciencias sociales se habían expresado mucho antes. Romero señala que los autores expresaron su preocupación por la falta de replicaciones directas en la investigación psicológica a finales de los años 1960 y principios de los 1970. [40] [41] También escribe que ciertos estudios en la década de 1990 ya informaban que los editores y revisores de revistas generalmente están predispuestos a no publicar estudios de replicación. [42] [43]
En las ciencias sociales, al blog Data Colada (cuyos tres autores acuñaron el término " p-hacking " en un artículo de 2014) se le atribuye haber contribuido al inicio de la crisis de replicación. [44] [45] [46]
Barbara A. Spellman , profesora y psicóloga cognitiva de la Universidad de Virginia, ha escrito que muchas críticas a las prácticas de investigación y las preocupaciones sobre la replicabilidad de la investigación no son nuevas. [47] Ella informa que entre finales de la década de 1950 y la década de 1990, los académicos ya expresaban preocupaciones sobre una posible crisis de replicación, [48] una tasa sospechosamente alta de hallazgos positivos, [49] prácticas de investigación cuestionables (QRP), [50] los efectos del sesgo de publicación, [51] problemas con el poder estadístico, [52] [53] y los malos estándares de presentación de informes. [48]
Spellman también identifica razones por las que la reiteración de estas críticas y preocupaciones en los últimos años condujo a una crisis en toda regla y a desafíos al status quo. En primer lugar, las mejoras tecnológicas facilitaron la realización y difusión de estudios de replicación y el análisis de grandes cantidades de literatura en busca de problemas sistémicos. En segundo lugar, el tamaño y la diversidad cada vez mayores de la comunidad de investigación hicieron que el trabajo de los miembros establecidos fuera más fácilmente examinado por otros miembros de la comunidad que no estaban familiarizados con ellos. Según Spellman, estos factores, junto con recursos cada vez más limitados e incentivos desalineados para realizar trabajo científico, llevaron a una crisis en la psicología y otros campos. [47]
Varios factores se han combinado para poner la psicología en el centro de la conversación. [54] [55] Algunas áreas de la psicología que alguna vez se consideraron sólidas, como la preparación social , han sido objeto de un mayor escrutinio debido a replicaciones fallidas. [56] Gran parte de la atención se ha centrado en el área de la psicología social , [57] aunque otras áreas de la psicología como la psicología clínica , [58] [59] [60] la psicología del desarrollo , [61] [62] [63] y la investigación educativa también han estado implicadas. [64] [65] [66] [67] [68]
En agosto de 2015 se publicó el primer estudio empírico abierto sobre reproducibilidad en psicología, denominado The Reproducibility Project: Psychology . Coordinados por el psicólogo Brian Nosek , los investigadores rehicieron 100 estudios en ciencia psicológica de tres revistas de psicología de alto rango ( Journal of Personality and Social Psychology , Journal of Experimental Psychology: Learning, Memory, and Cognition , y Psychoological Science ). 97 de los estudios originales tuvieron efectos significativos, pero de esos 97, sólo el 36% de las replicaciones arrojaron resultados significativos ( valor de p inferior a 0,05). [11] El tamaño medio del efecto en las replicaciones fue aproximadamente la mitad de la magnitud de los efectos informados en los estudios originales. El mismo artículo examinó las tasas de reproducibilidad y los tamaños del efecto por revista y disciplina. Las tasas de replicación del estudio fueron del 23 % para el Journal of Personality and Social Psychology , del 48 % para el Journal of Experimental Psychology: Learning, Memory, and Cognition y del 38 % para Psychological Science . Los estudios en el campo de la psicología cognitiva tuvieron una tasa de replicación más alta (50%) que los estudios en el campo de la psicología social (25%). [69]
Un estudio publicado en 2018 en Nature Human Behavior replicó 21 artículos de ciencias sociales y del comportamiento de Nature and Science y descubrió que solo alrededor del 62 % podía reproducir con éxito los resultados originales. [70] [71]
De manera similar, en un estudio realizado bajo los auspicios del Centro de Ciencia Abierta , un equipo de 186 investigadores de 60 laboratorios diferentes (que representan 36 nacionalidades diferentes de seis continentes diferentes) realizaron replicaciones de 28 hallazgos clásicos y contemporáneos en psicología. [72] [73] El enfoque del estudio no fue solo si los hallazgos de los artículos originales se replicaban, sino también el grado en que los hallazgos variaban en función de las variaciones en las muestras y los contextos. En general, el 50% de los 28 hallazgos no lograron replicarse a pesar del tamaño masivo de las muestras. Pero si un hallazgo se replicó, entonces se replicó en la mayoría de las muestras. Si un hallazgo no se replicó, entonces no se pudo replicar con poca variación entre muestras y contextos. Esta evidencia es inconsistente con una explicación propuesta de que las fallas en la replicación en psicología probablemente se deben a cambios en la muestra entre el estudio original y el de replicación. [73]
Los resultados de un estudio de 2022 sugieren que muchos estudios anteriores de fenotipo cerebral ("estudios de asociación de todo el cerebro" (BWAS)) produjeron conclusiones no válidas, ya que la replicación de dichos estudios requiere muestras de miles de individuos debido a los tamaños de efecto pequeños . [74] [75]
De 49 estudios médicos realizados entre 1990 y 2003 con más de 1.000 citas, el 92% encontró que las terapias estudiadas eran efectivas. De estos estudios, el 16% fueron contradichos por estudios posteriores, el 16% había encontrado efectos más fuertes que los estudios posteriores, el 44% fueron replicados y el 24% permaneció en gran medida sin cuestionamientos. [76] Un análisis realizado en 2011 por investigadores de la compañía farmacéutica Bayer encontró que, como máximo, una cuarta parte de los hallazgos internos de Bayer replicaban los resultados originales. [77] Pero el análisis de los resultados de Bayer encontró que los resultados que se replicaban a menudo podían usarse con éxito para aplicaciones clínicas. [78]
En un artículo de 2012, C. Glenn Begley , consultor de biotecnología que trabaja en Amgen , y Lee Ellis, investigador médico de la Universidad de Texas, descubrieron que solo el 11 % de 53 estudios preclínicos sobre el cáncer tenían réplicas que pudieran confirmar las conclusiones del estudio. estudios originales. [79] A finales de 2021, The Reproducibility Project: Cancer Biology examinó 53 artículos importantes sobre el cáncer publicados entre 2010 y 2012 y demostró que entre los estudios que proporcionaron información suficiente para rehacerse, los tamaños del efecto fueron un 85% más pequeños en promedio que los hallazgos originales. . [80] [81] Una encuesta realizada a investigadores del cáncer encontró que la mitad de ellos no habían podido reproducir un resultado publicado. [82] Otro informe estimó que casi la mitad de los ensayos controlados aleatorios contenían datos erróneos (según el análisis de datos anonimizados de participantes individuales (IPD) de más de 150 ensayos). [83]
La economía se ha quedado atrás de otras ciencias sociales y de la psicología en sus intentos de evaluar las tasas de replicación y aumentar el número de estudios que intentan replicar. [12] Un estudio de 2016 en la revista Science replicó 18 estudios experimentales publicados en dos revistas económicas líderes, The American Economic Review y Quarterly Journal of Economics , entre 2011 y 2014. Encontró que alrededor del 39% no logró reproducir los resultados originales. [84] [85] [86] Alrededor del 20% de los estudios publicados en The American Economic Review se contradicen con otros estudios a pesar de basarse en conjuntos de datos iguales o similares. [87] Un estudio de hallazgos empíricos en el Strategic Management Journal encontró que alrededor del 30% de 27 artículos reevaluados mostraron resultados estadísticamente insignificantes para hallazgos previamente significativos, mientras que alrededor del 4% mostró resultados estadísticamente significativos para hallazgos previamente insignificantes. [88]
Un estudio de 2019 en Scientific Data estimó con un 95% de confianza que de 1.989 artículos sobre recursos y gestión del agua publicados en 2017, los resultados del estudio podrían reproducirse solo entre un 0,6% y un 6,8%, incluso si cada uno de estos artículos proporcionara información suficiente que permitiera para replicación. [89]
Una encuesta realizada en 2016 por Nature a 1.576 investigadores que respondieron un breve cuestionario en línea sobre reproducibilidad encontró que más del 70% de los investigadores han intentado y no han logrado reproducir los resultados del experimento de otro científico (incluido el 87% de los químicos , el 77% de los biólogos , el 69% de los físicos) . e ingenieros , 67% de los investigadores médicos , 64% de los científicos terrestres y ambientales , y 62% de todos los demás), y más de la mitad no han logrado reproducir sus propios experimentos. Pero menos del 20% había sido contactado por otro investigador incapaz de reproducir su trabajo. La encuesta encontró que menos del 31% de los investigadores cree que no reproducir los resultados significa que el resultado original probablemente sea incorrecto, aunque el 52% está de acuerdo en que existe una crisis de replicación significativa. La mayoría de los investigadores dijeron que todavía confían en la literatura publicada. [5] [90] En 2010, Fanelli (2010) [91] encontró que el 91,5% de los estudios de psiquiatría/psicología confirmaron los efectos que estaban buscando, y concluyó que las probabilidades de que esto sucediera (un resultado positivo) eran alrededor de cinco veces más altos que en campos como la astronomía o las geociencias . Fanelli argumentó que esto se debe a que los investigadores de ciencias "más blandas" tienen menos limitaciones a sus sesgos conscientes e inconscientes.
Un análisis inicial de la revisión por pares ciega a los resultados , que se ve menos afectada por el sesgo de publicación, ha estimado que el 61% de los estudios ciegos a los resultados en biomedicina y psicología han dado resultados nulos , en contraste con un estimado del 5% al 20% en investigaciones anteriores. . [92]
La crisis de replicación puede ser desencadenada por la "generación de nuevos datos y publicaciones científicas a un ritmo sin precedentes" que conduce a la "desesperación por publicar o perecer" y al incumplimiento de las buenas prácticas científicas. [93]
Las predicciones de una crisis inminente en el mecanismo de control de calidad de la ciencia se remontan a varias décadas atrás. Derek de Solla Price —considerado el padre de la cienciometría , el estudio cuantitativo de la ciencia— predijo en 1963 que la ciencia podría alcanzar la "senilidad" como resultado de su propio crecimiento exponencial. [94] Parte de la literatura actual parece reivindicar esta profecía de "desbordamiento", lamentando la decadencia tanto de la atención como de la calidad. [95] [96]
El historiador Philip Mirowski sostiene que la disminución de la calidad científica puede estar relacionada con su mercantilización, especialmente impulsada por la decisión, impulsada por las ganancias, de las grandes corporaciones de subcontratar su investigación a universidades y organizaciones de investigación por contrato . [97]
La teoría de los sistemas sociales , tal como la expone el sociólogo alemán Niklas Luhmann , inspira un diagnóstico similar. Esta teoría sostiene que cada sistema, como la economía, la ciencia, la religión o los medios, se comunica utilizando su propio código: verdadero y falso para la ciencia, ganancias y pérdidas para la economía, noticias y no noticias para los medios, etc. [98] [99] Según algunos sociólogos, la mediatización de la ciencia , [100] su mercantilización [97] y su politización, [100] [101] como resultado del acoplamiento estructural entre sistemas, han llevado a una confusión del concepto original. códigos del sistema.
Una de las principales causas de la baja reproducibilidad es el sesgo de publicación que surge del hecho de que rara vez se publican resultados estadísticamente no significativos y réplicas aparentemente no originales. Sólo una proporción muy pequeña de revistas académicas de psicología y neurociencias acogió explícitamente la presentación de estudios de replicación en su objetivo y alcance o instrucciones a los autores. [102] [103] Esto no fomenta la presentación de informes sobre estudios de replicación, ni siquiera los intentos de realizarlos. Entre los 1.576 investigadores que Nature encuestó en 2016, solo una minoría había intentado alguna vez publicar una réplica, y varios encuestados que habían publicado réplicas fallidas señalaron que los editores y revisores exigieron que restaran importancia a las comparaciones con los estudios originales. [5] [90] Un análisis de 4.270 estudios empíricos en 18 revistas de negocios entre 1970 y 1991 informó que menos del 10% de los artículos de contabilidad, economía y finanzas y el 5% de los artículos de gestión y marketing eran estudios de replicación. [84] [104] El sesgo de publicación se ve aumentado por la presión para publicar y el sesgo de confirmación del propio autor , [a] y es un peligro inherente en el campo, que requiere un cierto grado de escepticismo por parte de los lectores. [38]
El sesgo de publicación conduce a lo que el psicólogo Robert Rosenthal llama el " efecto archivador ". El efecto cajón de archivos es la idea de que, como consecuencia del sesgo de publicación, un número importante de resultados negativos [b] no se publican. Según el filósofo de la ciencia Felipe Romero, esto tiende a producir "literatura engañosa y estudios metaanalíticos sesgados", [23] y cuando se considera el sesgo de publicación junto con el hecho de que la mayoría de las hipótesis probadas podrían ser falsas a priori , es Es posible que una proporción considerable de los resultados de la investigación sean falsos positivos, como lo demuestra el metacientífico John Ioannidis. [1] A su vez, una alta proporción de falsos positivos en la literatura publicada puede explicar por qué muchos hallazgos no son reproducibles. [23]
Las consecuencias para la replicabilidad del sesgo de publicación se ven exacerbadas por la cultura académica de "publicar o perecer". Como explica el metacientífico Daniele Fanelli, la cultura de "publicar o perecer" es un aspecto sociológico de la academia en el que los científicos trabajan en un entorno con una presión muy alta para que sus trabajos se publiquen en revistas reconocidas. Esto es consecuencia de que el ambiente de trabajo académico es hipercompetitivo y de que los parámetros bibliométricos (por ejemplo, número de publicaciones) se utilizan cada vez más para evaluar las carreras científicas. [106] Según Fanelli, esto empuja a los científicos a emplear una serie de estrategias destinadas a hacer que los resultados sean "publicables". En el contexto del sesgo de publicación, esto puede significar adoptar comportamientos destinados a hacer que los resultados sean positivos o estadísticamente significativos, a menudo a expensas de su validez (ver QRP, sección 4.3). [106]
Según Brian Nosek, fundador del Centro para la Ciencia Abierta, y sus colegas, la cultura de "publicar o perecer" creó una situación en la que los objetivos y valores de los científicos individuales (por ejemplo, la publicabilidad) no están alineados con los objetivos generales de la ciencia (por ejemplo, la búsqueda de la verdad científica). ). Esto va en detrimento de la validez de los hallazgos publicados. [107]
El filósofo Brian D. Earp y el psicólogo Jim AC Everett sostienen que, aunque la replicación beneficia a los académicos e investigadores como grupo, las características de la cultura psicológica académica desalientan la replicación por parte de investigadores individuales. Argumentan que realizar replicaciones puede llevar mucho tiempo y restar recursos a proyectos que reflejan el pensamiento original del investigador. Son más difíciles de publicar, en gran parte porque no son originales, e incluso cuando pueden publicarse es poco probable que sean vistos como contribuciones importantes al campo. Las réplicas "traen menos reconocimiento y recompensa, incluido el dinero en forma de subvenciones, a sus autores". [108]
En su libro de 1971 El conocimiento científico y sus problemas sociales , el filósofo e historiador de la ciencia Jerome R. Ravetz predijo que la ciencia—en su progresión desde la "pequeña" ciencia compuesta por comunidades aisladas de investigadores a la "gran" ciencia o "tecnociencia"— sufriría importantes problemas en su sistema interno de control de calidad. Reconoció que la estructura de incentivos para los científicos modernos podría volverse disfuncional, creando incentivos perversos para publicar cualquier hallazgo, por dudoso que fuera. Según Ravetz, la calidad en la ciencia se mantiene sólo cuando existe una comunidad de académicos, unidos por un conjunto de normas y estándares compartidos, que estén dispuestos y sean capaces de responsabilizarse mutuamente.
Ciertas prácticas editoriales también dificultan la realización de replicaciones y el seguimiento de la gravedad de la crisis de reproducibilidad, ya que los artículos a menudo vienen con descripciones insuficientes para que otros académicos reproduzcan el estudio. El Proyecto de Reproducibilidad: Biología del Cáncer mostró que de 193 experimentos de 53 artículos destacados sobre el cáncer publicados entre 2010 y 2012, solo 50 experimentos de 23 artículos tienen autores que proporcionaron suficiente información para que los investigadores rehicieran los estudios, a veces con modificaciones. Ninguno de los 193 artículos examinados tenía sus protocolos experimentales completamente descritos y para replicar el 70% de los experimentos fue necesario solicitar reactivos clave. [80] [81] El estudio antes mencionado de hallazgos empíricos en el Strategic Management Journal encontró que el 70% de 88 artículos no pudieron replicarse debido a la falta de información suficiente para los datos o procedimientos. [84] [88] En recursos hídricos y gestión , la mayoría de los 1987 artículos publicados en 2017 no fueron replicables debido a la falta de información disponible compartida en línea. [89]
Las prácticas de investigación cuestionables (QRP) son comportamientos intencionales que aprovechan el área gris del comportamiento científico aceptable o explotan los grados de libertad del investigador (DF del investigador), lo que puede contribuir a la irreproducibilidad de los resultados al aumentar la probabilidad de resultados falsos positivos. [109] [110] [38] Los investigadores DF se ven en la formulación de hipótesis , el diseño de experimentos , la recopilación y análisis de datos y la presentación de informes de investigaciones . [110] Algunos ejemplos de QRP son el dragado de datos , [110] [111] [37] [c] informes selectivos , [109] [110] [111] [37] [d] y HARKing (formular hipótesis después de que se conocen los resultados) . [110] [111] [37] [e] En medicina, los estudios irreproducibles tienen seis características en común. Estos incluyen que los investigadores no estén cegados a los brazos experimentales versus los de control, no repetir los experimentos, falta de controles positivos y negativos , no informar todos los datos, uso inadecuado de pruebas estadísticas y uso de reactivos que no fueron validados adecuadamente. . [113]
Los QRP no incluyen violaciones más explícitas de la integridad científica, como la falsificación de datos. [109] [110] Se producen investigaciones fraudulentas, como en el caso del fraude científico realizado por el psicólogo social Diederik Stapel , [114] [13] el psicólogo cognitivo Marc Hauser y el psicólogo social Lawrence Sanna, [13] pero parece ser poco común. [13]
Según el profesor de IU Ernest O'Boyle y el psicólogo Martin Götz, alrededor del 50% de los investigadores encuestados en varios estudios admitieron haber realizado HARKing. [115] En una encuesta de 2.000 psicólogos realizada por el científico del comportamiento Leslie K. John y sus colegas, alrededor del 94% de los psicólogos admitieron haber empleado al menos un QRP. Más específicamente, el 63% admitió no haber informado todas las medidas dependientes de un estudio, el 28% haber informado todas las condiciones de un estudio y el 46% haber informado selectivamente los estudios que produjeron el patrón de resultados deseado. Además, el 56% admitió haber recopilado más datos después de haber inspeccionado los datos ya recopilados, y el 16% haber detenido la recopilación de datos porque el resultado deseado ya era visible. [37] Según la estimación del investigador de biotecnología J. Leslie Glick en 1992, entre el 10% y el 20% de los estudios de investigación y desarrollo involucraban QRP o fraude directo. [116] La metodología utilizada para estimar los QRP ha sido cuestionada y estudios más recientes sugirieron tasas de prevalencia más bajas en promedio. [117]
Un metaanálisis de 2009 encontró que el 2% de los científicos de todos los campos admitieron haber falsificado estudios al menos una vez y el 14% admitió conocer a alguien que lo hizo. Según un estudio, los investigadores médicos denunciaron con mayor frecuencia que otros investigadores médicos estas conductas indebidas. [118]
Según el profesor de la Universidad Deakin, Tom Stanley, y sus colegas, una razón plausible por la que los estudios no logran replicarse es el bajo poder estadístico . Esto sucede por tres razones. En primer lugar, es poco probable que un estudio de replicación con bajo poder estadístico tenga éxito ya que, por definición, tiene una baja probabilidad de detectar un efecto verdadero. En segundo lugar, si el estudio original tiene un poder estadístico bajo, producirá estimaciones sesgadas del tamaño del efecto . Al realizar un análisis de potencia a priori para el estudio de replicación, esto dará como resultado una subestimación del tamaño de muestra requerido. En tercer lugar, si el estudio original tiene un poder estadístico bajo, las probabilidades posteriores al estudio de que un hallazgo estadísticamente significativo refleje un efecto real son bastante bajas. Por lo tanto, es probable que un intento de replicar el estudio original fracase. [14]
Stanley y sus colegas estimaron el poder estadístico promedio de la literatura psicológica analizando datos de 200 metanálisis . Descubrieron que, en promedio, los estudios de psicología tienen entre 33,1% y 36,4% de poder estadístico. Estos valores son bastante bajos en comparación con el 80% que se considera poder estadístico adecuado para un experimento. En los 200 metanálisis, la mediana de los estudios con poder estadístico adecuado estuvo entre el 7,7% y el 9,1%. [14]
En un estudio publicado en Nature , la psicóloga Katherine Button y sus colegas realizaron un estudio similar con 49 metanálisis en neurociencia, estimando un poder estadístico medio del 21%. [119] El metacientífico John Ioannidis y sus colegas calcularon una estimación del poder promedio para la investigación económica empírica, encontrando un poder medio del 18% basándose en la literatura basada en 6.700 estudios. [120] A la luz de estos resultados, es posible que una de las principales razones de los fracasos generalizados en la replicación en varios campos científicos pueda ser un poder estadístico muy bajo en promedio.
Como también informaron Stanley y sus colegas, otra razón por la que los estudios podrían no replicarse es la alta heterogeneidad de los efectos que se van a replicar. En el metanálisis, la "heterogeneidad" se refiere a la variación en los resultados de la investigación que resulta de que no existe un tamaño de efecto único y verdadero. En cambio, es mejor considerar los hallazgos en tales casos como una distribución de efectos verdaderos. [14] La heterogeneidad estadística se calcula utilizando la estadística I-cuadrado, [121] definida como "la proporción (o porcentaje) de variación observada entre los tamaños del efecto informados que no puede explicarse por los errores estándar calculados asociados con estos tamaños del efecto informados". [14] Esta variación puede deberse a diferencias en los métodos experimentales, poblaciones, cohortes y métodos estadísticos entre los estudios de replicación. La heterogeneidad plantea un desafío para los estudios que intentan replicar los tamaños del efecto encontrados anteriormente . Cuando la heterogeneidad es alta, las replicaciones posteriores tienen una alta probabilidad de encontrar un tamaño del efecto radicalmente diferente al del estudio original. [F]
Es importante destacar que también se encuentran niveles significativos de heterogeneidad en las replicaciones directas/exactas de un estudio. Stanley y sus colegas discuten esto mientras informan sobre un estudio realizado por el científico cuantitativo del comportamiento Richard Klein y sus colegas, donde los autores intentaron replicar 15 efectos psicológicos en 36 sitios diferentes en Europa y los EE. UU. En el estudio, Klein y sus colegas encontraron cantidades significativas de heterogeneidad en 8 de 16 efectos (I-cuadrado = 23% a 91%). Es importante destacar que, si bien los sitios de replicación diferían intencionalmente en una variedad de características, tales diferencias podrían explicar muy poca heterogeneidad. Según Stanley y sus colegas, esto sugería que la heterogeneidad podría haber sido una característica genuina de los fenómenos investigados. Por ejemplo, los fenómenos podrían verse influenciados por los llamados "moderadores ocultos", factores relevantes que antes no se consideraban importantes en la producción de un determinado efecto.
En su análisis de 200 metanálisis de efectos psicológicos, Stanley y sus colegas encontraron un porcentaje medio de heterogeneidad de I-cuadrado = 74%. Según los autores, este nivel de heterogeneidad puede considerarse "enorme". Es tres veces mayor que la varianza del muestreo aleatorio de los tamaños del efecto medidos en su estudio. Si se considera junto con el error de muestreo , la heterogeneidad produce una desviación estándar de un estudio al siguiente incluso mayor que el tamaño del efecto mediano de los 200 metanálisis que investigaron. [g] Los autores concluyen que si la replicación se define mediante un estudio posterior que encuentra un tamaño del efecto suficientemente similar al original, el éxito de la replicación no es probable incluso si las replicaciones tienen tamaños de muestra muy grandes. Es importante destacar que esto ocurre incluso si las replicaciones son directas o exactas, ya que, no obstante, la heterogeneidad sigue siendo relativamente alta en estos casos.
En economía, la crisis de replicación también puede verse exacerbada porque los resultados econométricos son frágiles: [122] el uso de procedimientos de estimación o técnicas de preprocesamiento de datos diferentes pero plausibles puede conducir a resultados contradictorios. [123] [124] [125]
El profesor Jay Van Bavel de la Universidad de Nueva York y sus colegas sostienen que otra razón por la que los hallazgos son difíciles de replicar es la sensibilidad al contexto de ciertos efectos psicológicos. Desde este punto de vista, las fallas en la replicación podrían explicarse por diferencias contextuales entre el experimento original y la replicación, a menudo llamadas " moderadores ocultos ". [126] Van Bavel y sus colegas probaron la influencia de la sensibilidad al contexto volviendo a analizar los datos del ampliamente citado Proyecto de Reproducibilidad llevado a cabo por Open Science Collaboration. [11] Recodificaron los efectos según su sensibilidad a los factores contextuales y luego probaron la relación entre la sensibilidad al contexto y el éxito de la replicación en varios modelos de regresión .
Se encontró que la sensibilidad al contexto se correlacionaba negativamente con el éxito de la replicación, de modo que las calificaciones más altas de sensibilidad al contexto se asociaban con menores probabilidades de replicar un efecto. [h] Es importante destacar que la sensibilidad al contexto se correlacionó significativamente con el éxito de la replicación incluso al ajustar por otros factores considerados importantes para reproducir los resultados (por ejemplo, tamaño del efecto y tamaño de la muestra del original, poder estadístico de la replicación, similitud metodológica entre el original y la replicación). [i] A la luz de los resultados, los autores concluyeron que intentar una replicación en un tiempo, lugar diferente o con una muestra diferente puede alterar significativamente los resultados de un experimento. Por tanto, la sensibilidad al contexto puede ser una razón por la que ciertos efectos no logran replicarse en psicología. [126]
Según el filósofo Alexander Bird, una posible razón de las bajas tasas de replicabilidad en ciertos campos científicos es que la mayoría de las hipótesis probadas son falsas a priori . [127] Desde este punto de vista, las bajas tasas de replicabilidad podrían ser consistentes con una ciencia de calidad. De manera relacionada, la expectativa de que la mayoría de los hallazgos deberían replicarse sería errónea y, según Bird, una forma de falacia de la tasa base. El argumento de Bird funciona de la siguiente manera. Suponiendo una situación ideal de una prueba de significancia, donde la probabilidad de rechazar incorrectamente la hipótesis nula es del 5% (es decir, error tipo I ) y la probabilidad de rechazar correctamente la hipótesis nula es del 80% (es decir, potencia ), en un contexto donde una Si una alta proporción de hipótesis probadas son falsas, es concebible que el número de falsos positivos sea alto en comparación con el de verdaderos positivos. [127] Por ejemplo, en una situación en la que sólo el 10% de las hipótesis probadas son realmente verdaderas, se puede calcular que hasta el 36% de los resultados serán falsos positivos. [j]
La afirmación de que la falsedad de la mayoría de las hipótesis probadas puede explicar las bajas tasas de replicabilidad es aún más relevante si se considera que el poder promedio de las pruebas estadísticas en ciertos campos podría ser mucho menor que el 80%. Por ejemplo, la proporción de falsos positivos aumenta a un valor entre 55,2% y 57,6% cuando se calcula con las estimaciones de una potencia promedio entre 34,1% y 36,4% para estudios de psicología, según lo proporcionado por Stanley y sus colegas en su análisis de 200 meta- análisis en el campo. [14] Una alta proporción de falsos positivos daría como resultado que muchos hallazgos de la investigación no fueran replicables.
Bird señala que la afirmación de que la mayoría de las hipótesis probadas son falsas a priori en ciertos campos científicos podría ser plausible dados factores como la complejidad de los fenómenos investigados, el hecho de que las teorías rara vez son indiscutibles, la "distancia inferencial" entre teorías y hipótesis y la facilidad con la que se pueden generar hipótesis. En este sentido, los campos que Bird toma como ejemplo son la medicina clínica, la epidemiología genética y molecular y la psicología social. Esta situación es radicalmente diferente en campos donde las teorías tienen una base empírica sobresaliente y las hipótesis pueden derivarse fácilmente de las teorías (por ejemplo, la física experimental). [127]
Cuando los efectos se declaran erróneamente como relevantes en la literatura, no detectarlos mediante replicación conducirá a la canonización de dichos hechos falsos. [128]
Un estudio de 2021 encontró que los artículos de las principales revistas de interés general, psicología y economía con hallazgos que no se pudieron replicar tienden a citarse más con el tiempo que los artículos de investigación reproducibles, probablemente porque estos resultados son sorprendentes o interesantes. La tendencia no se ve afectada por la publicación de reproducciones fallidas, después de lo cual sólo el 12% de los artículos que citan la investigación original mencionarán la replicación fallida. [129] [130] Además, los expertos pueden predecir qué estudios serán replicables, lo que lleva a los autores del estudio de 2021, Marta Serra-García y Uri Gneezy , a concluir que los expertos aplican estándares más bajos a resultados interesantes al decidir si publicarlos. a ellos. [130]
Dentro de la comunidad científica se ha expresado preocupación de que el público en general pueda considerar la ciencia menos creíble debido a replicaciones fallidas. [131] La investigación que respalda esta preocupación es escasa, pero una encuesta representativa a nivel nacional en Alemania mostró que más del 75% de los alemanes no han oído hablar de fallas de replicación en la ciencia. [132] El estudio también encontró que la mayoría de los alemanes tienen percepciones positivas de los esfuerzos de replicación: solo el 18% piensa que la no replicabilidad muestra que no se puede confiar en la ciencia, mientras que el 65% piensa que la investigación de replicación muestra que la ciencia aplica control de calidad, y el 80% está de acuerdo que los errores y las correcciones son parte de la ciencia. [132]
Mientras la crisis de replicación de la psicología ganaba atención, la psicóloga de la Universidad de Princeton Susan Fiske generó controversia por hablar en contra de los críticos de la psicología por lo que ella llamó intimidación y socavamiento de la ciencia. [133] [134] [135] [136] Llamó a estos "adversarios" no identificados nombres como "terroristas metodológicos" y "policía de datos autoproclamada", diciendo que las críticas a la psicología deben expresarse sólo en privado o contactando al revistas. [133] El estadístico y politólogo de la Universidad de Columbia, Andrew Gelman , respondió a Fiske, diciendo que ella se había encontrado dispuesta a tolerar el "paradigma muerto" de las estadísticas defectuosas y se había negado a retractarse de las publicaciones incluso cuando se señalaban errores. [133] Añadió que su mandato como editora había sido pésimo y que se descubrió que varios de los artículos publicados que editó se basaban en estadísticas extremadamente débiles; uno de los artículos publicados por el propio Fiske tenía un error estadístico importante y conclusiones "imposibles". [133]
Algunos investigadores en psicología indican que la crisis de replicación es la base para una "revolución de la credibilidad", donde los cambios en los estándares mediante los cuales se evalúa la ciencia psicológica pueden incluir enfatizar la transparencia y la apertura, prerregistrar proyectos de investigación y replicar investigaciones con estándares más altos para que la evidencia mejore. la fuerza de las afirmaciones científicas. [137] Tales cambios pueden disminuir la productividad de los investigadores individuales, pero este efecto podría evitarse mediante el intercambio de datos y una mayor colaboración. [137] Una revolución de la credibilidad podría ser buena para el entorno de investigación. [138]
Centrarse en la crisis de replicación ha llevado a renovados esfuerzos en psicología para volver a probar hallazgos importantes. [38] [139] Una edición especial de 2013 de la revista Social Psychology se centró en estudios de replicación. [12]
Se ha propuesto la estandarización y (exigencia) transparencia de los métodos estadísticos y experimentales utilizados. [140] La documentación cuidadosa de la configuración experimental se considera crucial para la replicabilidad de los experimentos y es posible que varias variables no estén documentadas ni estandarizadas, como las dietas de los animales en estudios con animales. [141]
Un artículo de 2016 de John Ioannidis detalla "Por qué la mayoría de las investigaciones clínicas no son útiles". [142] Ioannidis describe lo que él considera algunos de los problemas y pide reformas, caracterizando ciertos puntos para que la investigación médica vuelva a ser útil; un ejemplo que da es la necesidad de que la medicina se centre en el paciente (por ejemplo, en la forma del Instituto de Investigación de Resultados Centrados en el Paciente ) en lugar de que la práctica actual se ocupe principalmente de "las necesidades de los médicos, investigadores o patrocinadores".
La metaciencia es el uso de la metodología científica para estudiar la ciencia misma. Busca aumentar la calidad de la investigación científica y al mismo tiempo reducir el desperdicio. También se la conoce como "investigación sobre la investigación" y "la ciencia de la ciencia", ya que utiliza métodos de investigación para estudiar cómo se realiza la investigación y dónde se pueden realizar mejoras. La metaciencia se ocupa de todos los campos de investigación y se la ha llamado "una vista panorámica de la ciencia". [143] En palabras de Ioannidis, "La ciencia es lo mejor que le ha pasado a los seres humanos... pero podemos hacerlo mejor". [144]
Se siguen realizando metainvestigaciones para identificar las raíces de la crisis y abordarlas. Los métodos para abordar la crisis incluyen el registro previo de estudios científicos y ensayos clínicos , así como la fundación de organizaciones como CONSORT y la Red EQUATOR que emiten directrices para la metodología y la presentación de informes. Continúan los esfuerzos para reformar el sistema de incentivos académicos, mejorar el proceso de revisión por pares , reducir el uso indebido de las estadísticas , combatir el sesgo en la literatura científica y aumentar la calidad y eficiencia generales del proceso científico.
Algunos autores han argumentado que la comunicación insuficiente de los métodos experimentales contribuye de manera importante a la crisis de reproducibilidad y que una mejor presentación de informes sobre el diseño experimental y los análisis estadísticos mejoraría la situación. Estos autores tienden a abogar tanto por un amplio cambio cultural en la comunidad científica en la forma en que se consideran las estadísticas como por un impulso más coercitivo por parte de las revistas científicas y los organismos de financiación. [145] Pero se han planteado preocupaciones sobre la posibilidad de que las normas de transparencia y replicación se apliquen incorrectamente a estudios tanto cualitativos como cuantitativos. [146]
Las revistas de negocios y gestión que han introducido políticas editoriales sobre accesibilidad, replicación y transparencia de datos incluyen Strategic Management Journal , Journal of International Business Studies y Management and Organization Review . [84]
En respuesta a las preocupaciones en psicología sobre el sesgo de publicación y el dragado de datos , más de 140 revistas de psicología han adoptado la revisión por pares ciega a los resultados. En este enfoque, los estudios se aceptan no sobre la base de sus hallazgos y después de que se completen, sino antes de que se realicen y sobre la base del rigor metodológico de sus diseños experimentales, y las justificaciones teóricas de sus técnicas de análisis estadístico antes de los datos. se realiza la recopilación o el análisis. [147] El análisis inicial de este procedimiento ha estimado que el 61% de los estudios ciegos a los resultados han conducido a resultados nulos , en contraste con un estimado del 5% al 20% en investigaciones anteriores. [92] Además, las colaboraciones a gran escala entre investigadores que trabajan en múltiples laboratorios en diferentes países y que regularmente ponen sus datos a disposición de diferentes investigadores para que los evalúen se han vuelto mucho más comunes en psicología. [148]
Las publicaciones científicas han comenzado a utilizar informes de prerregistro para abordar la crisis de replicación. [149] [150] El formato del informe registrado requiere que los autores envíen una descripción de los métodos y análisis del estudio antes de la recopilación de datos. Una vez que el método y el plan de análisis sean examinados mediante revisión por pares, se garantiza provisionalmente la publicación de los hallazgos, en función de si los autores siguen el protocolo propuesto. Uno de los objetivos de los informes registrados es evitar el sesgo de publicación hacia hallazgos importantes que pueden llevar a la implementación de prácticas de investigación cuestionables. Otra es fomentar la publicación de estudios con métodos rigurosos.
La revista Psychoological Science ha fomentado el prerregistro de estudios y la notificación de tamaños del efecto e intervalos de confianza. [151] El editor en jefe también señaló que el personal editorial solicitará la replicación de estudios con hallazgos sorprendentes de exámenes que utilicen tamaños de muestra pequeños antes de permitir que se publiquen los manuscritos.
Se ha sugerido que se necesita "una forma sencilla de comprobar con qué frecuencia se han repetido los estudios y si se confirman o no los hallazgos originales". [129] Las categorizaciones y calificaciones de reproducibilidad a nivel de estudio o resultados, así como la adición de enlaces y la calificación de confirmaciones de terceros, podrían ser realizadas por los revisores pares, la revista científica o los lectores en combinación con novelas. plataformas o herramientas digitales.
Muchas publicaciones requieren un valor p de p < 0,05 para afirmar que hay significancia estadística . El artículo "Redefinir la significancia estadística", [152] firmado por un gran número de científicos y matemáticos, propone que en "campos donde el umbral para definir la significancia estadística para nuevos descubrimientos es p < 0,05, proponemos un cambio a p < 0,005. Este simple paso mejoraría inmediatamente la reproducibilidad de la investigación científica en muchos campos". Su razonamiento es que "una de las principales causas de la no reproducibilidad (es que) los estándares estadísticos de evidencia para afirmar nuevos descubrimientos en muchos campos de la ciencia son simplemente demasiado bajos. Asociar hallazgos 'estadísticamente significativos' con p < 0,05 da como resultado una tasa alta de falsos positivos incluso en ausencia de otros problemas experimentales, de procedimiento y de presentación de informes". [152]
Este llamamiento fue posteriormente criticado por otro grupo numeroso, que argumentó que "redefinir" el umbral no solucionaría los problemas actuales, daría lugar a algunos nuevos y que, al final, todos los umbrales debían justificarse caso por caso en lugar de siguiendo convenciones generales. [153]
Aunque los estadísticos son unánimes en que el uso de " p < 0,05" como estándar de significancia proporciona evidencia más débil de lo que generalmente se aprecia, hay una falta de unanimidad sobre lo que se debe hacer al respecto. Algunos han defendido que los métodos bayesianos deberían reemplazar los valores p . Esto no ha sucedido a gran escala, en parte porque es complicado y en parte porque muchos usuarios desconfían de la especificación de distribuciones anteriores en ausencia de datos concretos. El farmacólogo David Colquhoun sugirió una versión simplificada del argumento bayesiano, basada en probar una hipótesis punto nula . [154] [155] Los problemas lógicos de la inferencia inductiva se discutieron en "El problema con los valores p" (2016). [156]
Los peligros de confiar en los valores p surgen en parte porque incluso una observación de p = 0,001 no es necesariamente una evidencia sólida contra la hipótesis nula. [155] A pesar de que el ratio de verosimilitud a favor de la hipótesis alternativa sobre la nula es cercano a 100, si la hipótesis fuera inverosímil, con una probabilidad previa de un efecto real de 0,1, incluso la observación de p = 0,001 habría un riesgo de falso positivo del 8 por ciento. Aún así no lograría alcanzar el nivel del 5 por ciento.
Se recomendó que no se utilizaran los términos "significativo" y "no significativo". [155] Los valores p y los intervalos de confianza aún deben especificarse, pero deben ir acompañados de una indicación del riesgo de falso positivo. Se sugirió que la mejor manera de hacerlo es calcular la probabilidad previa que sería necesario creer para lograr un riesgo de falso positivo de un cierto nivel, como por ejemplo el 5%. Los cálculos se pueden realizar con varios programas informáticos. [155] [157] Este enfoque bayesiano inverso, que el físico Robert Matthews sugirió en 2001, [158] es una forma de evitar el problema de que la probabilidad previa rara vez se conoce.
Para mejorar la calidad de las replicaciones, a menudo se necesitan tamaños de muestra más grandes que los utilizados en el estudio original. [159] Se necesitan tamaños de muestra más grandes porque las estimaciones de los tamaños del efecto en los trabajos publicados a menudo se exageran debido al sesgo de publicación y la gran variabilidad de muestreo asociada con tamaños de muestra pequeños en un estudio original. [160] [161] [162] Además, el uso de umbrales de significancia generalmente conduce a efectos inflados, porque particularmente con tamaños de muestra pequeños, solo los efectos más grandes se volverán significativos. [163]
En julio de 2016, la Organización Holandesa para la Investigación Científica puso a disposición 3 millones de euros para estudios de replicación. La financiación es para la replicación basada en el reanálisis de los datos existentes y la replicación mediante la recopilación y el análisis de nuevos datos. La financiación está disponible en las áreas de ciencias sociales, investigación sanitaria e innovación sanitaria. [164]
En 2013, la Fundación Laura y John Arnold financió el lanzamiento del Centro para la Ciencia Abierta con una subvención de 5,25 millones de dólares. En 2017, proporcionó 10 millones de dólares adicionales en financiación. [165] También financió el lanzamiento del Centro de Innovación Meta-Investigación en Stanford en la Universidad de Stanford dirigido por Ioannidis y el científico médico Steven Goodman para estudiar formas de mejorar la investigación científica. [165] También proporcionó financiación para la iniciativa AllTrials dirigida en parte por el científico médico Ben Goldacre . [165]
Basado en cursos sobre métodos experimentales en el MIT, Stanford y la Universidad de Washington , se ha sugerido que los cursos de métodos en psicología y otros campos deberían enfatizar los intentos de replicación en lugar de los estudios originales. [166] [167] [168] Este enfoque ayudaría a los estudiantes a aprender la metodología científica y proporcionaría numerosas replicaciones independientes de hallazgos científicos significativos que pondrían a prueba la replicabilidad de los hallazgos científicos. Algunos han recomendado que se exija a los estudiantes de posgrado que publiquen un intento de replicación de alta calidad sobre un tema relacionado con su investigación doctoral antes de graduarse. [169]
Algunas instituciones exigen que los estudiantes de pregrado presenten una tesis de último año que consista en una investigación original. Daniel Quintana, psicólogo de la Universidad de Oslo en Noruega, ha recomendado que se debe incentivar a los estudiantes a realizar estudios de replicación en proyectos de tesis, además de enseñarles sobre ciencia abierta . [170]
Los investigadores demostraron una forma de realizar pruebas semiautomáticas de reproducibilidad: las declaraciones sobre los resultados experimentales se extrajeron de artículos de investigación sobre la expresión genética del cáncer, a partir de 2022, de forma no semántica , y posteriormente se reprodujeron mediante la científica robótica " Eve ". [171] [172] Los problemas de este enfoque incluyen que puede no ser factible para muchas áreas de investigación y que es posible que no se extraigan suficientes datos experimentales de algunos o muchos artículos, incluso si están disponibles.
El psicólogo Daniel Kahneman argumentó que, en psicología, los autores originales deberían participar en el esfuerzo de replicación porque los métodos publicados suelen ser demasiado vagos. [173] [174] Otros, como el psicólogo Andrew Wilson, no están de acuerdo, argumentando que los autores originales deberían escribir los métodos en detalle. [173] Una investigación de las tasas de replicación en psicología en 2012 indicó mayores tasas de éxito de replicación en estudios de replicación cuando había superposición de autores con los autores originales de un estudio [175] (91,7% de tasas de replicación exitosas en estudios con superposición de autores en comparación con 64,6 % de tasas de replicación exitosa sin superposición de autores).
La crisis de replicación ha llevado a la formación y el desarrollo de varias comunidades colaborativas a gran escala para aunar sus recursos y abordar una única pregunta en todas las culturas, países y disciplinas. [176] La atención se centra en la replicación, para garantizar que el efecto se generalice más allá de una cultura específica e investigar si el efecto es replicable y genuino. [177] Esto permite revisiones internas interdisciplinarias, múltiples perspectivas, protocolos uniformes en todos los laboratorios y el reclutamiento de muestras más grandes y diversas. [177] Los investigadores pueden colaborar coordinando la recopilación de datos o financiando la recopilación de datos por parte de investigadores que tal vez no tengan acceso a los fondos, lo que permite tamaños de muestra más grandes y aumenta la solidez de las conclusiones.
El psicólogo Marcus R. Munafò y el epidemiólogo George Davey Smith sostienen, en un artículo publicado por Nature , que la investigación debería hacer hincapié en la triangulación , no sólo en la replicación, para protegerse contra ideas erróneas. Afirman que,
la replicación por sí sola sólo nos llevará hasta cierto punto (y) en realidad podría empeorar las cosas... [La triangulación] es el uso estratégico de múltiples enfoques para abordar una pregunta. Cada enfoque tiene sus propios supuestos, fortalezas y debilidades no relacionados. Es menos probable que los resultados que coinciden entre diferentes metodologías sean artefactos . ... Quizás una de las razones por las que la replicación ha captado tanto interés es la idea, a menudo repetida, de que la falsificación está en el corazón de la empresa científica. Esta idea fue popularizada por la máxima de Karl Popper de la década de 1950 de que las teorías nunca pueden probarse, sólo falsificarse. Sin embargo, un énfasis excesivo en la repetición de experimentos podría proporcionar una sensación infundada de certeza sobre los hallazgos que se basan en un enfoque único. ... los filósofos de la ciencia han avanzado desde Popper. Mejores descripciones de cómo trabajan realmente los científicos incluyen lo que el epistemólogo Peter Lipton llamó en 1991 "inferencia a la mejor explicación". [178]
El modelo científico y estadístico dominante de causalidad es el modelo lineal. [179] El modelo lineal supone que las variables mentales son propiedades estables que son independientes entre sí. En otras palabras, no se espera que estas variables se influyan entre sí. En cambio, el modelo supone que las variables tendrán un efecto lineal e independiente sobre los resultados observables. [179]
Los científicos sociales Sebastian Wallot y Damian Kelty-Stephen sostienen que el modelo lineal no siempre es apropiado. [179] Una alternativa es el modelo de sistema complejo que supone que las variables mentales son interdependientes. No se supone que estas variables sean estables, sino que interactuarán y se adaptarán a cada contexto específico. [179] Argumentan que el modelo de sistema complejo es a menudo más apropiado en psicología, y que el uso del modelo lineal cuando el modelo de sistema complejo es más apropiado dará como resultado replicaciones fallidas. [179]
... la psicología puede estar esperando replicaciones en las mismas mediciones y bajo las mismas condiciones en las que un creciente cuerpo de evidencia psicológica desalienta explícitamente la predicción de replicaciones. Las fallas en la replicación pueden claramente integrarse en la falla potencialmente incompleta, pero ampliamente generalizada, del comportamiento humano para ajustarse al estándar de independencia... [179]
La replicación es fundamental para que el progreso científico confirme los hallazgos originales. Sin embargo, la replicación por sí sola no es suficiente para resolver la crisis de replicación. Los esfuerzos de replicación deberían buscar no sólo apoyar o cuestionar los hallazgos originales, sino también reemplazarlos con teorías revisadas, más sólidas y con mayor poder explicativo. Por lo tanto, este enfoque implica podar las teorías existentes, comparar todas las teorías alternativas y hacer que los esfuerzos de replicación sean más generativos y comprometidos con la construcción de teorías. [180] [181] Sin embargo, la replicación por sí sola no es suficiente; es importante evaluar en qué medida los resultados se generalizan en contextos geográficos, históricos y sociales; es importante para varios campos científicos, especialmente para los profesionales y los responsables de la formulación de políticas, realizar análisis para guiarlos. decisiones estratégicas importantes. Los hallazgos reproducibles y replicables fueron el mejor predictor de generalización más allá de los contextos históricos y geográficos, lo que indica que, para las ciencias sociales, los resultados de un determinado período y lugar pueden determinar de manera significativa lo que está universalmente presente en los individuos. [182]
Los datos abiertos, el software de código abierto y el hardware de código abierto son fundamentales para permitir la reproducibilidad en el sentido de la validación del análisis de datos originales. El uso de software propietario, la falta de publicación de software de análisis y la falta de datos abiertos impiden la replicación de los estudios. A menos que el software utilizado en la investigación sea de código abierto, es imposible reproducir resultados con diferentes configuraciones de software y hardware. [183] El CERN tiene proyectos de Preservación de Análisis de Datos Abiertos y del CERN para almacenar datos, toda la información relevante y todo el software y herramientas necesarios para preservar un análisis en los grandes experimentos del LHC . Además de todo el software y los datos, los activos de análisis conservados incluyen metadatos que permiten comprender el flujo de trabajo del análisis, software relacionado, incertidumbres sistemáticas, procedimientos estadísticos y formas significativas de buscar el análisis, así como referencias a publicaciones y material de respaldo. [184] El software del CERN es de código abierto y está disponible para su uso fuera de la física de partículas y se proporciona cierta orientación a otros campos sobre los enfoques y estrategias generales utilizados para la ciencia abierta en la física de partículas contemporánea. [185]
Los repositorios en línea donde el público puede almacenar y evaluar datos, protocolos y hallazgos buscan mejorar la integridad y reproducibilidad de la investigación. Ejemplos de tales repositorios incluyen Open Science Framework , Registro de Repositorios de Datos de Investigación y Psychfiledrawer.org. Sitios como Open Science Framework ofrecen insignias por utilizar prácticas de ciencia abierta en un esfuerzo por incentivar a los científicos. Sin embargo, ha habido preocupación de que aquellos que tienen más probabilidades de proporcionar sus datos y códigos para los análisis sean los investigadores probablemente más sofisticados. [186] Ioannidis sugirió que "puede surgir la paradoja de que los investigadores más meticulosos, sofisticados, conocedores de métodos y cuidadosos puedan volverse más susceptibles a las críticas y ataques a la reputación por parte de reanalizadores que buscan errores, sin importar cuán insignificantes sean estos errores". [186]
La práctica inapropiada de buscar en grandes archivos de información para tratar de confirmar una hipótesis o creencia preconcebida sin un diseño adecuado que controle posibles confusiones o hipótesis alternativas. El dragado de datos puede implicar seleccionar qué partes de un gran conjunto de datos se retendrán para obtener resultados específicos y deseados.
El uso de valores p durante casi un siglo [desde 1925] para determinar la significancia estadística de los resultados experimentales ha contribuido a una ilusión de certeza y [a] crisis de reproducibilidad en muchos campos científicos . Hay una creciente determinación de reformar el análisis estadístico... Algunos [investigadores] sugieren cambiar los métodos estadísticos, mientras que otros eliminarían un umbral para definir resultados "significativos".