stringtranslate.com

Crisis de replicación

primera pagina del trabajo de investigacion
Ioannidis (2005): “ Por qué la mayoría de los resultados de investigaciones publicadas son falsos ”. [1]

La crisis de replicación [a] es una crisis metodológica en curso en la que los resultados de muchos estudios científicos son difíciles o imposibles de reproducir . Debido a que la reproducibilidad de los resultados empíricos es una parte esencial del método científico [2] , tales fallas socavan la credibilidad de las teorías que se basan en ellos y potencialmente ponen en tela de juicio partes sustanciales del conocimiento científico.

La crisis de replicación se discute frecuentemente en relación con la psicología y la medicina , donde se han realizado esfuerzos considerables para volver a investigar los resultados clásicos, para determinar si son confiables y, si resultan no serlo, las razones del fracaso. [3] [4] Los datos indican firmemente que otras ciencias naturales y sociales también se ven afectadas. [5]

La expresión crisis de replicación se acuñó a principios de la década de 2010 [6] como parte de una creciente conciencia del problema. Las consideraciones sobre las causas y los remedios han dado lugar a una nueva disciplina científica, la metaciencia [7] , que utiliza métodos de investigación empírica para examinar la práctica de la investigación empírica. [8]

Las consideraciones sobre reproducibilidad se pueden clasificar en dos categorías. La reproducibilidad en sentido estricto se refiere a reexaminar y validar el análisis de un conjunto determinado de datos. La replicación se refiere a repetir el experimento o estudio para obtener datos nuevos e independientes con el objetivo de llegar a las mismas conclusiones o a conclusiones similares.

Fondo

Replicación

Se ha dicho que la replicación es "la piedra angular de la ciencia". [9] [10] El científico de salud ambiental Stefan Schmidt comenzó una revisión de 2009 con esta descripción de la replicación:

La replicación es una de las cuestiones centrales de cualquier ciencia empírica. Confirmar resultados o hipótesis mediante un procedimiento de repetición es la base de cualquier concepción científica. Un experimento de replicación para demostrar que los mismos hallazgos pueden obtenerse en cualquier otro lugar por cualquier otro investigador se concibe como una operacionalización de la objetividad. Es la prueba de que el experimento refleja un conocimiento que puede separarse de las circunstancias específicas (como el tiempo, el lugar o las personas) en las que se obtuvo. [11]

Pero existe un consenso limitado sobre cómo definir la replicación y los conceptos potencialmente relacionados. [12] [13] [11] Se han identificado varios tipos de replicación:

  1. Réplica directa o exacta , donde un procedimiento experimental se repite lo más fielmente posible. [11] [14]
  2. Replicación sistemática , donde un procedimiento experimental se repite en gran medida, con algunos cambios intencionales. [14]
  3. Réplica conceptual , donde un hallazgo o hipótesis se prueba utilizando un procedimiento diferente. [11] [14] La replicación conceptual permite probar la generalización y veracidad de un resultado o hipótesis. [14]

La reproducibilidad también se puede distinguir de la replicación , ya que se refiere a reproducir los mismos resultados utilizando el mismo conjunto de datos. La reproducibilidad de este tipo es la razón por la que muchos investigadores ponen sus datos a disposición de otros para su prueba. [15]

La crisis de replicación no significa necesariamente que estos campos no sean científicos. [16] [17] [18] Más bien, este proceso es parte del proceso científico en el que se podan las ideas antiguas o aquellas que no resisten un escrutinio cuidadoso, [19] [20] aunque este proceso de poda no siempre es efectivo. [21] [22]

En general, se considera que una hipótesis está respaldada cuando los resultados coinciden con el patrón predicho y se determina que ese patrón de resultados es estadísticamente significativo . Los resultados se consideran significativos siempre que la frecuencia relativa del patrón observado caiga por debajo de un valor elegido arbitrariamente (es decir, el nivel de significancia ) al asumir que la hipótesis nula es verdadera. Esto generalmente responde a la pregunta de qué tan improbables serían los resultados si no existiera diferencia a nivel de la población estadística . Si la probabilidad asociada con la estadística de prueba excede el valor crítico elegido , los resultados se consideran estadísticamente significativos. [23] La probabilidad correspondiente de exceder el valor crítico se representa como p  < 0,05, donde p (normalmente denominado " valor p ") es el nivel de probabilidad. Esto debería dar como resultado que el 5% de las hipótesis respaldadas sean falsos positivos (una hipótesis incorrecta que se considera correcta por error), suponiendo que los estudios cumplan con todos los supuestos estadísticos. Algunos campos utilizan valores p más pequeños, como p  < 0,01 (1 % de probabilidad de un falso positivo) o p  < 0,001 (0,1 % de probabilidad de un falso positivo). Pero una probabilidad menor de un falso positivo a menudo requiere tamaños de muestra mayores o una mayor probabilidad de un falso negativo (que una hipótesis correcta se considere incorrecta por error) . Aunque la prueba del valor p es el método más utilizado, no es el único método.

Estadística

Ciertos términos comúnmente utilizados en los debates sobre la crisis de replicación tienen significados técnicamente precisos, que se presentan aquí. [1]

En el caso más común, la prueba de hipótesis nula , hay dos hipótesis: una hipótesis nula y una hipótesis alternativa . La hipótesis nula suele tener la forma "X e Y son estadísticamente independientes ". Por ejemplo, la hipótesis nula podría ser "tomar el fármaco X no cambia la tasa de recuperación de la enfermedad Y en un año", y la hipótesis alternativa es que sí cambia.

Como probar la independencia estadística completa es difícil, la hipótesis nula completa a menudo se simplifica a una hipótesis nula simplificada "el tamaño del efecto es 0", donde " tamaño del efecto " es un número real que es 0 si la hipótesis nula completa es verdadera, y cuanto mayor sea el tamaño del efecto, más falsa será la hipótesis nula. [24] Por ejemplo, si X es binario, entonces el tamaño del efecto podría definirse como el cambio en la expectativa de Y ante un cambio de X: Nótese que el tamaño del efecto como se definió anteriormente podría ser cero incluso si X e Y no son independientes, como cuando . Dado que diferentes definiciones de "tamaño del efecto" capturan diferentes formas en que X e Y son dependientes, existen muchas definiciones diferentes de tamaño del efecto.

En la práctica, los tamaños del efecto no se pueden observar directamente, sino que deben medirse mediante estimadores estadísticos . Por ejemplo, la definición anterior de tamaño del efecto a menudo se mide mediante el estimador d de Cohen . El mismo tamaño del efecto puede tener múltiples estimadores, ya que tienen compensaciones entre eficiencia , sesgo , varianza , etc. Esto aumenta aún más el número de posibles cantidades estadísticas que se pueden calcular en un solo conjunto de datos. Cuando se utiliza un estimador para un tamaño del efecto para pruebas estadísticas, se denomina estadístico de prueba .

Ilustración de los 4 resultados posibles de una prueba de hipótesis nula: falso negativo, verdadero negativo, falso positivo, verdadero positivo. En esta ilustración, la prueba de hipótesis es una prueba de umbral unilateral.

Una prueba de hipótesis nula es un procedimiento de decisión que toma algunos datos y da como resultado o . Si da como resultado , generalmente se indica como "hay un efecto estadísticamente significativo" o "se rechaza la hipótesis nula".

A menudo, la prueba estadística es una prueba de umbral (unilateral) , que se estructura de la siguiente manera:

  1. Recopilar datos .
  2. Calcule una estadística de prueba para los datos.
  3. Comparar la estadística de prueba con un valor crítico / umbral . Si , entonces salida ; de lo contrario, salida .

Una prueba de umbral bilateral es similar, pero con dos umbrales, de modo que da como resultado si uno o

Hay 4 resultados posibles de una prueba de hipótesis nula: falso negativo, verdadero negativo, falso positivo, verdadero positivo. Un falso negativo significa que es cierto, pero el resultado de la prueba es ; un verdadero negativo significa que es cierto y el resultado de la prueba es , etc.

Interacción entre el tamaño de la muestra, el tamaño del efecto y la potencia estadística. Se muestran las distribuciones de las medias de la muestra bajo las hipótesis nula (θ=0) y alternativa. El área sombreada en rojo representa la significación (α), que se mantiene constante en 0,05, mientras que el área sombreada en verde representa la potencia estadística (1-β). A medida que aumenta el tamaño de la muestra, las distribuciones se estrechan, lo que lleva a una separación más clara entre las hipótesis y a una mayor potencia. De manera similar, un mayor tamaño del efecto aumenta la distancia entre las distribuciones, lo que resulta en una mayor potencia.

El nivel de significancia , tasa de falsos positivos o nivel alfa es la probabilidad de encontrar que la alternativa es verdadera cuando la hipótesis nula es verdadera:por ejemplo, cuando la prueba es una prueba de umbral unilateral, entoncesdondesignifica "los datos se toman de".

La potencia estadística , tasa de verdaderos positivos, es la probabilidad de encontrar que la alternativa es verdadera cuando la hipótesis alternativa es verdadera:dondetambién se denomina tasa de falsos negativos. Por ejemplo, cuando la prueba es una prueba de umbral unilateral, entonces.

Dada una prueba estadística y un conjunto de datos , el valor p correspondiente es la probabilidad de que la estadística de prueba sea al menos tan extrema, condicional a . Por ejemplo, para una prueba de umbral unilateral, si la hipótesis nula es verdadera, entonces el valor p se distribuye uniformemente en . De lo contrario, normalmente alcanza su punto máximo en y es aproximadamente exponencial, aunque la forma precisa de la distribución del valor p depende de cuál sea la hipótesis alternativa. [25] [26]

Dado que el valor p se distribuye de manera uniforme en caso de que se cumpla la hipótesis nula, se puede construir una prueba estadística con cualquier nivel de significación simplemente calculando el valor p y luego obteniendo como resultado si . Esto suele expresarse como "la hipótesis nula se rechaza en el nivel de significación ", o " ", como "fumar está correlacionado con el cáncer (p < 0,001)".

Historia

El inicio de la crisis de replicación se puede rastrear hasta una serie de eventos a principios de la década de 2010. El filósofo de la ciencia y epistemólogo social Felipe Romero identificó cuatro eventos que pueden considerarse precursores de la crisis actual: [27]

Esta serie de acontecimientos generó un gran escepticismo sobre la validez de las investigaciones existentes en vista de los fallos metodológicos generalizados y de la imposibilidad de reproducir los resultados. Esto llevó a destacados académicos a declarar una "crisis de confianza" en la psicología y en otros campos [42] , y la situación resultante llegó a conocerse como la "crisis de la replicación".

Aunque el comienzo de la crisis de la replicabilidad se remonta a principios de la década de 2010, algunos autores señalan que las preocupaciones sobre la replicabilidad y las prácticas de investigación en las ciencias sociales se habían expresado mucho antes. Romero señala que los autores expresaron inquietudes sobre la falta de réplicas directas en la investigación psicológica a fines de la década de 1960 y principios de la de 1970. [43] [44] También escribe que ciertos estudios en la década de 1990 ya informaban que los editores y revisores de revistas generalmente tienen prejuicios contra la publicación de estudios de replicación. [45] [46]

En las ciencias sociales, se ha atribuido al blog Data Colada (cuyos tres autores acuñaron el término " p-hacking " en un artículo de 2014) el mérito de haber contribuido al inicio de la crisis de replicación. [47] [48] [49]

La profesora de la Universidad de Virginia y psicóloga cognitiva Barbara A. Spellman ha escrito que muchas críticas a las prácticas de investigación y preocupaciones sobre la replicabilidad de la investigación no son nuevas. [50] Ella informa que entre finales de los años 1950 y los años 1990, los académicos ya estaban expresando preocupaciones sobre una posible crisis de replicación, [51] una tasa sospechosamente alta de hallazgos positivos, [52] prácticas de investigación cuestionables (QRPs), [53] los efectos del sesgo de publicación, [54] problemas con el poder estadístico, [55] [56] y malos estándares de presentación de informes. [51]

Spellman también identifica las razones por las que la reiteración de estas críticas y preocupaciones en los últimos años condujo a una crisis en toda regla y a desafíos al status quo. En primer lugar, las mejoras tecnológicas facilitaron la realización y difusión de estudios de replicación y el análisis de grandes franjas de literatura en busca de problemas sistémicos. En segundo lugar, el creciente tamaño y diversidad de la comunidad de investigación hizo que el trabajo de los miembros establecidos fuera examinado con mayor facilidad por otros miembros de la comunidad que no estaban familiarizados con ellos. Según Spellman, estos factores, junto con recursos cada vez más limitados e incentivos desalineados para hacer trabajo científico, llevaron a una crisis en la psicología y otros campos. [50]

Según Andrew Gelman , [57] los trabajos de Paul Meehl, Jacob Cohen y Tversky y Kahneman en los años 1960 y 1970 fueron advertencias tempranas de una crisis de replicación. Al analizar los orígenes del problema, el propio Kahneman señaló precedentes históricos de fracasos en la replicación de la percepción subliminal y la reducción de la disonancia . [58]

Se ha señalado repetidamente desde 1962 [55] que la mayoría de los estudios psicológicos tienen un poder bajo (tasa de verdaderos positivos), pero el poder bajo persistió durante 50 años, lo que indica un problema estructural y persistente en la investigación psicológica. [59] [60]

Predominio

En psicología

Varios factores se han combinado para poner a la psicología en el centro de la conversación. [61] [62] Algunas áreas de la psicología que alguna vez se consideraron sólidas, como la preparación social y el agotamiento del ego , [63] han sido objeto de un mayor escrutinio debido a réplicas fallidas. [64] Gran parte de la atención se ha centrado en la psicología social , [65] aunque también se han implicado otras áreas de la psicología como la psicología clínica , [66] [67] [68] la psicología del desarrollo , [69] [70] [71] y la investigación educativa . [72] [73] [74] [75] [76]

En agosto de 2015, se publicó el primer estudio empírico abierto sobre reproducibilidad en psicología, llamado The Reproducibility Project: Psychology . Coordinados por el psicólogo Brian Nosek , los investigadores rehicieron 100 estudios en ciencia psicológica de tres revistas de psicología de alto rango ( Journal of Personality and Social Psychology , Journal of Experimental Psychology: Learning, Memory, and Cognition y Psychological Science ). 97 de los estudios originales tuvieron efectos significativos, pero de esos 97, solo el 36% de las réplicas arrojaron hallazgos significativos ( valor p por debajo de 0,05). [12] El tamaño medio del efecto en las réplicas fue aproximadamente la mitad de la magnitud de los efectos informados en los estudios originales. El mismo artículo examinó las tasas de reproducibilidad y los tamaños del efecto por revista y disciplina. Las tasas de replicación del estudio fueron del 23% para el Journal of Personality and Social Psychology , del 48% para el Journal of Experimental Psychology: Learning, Memory, and Cognition y del 38% para Psychological Science . Los estudios en el campo de la psicología cognitiva tuvieron una tasa de replicación más alta (50%) que los estudios en el campo de la psicología social (25%). [77]

Del 64% de los casos en que no se realizaron réplicas, solo el 25% refutaron el resultado original (con significación estadística). El 49% restante no fue concluyente, es decir, no apoyó ni contradijo el resultado original. Esto se debe a que muchas réplicas no tenían suficiente potencia, ya que la muestra era 2,5 veces más pequeña que la original. [78]

Un estudio publicado en 2018 en Nature Human Behaviour replicó 21 artículos de ciencias sociales y del comportamiento de Nature y Science , y descubrió que solo alrededor del 62 % podía reproducir con éxito los resultados originales. [79] [80]

De manera similar, en un estudio realizado bajo los auspicios del Centro para la Ciencia Abierta , un equipo de 186 investigadores de 60 laboratorios diferentes (que representan 36 nacionalidades diferentes de seis continentes diferentes) llevaron a cabo réplicas de 28 hallazgos clásicos y contemporáneos en psicología. [81] [82] El estudio se centró no solo en si los hallazgos de los artículos originales se replicaban, sino también en el grado en que los hallazgos variaban en función de las variaciones en las muestras y los contextos. En general, el 50% de los 28 hallazgos no se replicaron a pesar de los tamaños masivos de muestra. Pero si un hallazgo se replicó, entonces se replicó en la mayoría de las muestras. Si un hallazgo no se replicó, entonces no se replicó con poca variación entre muestras y contextos. Esta evidencia es inconsistente con una explicación propuesta de que las fallas en la replicación en psicología probablemente se deben a cambios en la muestra entre el estudio original y el de replicación. [82]

Los resultados de un estudio de 2022 sugieren que muchos estudios anteriores sobre el fenotipo cerebral ("estudios de asociación de todo el cerebro" (BWAS)) produjeron conclusiones no válidas, ya que la replicación de dichos estudios requiere muestras de miles de personas debido a los pequeños tamaños del efecto . [83] [84]

En medicina

Gráfico de resultados y barreras. Se diseñaron 193 experimentos, se iniciaron 87 y se completaron 50.
Los resultados del Proyecto de Reproducibilidad: Biología del Cáncer sugieren que la mayoría de los estudios del sector de investigación del cáncer podrían no ser replicables.

De 49 estudios médicos realizados entre 1990 y 2003 con más de 1000 citas, el 92% concluyó que las terapias estudiadas eran eficaces. De estos estudios, el 16% fueron contradichos por estudios posteriores, el 16% había encontrado efectos más fuertes que los estudios posteriores, el 44% fueron replicados y el 24% no fue cuestionado en gran medida. [85] Un análisis de 2011 realizado por investigadores de la empresa farmacéutica Bayer concluyó que, como máximo, una cuarta parte de los hallazgos internos de Bayer replicaban los resultados originales. [86] Pero el análisis de los resultados de Bayer concluyó que los resultados que sí se replicaban a menudo podían usarse con éxito para aplicaciones clínicas. [87]

En un artículo de 2012, C. Glenn Begley , consultor de biotecnología que trabaja en Amgen , y Lee Ellis, investigador médico de la Universidad de Texas, descubrieron que solo el 11% de 53 estudios preclínicos sobre el cáncer tenían réplicas que podían confirmar las conclusiones de los estudios originales. [38] A fines de 2021, The Reproducibility Project: Cancer Biology examinó 53 artículos destacados sobre el cáncer publicados entre 2010 y 2012 y mostró que entre los estudios que proporcionaron suficiente información para ser rehechos, los tamaños del efecto fueron un 85% más pequeños en promedio que los hallazgos originales. [88] [89] Una encuesta a investigadores del cáncer encontró que la mitad de ellos no habían podido reproducir un resultado publicado. [90] Otro informe estimó que casi la mitad de los ensayos controlados aleatorios contenían datos defectuosos (basado en el análisis de datos de participantes individuales anónimos (IPD) de más de 150 ensayos). [91]

En otras disciplinas

En economía

La economía se ha quedado atrás de otras ciencias sociales y la psicología en sus intentos de evaluar las tasas de replicación y aumentar el número de estudios que intentan la replicación. [13] Un estudio de 2016 en la revista Science replicó 18 estudios experimentales publicados en dos revistas económicas líderes, The American Economic Review y Quarterly Journal of Economics , entre 2011 y 2014. Encontró que alrededor del 39% no logró reproducir los resultados originales. [92] [93] [94] Alrededor del 20% de los estudios publicados en The American Economic Review son contradichos por otros estudios a pesar de basarse en los mismos conjuntos de datos o en conjuntos de datos similares. [95] Un estudio de hallazgos empíricos en el Strategic Management Journal encontró que alrededor del 30% de 27 artículos reexaminados mostraron resultados estadísticamente insignificantes para hallazgos previamente significativos, mientras que alrededor del 4% mostró resultados estadísticamente significativos para hallazgos previamente insignificantes. [96]

En la gestión de los recursos hídricos

Un estudio de 2019 en Scientific Data estimó con un 95% de confianza que, de 1.989 artículos sobre recursos hídricos y gestión publicados en 2017, los resultados del estudio podrían reproducirse solo entre el 0,6% y el 6,8%, en gran medida porque los artículos no proporcionaban suficiente información para permitir su replicación. [97]

A través de campos

Una encuesta realizada en 2016 por Nature a 1.576 investigadores que respondieron un breve cuestionario en línea sobre reproducibilidad encontró que más del 70% de los investigadores han intentado y fracasado en reproducir los resultados de experimentos de otro científico (incluido el 87% de los químicos , el 77% de los biólogos , el 69% de los físicos e ingenieros , el 67% de los investigadores médicos , el 64% de los científicos de la tierra y el medio ambiente y el 62% de todos los demás), y más de la mitad no han podido reproducir sus propios experimentos. Pero menos del 20% había sido contactado por otro investigador incapaz de reproducir su trabajo. La encuesta encontró que menos del 31% de los investigadores cree que el hecho de no poder reproducir los resultados significa que el resultado original probablemente sea incorrecto, aunque el 52% está de acuerdo en que existe una crisis de replicación significativa. La mayoría de los investigadores dijeron que todavía confían en la literatura publicada. [5] [98] En 2010, Fanelli (2010) [99] descubrió que el 91,5% de los estudios de psiquiatría/psicología confirmaron los efectos que buscaban, y concluyó que las probabilidades de que esto sucediera (un resultado positivo) eran alrededor de cinco veces mayores que en campos como la astronomía o las geociencias . Fanelli argumentó que esto se debe a que los investigadores en ciencias "más blandas" tienen menos restricciones a sus sesgos conscientes e inconscientes.

Un análisis temprano de la revisión por pares a ciegas de los resultados , que se ve menos afectada por el sesgo de publicación, ha estimado que el 61% de los estudios a ciegas de los resultados en biomedicina y psicología han conducido a resultados nulos , en contraste con un estimado del 5% al ​​20% en investigaciones anteriores. [100]

En 2021, un estudio realizado por la Universidad de California en San Diego descubrió que los artículos que no se pueden replicar tienen más probabilidades de ser citados. [101] Las publicaciones no replicables suelen ser citadas más incluso después de que se publique un estudio de replicación. [102]

Causas

Se han propuesto muchas causas para la crisis de replicación.

Causas históricas y sociológicas

La crisis de replicación puede ser desencadenada por la "generación de nuevos datos y publicaciones científicas a un ritmo sin precedentes" que conduce a la "desesperación por publicar o perecer" y al incumplimiento de las buenas prácticas científicas. [103]

Las predicciones de una crisis inminente en el mecanismo de control de calidad de la ciencia se remontan a varias décadas atrás. Derek de Solla Price —considerado el padre de la cienciometría , el estudio cuantitativo de la ciencia— predijo en 1963 que la ciencia podría llegar a la "senilidad" como resultado de su propio crecimiento exponencial. [104] Algunas publicaciones actuales parecen reivindicar esta profecía del "desbordamiento", lamentando la decadencia tanto de la atención como de la calidad. [105] [106]

El historiador Philip Mirowski sostiene que el declive de la calidad científica puede estar relacionado con su mercantilización, especialmente impulsada por la decisión de las grandes corporaciones, motivada por las ganancias, de externalizar su investigación a universidades y organizaciones de investigación por contrato . [107]

La teoría de los sistemas sociales , tal como se expone en la obra del sociólogo alemán Niklas Luhmann , inspira un diagnóstico similar. Esta teoría sostiene que cada sistema, como la economía, la ciencia, la religión y los medios de comunicación, se comunica utilizando su propio código: verdadero y falso para la ciencia, ganancias y pérdidas para la economía, noticias y no noticias para los medios de comunicación, etc. [108] [109] Según algunos sociólogos, la mediatización [110] , la mercantilización [107] y la politización [110] [111] de la ciencia , como resultado del acoplamiento estructural entre sistemas, han llevado a una confusión de los códigos originales del sistema.

Problemas con el sistema de publicaciones científicas

Sesgo de publicación

Una de las principales causas de la baja reproducibilidad es el sesgo de publicación que surge del hecho de que rara vez se publican resultados estadísticamente no significativos y réplicas aparentemente poco originales. Solo una proporción muy pequeña de revistas académicas de psicología y neurociencias acogieron explícitamente el envío de estudios de replicación en su objetivo y alcance o en las instrucciones a los autores. [112] [113] Esto no fomenta la presentación de informes sobre estudios de replicación, o incluso los intentos de realizarlos. Entre los 1.576 investigadores encuestados por Nature en 2016, solo una minoría había intentado alguna vez publicar una réplica, y varios encuestados que habían publicado réplicas fallidas señalaron que los editores y revisores exigieron que restaran importancia a las comparaciones con los estudios originales. [5] [98] Un análisis de 4.270 estudios empíricos en 18 revistas de negocios de 1970 a 1991 informó que menos del 10% de los artículos de contabilidad, economía y finanzas y el 5% de los artículos de gestión y marketing eran estudios de replicación. [92] [114] El sesgo de publicación se ve aumentado por la presión de publicar y el propio sesgo de confirmación del autor , [b] y es un riesgo inherente en el campo, que requiere un cierto grado de escepticismo por parte de los lectores. [41]

El sesgo de publicación conduce a lo que el psicólogo Robert Rosenthal llama el " efecto del cajón de archivos ". El efecto del cajón de archivos es la idea de que, como consecuencia del sesgo de publicación, un número significativo de resultados negativos [c] no se publican. Según el filósofo de la ciencia Felipe Romero, esto tiende a producir "literatura engañosa y estudios metaanalíticos sesgados", [27] y cuando se considera el sesgo de publicación junto con el hecho de que una mayoría de hipótesis probadas podrían ser falsas a priori , es plausible que una proporción considerable de los hallazgos de investigación puedan ser falsos positivos, como lo demostró el metacientífico John Ioannidis [1] . A su vez, una alta proporción de falsos positivos en la literatura publicada puede explicar por qué muchos hallazgos no son reproducibles. [27]

Otro sesgo de publicación es que los estudios que no rechazan la hipótesis nula se examinan de forma asimétrica. Por ejemplo, es probable que se los rechace por ser difíciles de interpretar o por tener un error de tipo II. Los estudios que rechazan la hipótesis nula no es probable que se rechacen por esas razones. [116]

En los medios populares, hay otro elemento de sesgo de publicación: el deseo de hacer accesible la investigación al público condujo a una simplificación excesiva y exageración de los hallazgos, creando expectativas poco realistas y amplificando el impacto de las no replicaciones. En contraste, los resultados nulos y los fracasos en la replicación tienden a no ser informados. Esta explicación puede aplicarse a la crisis de replicación de la postura de poder . [117]

Errores matemáticos

Incluso las revistas de alto impacto tienen una fracción significativa de errores matemáticos en su uso de las estadísticas. Por ejemplo, el 11% de los resultados estadísticos publicados en Nature y BMJ en 2001 son "incongruentes", lo que significa que el valor p informado es matemáticamente diferente de lo que debería ser si se hubiera calculado correctamente a partir de la estadística de prueba informada. Estos errores probablemente se debieron a errores de composición tipográfica, redondeo y transcripción. [118]

Entre 157 artículos de neurociencia publicados en cinco revistas de primer nivel que intentan demostrar que dos efectos experimentales son diferentes, 78 probaron erróneamente si un efecto es significativo mientras que el otro no, y 79 probaron correctamente si su diferencia es significativamente diferente de 0. [119]

Cultura de “publicar o morir”

Las consecuencias para la replicabilidad del sesgo de publicación se ven exacerbadas por la cultura académica de “publicar o morir”. Como explicó el metacientífico Daniele Fanelli, la cultura de “publicar o morir” es un aspecto sociológico de la academia en el que los científicos trabajan en un entorno con una presión muy alta para que su trabajo se publique en revistas reconocidas. Esto es consecuencia de que el entorno laboral académico sea hipercompetitivo y de que los parámetros bibliométricos (por ejemplo, el número de publicaciones) se utilicen cada vez más para evaluar las carreras científicas. [120] Según Fanelli, esto empuja a los científicos a emplear una serie de estrategias destinadas a hacer que los resultados sean “publicables”. En el contexto del sesgo de publicación, esto puede significar adoptar comportamientos destinados a hacer que los resultados sean positivos o estadísticamente significativos, a menudo a expensas de su validez (ver QRP, sección 4.3). [120]

Según el fundador del Centro para la Ciencia Abierta, Brian Nosek, y sus colegas, la cultura de “publicar o morir” creó una situación en la que los objetivos y valores de los científicos individuales (por ejemplo, la posibilidad de publicación) no están alineados con los objetivos generales de la ciencia (por ejemplo, la búsqueda de la verdad científica). Esto es perjudicial para la validez de los hallazgos publicados. [121]

El filósofo Brian D. Earp y el psicólogo Jim AC Everett sostienen que, aunque la replicación es lo mejor para los académicos e investigadores como grupo, las características de la cultura psicológica académica desalientan la replicación por parte de investigadores individuales. Argumentan que realizar replicaciones puede consumir mucho tiempo y quitar recursos a proyectos que reflejan el pensamiento original del investigador. Son más difíciles de publicar, en gran medida porque no son originales, e incluso cuando se pueden publicar es poco probable que se consideren contribuciones importantes al campo. Las replicaciones "traen menos reconocimiento y recompensa, incluido el dinero de las subvenciones, a sus autores". [122]

En su libro de 1971 El conocimiento científico y sus problemas sociales , el filósofo e historiador de la ciencia Jerome R. Ravetz predijo que la ciencia —en su evolución desde la “pequeña” ciencia compuesta por comunidades aisladas de investigadores hasta la “gran” ciencia o “tecnociencia”— sufriría grandes problemas en su sistema interno de control de calidad. Reconoció que la estructura de incentivos para los científicos modernos podría volverse disfuncional, creando incentivos perversos para publicar cualquier hallazgo, por dudoso que sea. Según Ravetz, la calidad en la ciencia se mantiene solo cuando existe una comunidad de académicos, vinculados por un conjunto de normas y estándares compartidos, que están dispuestos y son capaces de exigirse mutuamente responsabilidades.

Normas de presentación de informes

Ciertas prácticas de publicación también dificultan la realización de réplicas y el seguimiento de la gravedad de la crisis de reproducibilidad, ya que los artículos a menudo vienen con descripciones insuficientes para que otros académicos reproduzcan el estudio. El Proyecto de Reproducibilidad: Biología del Cáncer mostró que de 193 experimentos de 53 artículos principales sobre el cáncer publicados entre 2010 y 2012, solo 50 experimentos de 23 artículos tienen autores que proporcionaron suficiente información para que los investigadores rehicieran los estudios, a veces con modificaciones. Ninguno de los 193 artículos examinados tenía sus protocolos experimentales completamente descritos y replicar el 70% de los experimentos requirió solicitar reactivos clave. [88] [89] El estudio mencionado anteriormente de los hallazgos empíricos en el Strategic Management Journal encontró que el 70% de 88 artículos no se pudieron replicar debido a la falta de información suficiente para los datos o los procedimientos. [92] [96] En recursos hídricos y gestión , la mayoría de los 1.987 artículos publicados en 2017 no fueron replicables debido a la falta de información disponible compartida en línea. [97] En estudios de potenciales relacionados con eventos , solo se informaron dos tercios de la información necesaria para replicar un estudio en una muestra de 150 estudios, lo que resalta que existen brechas sustanciales en los informes. [123]

Sesgo procesal

Según la tesis de Duhem-Quine , los resultados científicos se interpretan tanto a partir de una teoría sustantiva como de una teoría de instrumentos. Por ejemplo, las observaciones astronómicas dependen tanto de la teoría de los objetos astronómicos como de la teoría de los telescopios. Se podría acumular una gran cantidad de investigación no replicable si existe un sesgo del tipo siguiente: ante un resultado nulo, un científico prefiere tratar los datos como si dijeran que el instrumento es insuficiente; ante un resultado no nulo, un científico prefiere aceptar el instrumento como bueno y tratar los datos como si dijeran algo sobre la teoría sustantiva. [124]

Evolución cultural

Smaldino y McElreath [60] propusieron un modelo simple para la evolución cultural de la práctica científica. Cada laboratorio decide aleatoriamente producir una investigación novedosa o una investigación replicable, con diferentes niveles fijos de tasa de falsos positivos, tasa de verdaderos positivos, tasa de replicación y productividad (sus "rasgos"). Un laboratorio podría utilizar más "esfuerzo", haciendo que la curva ROC sea más convexa pero disminuyendo la productividad. Un laboratorio acumula una puntuación a lo largo de su vida que aumenta con las publicaciones y disminuye cuando otro laboratorio no logra replicar sus resultados. A intervalos regulares, un laboratorio aleatorio "muere" y otro "reproduce" un laboratorio hijo con un rasgo similar al de su padre. Los laboratorios con puntuaciones más altas tienen más probabilidades de reproducirse. Bajo ciertas configuraciones de parámetros, la población de laboratorios converge a la máxima productividad incluso al precio de tasas de falsos positivos muy altas.

Prácticas de investigación cuestionables y fraude

Las prácticas de investigación cuestionables (QRP) son comportamientos intencionales que aprovechan el área gris del comportamiento científico aceptable o explotan los grados de libertad del investigador (DF del investigador), lo que puede contribuir a la irreproducibilidad de los resultados al aumentar la probabilidad de resultados falsos positivos. [125] [126] [41] Las DF del investigador se observan en la formulación de hipótesis , el diseño de experimentos , la recopilación y el análisis de datos y la presentación de informes de investigación . [126] Algunos ejemplos de QRP son el dragado de datos , [126] [127] [40] [d] el informe selectivo , [125] [126] [127] [40] [e] y HARKing (elaboración de hipótesis después de conocer los resultados). [126] [127] [40] [f] En medicina, los estudios irreproducibles tienen seis características en común. Estos incluyen que los investigadores no fueron cegados a los brazos experimentales versus los de control, la imposibilidad de repetir los experimentos, la falta de controles positivos y negativos , la falta de informe de todos los datos, el uso inadecuado de pruebas estadísticas y el uso de reactivos que no fueron validados adecuadamente. [129]

Las QRP no incluyen violaciones más explícitas de la integridad científica, como la falsificación de datos. [125] [126] La investigación fraudulenta ocurre, como en el caso del fraude científico del psicólogo social Diederik Stapel , [130] [14] el psicólogo cognitivo Marc Hauser y el psicólogo social Lawrence Sanna, [14] pero parece ser poco común. [14]

Predominio

Según el profesor de la IU Ernest O'Boyle y el psicólogo Martin Götz, alrededor del 50% de los investigadores encuestados en varios estudios admitieron haber utilizado HARKing. [131] En una encuesta a 2.000 psicólogos realizada por el científico conductual Leslie K. John y sus colegas, alrededor del 94% de los psicólogos admitieron haber empleado al menos un QRP. Más específicamente, el 63% admitió no informar todas las medidas dependientes de un estudio, el 28% informar todas las condiciones de un estudio y el 46% informar selectivamente los estudios que produjeron el patrón deseado de resultados. Además, el 56% admitió haber recopilado más datos después de haber inspeccionado los datos ya recopilados, y el 16% haber dejado de recopilar datos porque el resultado deseado ya era visible. [40] Según la estimación del investigador en biotecnología J. Leslie Glick en 1992, entre el 10% y el 20% de los estudios de investigación y desarrollo implicaban QRP o fraude directo. [132] La metodología utilizada para estimar los QRP ha sido cuestionada, y estudios más recientes sugirieron tasas de prevalencia más bajas en promedio. [133]

Un metaanálisis de 2009 concluyó que el 2% de los científicos de todos los campos admitieron haber falsificado estudios al menos una vez y el 14% admitió conocer a alguien que lo había hecho. Según un estudio, los investigadores médicos denunciaron esa mala conducta con más frecuencia que otros. [134]

Cuestiones estadísticas

Bajo poder estadístico

Según el profesor de la Universidad Deakin Tom Stanley y sus colegas, una razón plausible por la que los estudios no logran replicarse es el bajo poder estadístico . Esto sucede por tres razones. En primer lugar, es poco probable que un estudio de replicación con bajo poder tenga éxito ya que, por definición, tiene una baja probabilidad de detectar un efecto verdadero. En segundo lugar, si el estudio original tiene bajo poder, producirá estimaciones sesgadas del tamaño del efecto . Al realizar un análisis de poder a priori para el estudio de replicación, esto dará como resultado una subestimación del tamaño de muestra requerido. En tercer lugar, si el estudio original tiene bajo poder, las probabilidades posteriores al estudio de un hallazgo estadísticamente significativo que refleje un efecto verdadero son bastante bajas. Por lo tanto, es probable que un intento de replicación del estudio original fracase. [15]

Matemáticamente, la probabilidad de replicar una publicación anterior que rechazó una hipótesis nula a favor de una alternativa , suponiendo que es significativa, es menor que la potencia. Por lo tanto, una potencia baja implica una probabilidad baja de replicación, independientemente de cómo se diseñó la publicación anterior y de cuál hipótesis sea realmente verdadera. [78]

Stanley y sus colegas calcularon el poder estadístico promedio de la literatura psicológica analizando datos de 200 metanálisis . Encontraron que, en promedio, los estudios de psicología tienen entre un 33,1% y un 36,4% de poder estadístico. Estos valores son bastante bajos en comparación con el 80% considerado como poder estadístico adecuado para un experimento. En los 200 metanálisis, la mediana de estudios con poder estadístico adecuado estuvo entre el 7,7% y el 9,1%, lo que implica que un resultado positivo se replicaría con una probabilidad menor al 10%, independientemente de si el resultado positivo era un verdadero positivo o un falso positivo. [15]

El poder estadístico de los estudios de neurociencia es bastante bajo. El poder estadístico estimado de la investigación fMRI está entre .08 y .31, [135] y el de los estudios de potenciales relacionados con eventos se estimó en .72‒.98 para tamaños de efecto grandes, .35‒.73 para efectos medianos y .10‒.18 para efectos pequeños. [123]

En un estudio publicado en Nature , la psicóloga Katherine Button y sus colegas llevaron a cabo un estudio similar con 49 metaanálisis en neurociencia, estimando un poder estadístico medio del 21%. [136] El metacientífico John Ioannidis y sus colegas calcularon una estimación del poder promedio para la investigación económica empírica, encontrando un poder medio del 18% basado en la literatura basada en 6.700 estudios. [137] A la luz de estos resultados, es plausible que una razón importante para los fracasos generalizados en la replicación en varios campos científicos podría ser un poder estadístico muy bajo en promedio.

La misma prueba estadística con el mismo nivel de significancia tendrá menor poder estadístico si el tamaño del efecto es pequeño bajo la hipótesis alternativa. Los rasgos hereditarios complejos suelen estar correlacionados con una gran cantidad de genes, cada uno de ellos con un tamaño de efecto pequeño, por lo que un alto poder requiere un gran tamaño de muestra. En particular, muchos resultados de la literatura sobre genes candidatos adolecieron de tamaños de efecto y tamaños de muestra pequeños y no se replicarían. Más datos de estudios de asociación de todo el genoma (GWAS) se acercan a resolver este problema. [138] [139] Como ejemplo numérico, la mayoría de los genes asociados con el riesgo de esquizofrenia tienen un tamaño de efecto bajo (riesgo relativo genotípico, GRR). Un estudio estadístico con 1000 casos y 1000 controles tiene un poder del 0,03 % para un gen con GRR = 1,15, que ya es grande para la esquizofrenia. En contraste, el GWAS más grande hasta la fecha tiene un poder de ~100 % para él. [140]

Sesgo de tamaño del efecto positivo

Incluso cuando el estudio se replica, la replicación suele tener un tamaño del efecto menor. Los estudios con poca potencia estadística tienen un sesgo de tamaño del efecto grande. [141]

Distribución de las estimaciones estadísticamente significativas del factor de regresión en un modelo lineal en presencia de error añadido. Cuando el tamaño de la muestra es pequeño, la adición de ruido sobreestima el factor de regresión aproximadamente el 50% de las veces. Cuando el tamaño de la muestra es pequeño, lo subestima de manera constante. La figura aparece en [142] .

En estudios que estiman estadísticamente un factor de regresión, como en , cuando el conjunto de datos es grande, el ruido tiende a provocar que se subestime el factor de regresión, pero cuando el conjunto de datos es pequeño, el ruido tiende a provocar que se sobreestime el factor de regresión. [142]

Problemas del metaanálisis

Los metanálisis tienen sus propios problemas y disputas metodológicas, lo que lleva al rechazo del método metaanalítico por parte de investigadores cuya teoría es cuestionada por el metanálisis. [116]

Rosenthal propuso el "número a prueba de fallos" (FSN, por sus siglas en inglés) [54] para evitar el sesgo de publicación en contra de los resultados nulos. Se define de la siguiente manera: supongamos que la hipótesis nula es verdadera; ¿cuántas publicaciones serían necesarias para que el resultado actual sea indistinguible de la hipótesis nula?

El argumento de Rosenthal es que ciertos tamaños de efecto son lo suficientemente grandes como para que, incluso si existe un sesgo de publicación total en contra de los resultados nulos (el "problema del cajón de archivos"), la cantidad de resultados nulos no publicados sería tan grande que no podría eclipsar el tamaño del efecto. Por lo tanto, el tamaño del efecto debe ser estadísticamente significativo incluso después de tener en cuenta los resultados nulos no publicados.

Una objeción al FSN es que se calcula como si los resultados no publicados fueran muestras imparciales de la hipótesis nula. Pero si el problema del cajón de archivos es cierto, entonces los resultados no publicados tendrían tamaños de efecto concentrados alrededor de 0. Por lo tanto, serían necesarios menos resultados nulos no publicados para intercambiar el tamaño del efecto, y por lo tanto el FSN es una sobrestimación. [116]

Otro problema con el metanálisis es que los malos estudios son "contagiosos" en el sentido de que un mal estudio podría causar que todo el metanálisis sobreestime la significación estadística. [78]

P-piratería

Se pueden aplicar diversos métodos estadísticos para hacer que el valor p parezca menor de lo que es en realidad. Esto no tiene por qué ser malintencionado, ya que un análisis de datos moderadamente flexible, habitual en la investigación, puede aumentar la tasa de falsos positivos a más del 60 %. [41]

Por ejemplo, si uno recoge algunos datos, les aplica varias pruebas de significancia diferentes y publica solo aquella que tiene un valor p menor que 0,05, entonces el valor p total para "al menos una prueba de significancia alcanza p < 0,05" puede ser mucho mayor que 0,05, porque incluso si la hipótesis nula fuera verdadera, la probabilidad de que una de muchas pruebas de significancia sea extrema no es en sí misma extrema.

Por lo general, un estudio estadístico consta de varios pasos, con varias opciones en cada uno de ellos, como durante la recopilación de datos, el rechazo de valores atípicos, la elección de la estadística de prueba, la elección de una prueba de una o dos colas, etc. Estas opciones en el " jardín de caminos que se bifurcan " se multiplican, creando muchos "grados de libertad para el investigador". El efecto es similar al problema del cajón de archivos, ya que los caminos que no se toman no se publican. [143]

Consideremos una ilustración sencilla. Supongamos que la hipótesis nula es verdadera y que tenemos 20 pruebas de significación posibles para aplicar al conjunto de datos. Supongamos también que los resultados de las pruebas de significación son independientes. Por definición de "significación", cada prueba tiene una probabilidad de 0,05 de pasar con un nivel de significación de 0,05. La probabilidad de que al menos 1 de 20 sea significativa es, por supuesto de independencia, . [144]

Otra posibilidad es el problema de las comparaciones múltiples . En 2009, se observó dos veces que los estudios de fMRI tenían una cantidad sospechosa de resultados positivos con grandes tamaños de efecto, más de lo que se esperaría dado que los estudios tienen baja potencia (un ejemplo [145] tenía solo 13 sujetos). Señaló que más de la mitad de los estudios probarían la correlación entre un fenómeno y vóxeles de fMRI individuales, y solo informarían sobre los vóxeles que excedieran los umbrales elegidos. [146]

La figura muestra el cambio en los valores p calculados a partir de una prueba t a medida que aumenta el tamaño de la muestra, y cómo la interrupción temprana puede permitir el hackeo de p incluso cuando la hipótesis nula es exactamente verdadera. Los datos se extraen de dos distribuciones normales idénticas, . Para cada tamaño de muestra , que varía de 5 a , se realiza una prueba t en las primeras muestras de cada distribución y se grafica el valor p resultante. La línea discontinua roja indica el nivel de significancia comúnmente utilizado de 0,05. Si la recopilación o el análisis de datos se detuviera en un punto donde el valor p cayera por debajo del nivel de significancia, se podría informar una diferencia estadísticamente significativa falsa.

La detención opcional es una práctica en la que se recopilan datos hasta que se alcanza algún criterio de detención. Aunque es un procedimiento válido, se usa mal con facilidad. El problema es que el valor p de una prueba estadística detenida opcionalmente es mayor de lo que parece. Intuitivamente, esto se debe a que se supone que el valor p es la suma de todos los eventos al menos tan raros como lo observado. Con la detención opcional, hay eventos incluso más raros que son difíciles de tener en cuenta, es decir, no desencadenar la regla de detención opcional y recopilar incluso más datos antes de detenerse. Ignorar estos eventos conduce a un valor p demasiado bajo. De hecho, si la hipótesis nula es verdadera, se puede alcanzar cualquier nivel de significancia si se permite seguir recopilando datos y detenerse cuando se obtiene el valor p deseado (calculado como si siempre se hubiera planeado recopilar exactamente esta cantidad de datos). [147] Para un ejemplo concreto de prueba de una moneda justa, consulte p -value#optional stopping .

En términos más sucintos, el cálculo adecuado del valor p requiere tener en cuenta los contrafácticos, es decir, lo que el experimentador podría haber hecho en reacción a los datos que podrían haber sido. Tener en cuenta lo que podría haber sido es difícil incluso para los investigadores honestos. [147] Una ventaja del registro previo es tener en cuenta todos los contrafácticos, lo que permite calcular correctamente el valor p. [148]

El problema de la interrupción temprana no se limita a la mala conducta de los investigadores. A menudo existe presión para detener el estudio antes de tiempo si el costo de la recolección de datos es alto. Algunas juntas de ética animal incluso exigen la interrupción temprana si el estudio obtiene un resultado significativo a mitad de camino. [144]

Estas prácticas están muy extendidas en psicología. En una encuesta de 2012, el 56% de los psicólogos admitió haber abandonado el estudio antes de tiempo, el 46% haber informado solo de los análisis que "funcionaban" y el 38% haber realizado exclusiones a posteriori , es decir, eliminar algunos datos después de que ya se hubiera realizado el análisis sobre ellos antes de volver a analizar los datos restantes (a menudo con la premisa de "eliminar los valores atípicos"). [40]

Heterogeneidad estadística

Como también informaron Stanley y sus colegas, otra razón por la que los estudios podrían no replicarse es la alta heterogeneidad de los efectos que se van a replicar. En el metanálisis, la "heterogeneidad" se refiere a la varianza en los hallazgos de la investigación que resulta de que no haya un único tamaño de efecto verdadero. En cambio, los hallazgos en tales casos se ven mejor como una distribución de efectos verdaderos. [15] La heterogeneidad estadística se calcula utilizando la estadística I-cuadrado, [149] definida como "la proporción (o porcentaje) de variación observada entre los tamaños de efecto informados que no se puede explicar por los errores estándar calculados asociados con estos tamaños de efecto informados". [15] Esta variación puede deberse a diferencias en los métodos experimentales, poblaciones, cohortes y métodos estadísticos entre los estudios de replicación. La heterogeneidad plantea un desafío a los estudios que intentan replicar tamaños de efecto encontrados previamente . Cuando la heterogeneidad es alta, las replicaciones posteriores tienen una alta probabilidad de encontrar un tamaño de efecto radicalmente diferente al del estudio original. [g]

Es importante destacar que también se encuentran niveles significativos de heterogeneidad en réplicas directas/exactas de un estudio. Stanley y sus colegas discuten esto al informar sobre un estudio realizado por el científico cuantitativo del comportamiento Richard Klein y sus colegas, donde los autores intentaron replicar 15 efectos psicológicos en 36 sitios diferentes en Europa y los EE. UU. En el estudio, Klein y sus colegas encontraron cantidades significativas de heterogeneidad en 8 de los 16 efectos (I-cuadrado = 23% a 91%). Es importante destacar que, si bien los sitios de replicación diferían intencionalmente en una variedad de características, tales diferencias podrían explicar muy poca heterogeneidad. Según Stanley y sus colegas, esto sugirió que la heterogeneidad podría haber sido una característica genuina de los fenómenos que se estaban investigando. Por ejemplo, los fenómenos podrían estar influenciados por los llamados "moderadores ocultos", factores relevantes que anteriormente no se entendían como importantes en la producción de un cierto efecto.

En su análisis de 200 metanálisis de efectos psicológicos, Stanley y sus colegas encontraron un porcentaje medio de heterogeneidad de I-cuadrado = 74%. Según los autores, este nivel de heterogeneidad puede considerarse "enorme". Es tres veces mayor que la varianza de muestreo aleatorio de los tamaños del efecto medidos en su estudio. Si se considera junto con el error de muestreo , la heterogeneidad produce una desviación estándar de un estudio al siguiente incluso mayor que el tamaño medio del efecto de los 200 metanálisis que investigaron. [h] Los autores concluyen que si la replicación se define por un estudio posterior que encuentra un tamaño del efecto suficientemente similar al original, el éxito de la replicación no es probable incluso si las replicaciones tienen tamaños de muestra muy grandes. Es importante destacar que esto ocurre incluso si las replicaciones son directas o exactas, ya que la heterogeneidad, no obstante, sigue siendo relativamente alta en estos casos.

Otros

En economía, la crisis de replicación también puede verse exacerbada porque los resultados econométricos son frágiles: [150] el uso de procedimientos de estimación o técnicas de preprocesamiento de datos diferentes pero plausibles puede llevar a resultados contradictorios. [151] [152] [153]

Sensibilidad al contexto

El profesor de la Universidad de Nueva York Jay Van Bavel y sus colegas sostienen que otra razón por la que los hallazgos son difíciles de replicar es la sensibilidad al contexto de ciertos efectos psicológicos. Desde este punto de vista, los fracasos en la replicación podrían explicarse por diferencias contextuales entre el experimento original y la réplica, a menudo llamadas " moderadores ocultos ". [154] Van Bavel y sus colegas probaron la influencia de la sensibilidad al contexto al volver a analizar los datos del ampliamente citado Proyecto de Reproducibilidad llevado a cabo por la Open Science Collaboration. [12] Recodificaron los efectos según su sensibilidad a los factores contextuales y luego probaron la relación entre la sensibilidad al contexto y el éxito de la replicación en varios modelos de regresión .

Se encontró que la sensibilidad al contexto se correlacionaba negativamente con el éxito de la replicación, de modo que las calificaciones más altas de sensibilidad al contexto se asociaban con menores probabilidades de replicar un efecto. [i] Es importante destacar que la sensibilidad al contexto se correlacionó significativamente con el éxito de la replicación incluso cuando se ajustaban otros factores considerados importantes para reproducir los resultados (por ejemplo, el tamaño del efecto y el tamaño de la muestra del original, el poder estadístico de la replicación, la similitud metodológica entre el original y la replicación). [j] A la luz de los resultados, los autores concluyeron que intentar una replicación en un momento, lugar o con una muestra diferente puede alterar significativamente los resultados de un experimento. Por lo tanto, la sensibilidad al contexto puede ser una razón por la que ciertos efectos no se replican en psicología. [154]

Explicación bayesiana

En el marco de la probabilidad bayesiana, por el teorema de Bayes , rechazar la hipótesis nula en un nivel de significancia del 5% no significa que la probabilidad posterior para la hipótesis alternativa sea del 95%, y la probabilidad posterior también es diferente de la probabilidad de replicación. [155] [156] Considérese un caso simplificado donde solo hay dos hipótesis. Sea la probabilidad previa de la hipótesis nula , y la alternativa . Para un estudio estadístico dado, sea su tasa de falsos positivos (nivel de significancia) , y su tasa de verdaderos positivos (potencia) . Para fines ilustrativos, sea el nivel de significancia 0,05 y la potencia 0,45 (potencia insuficiente).

Ahora bien, según el teorema de Bayes, condicionado a que el hallazgo del estudio estadístico sea verdadero, la probabilidad posterior de que realmente sea verdadera no es , sino

y la probabilidad de replicar el estudio estadístico es que también es diferente de . En particular, para un nivel fijo de significancia, la probabilidad de replicación aumenta con la potencia y la probabilidad previa para . Si la probabilidad previa para es pequeña, entonces se requeriría una alta potencia para la replicación.

Por ejemplo, si la probabilidad previa de la hipótesis nula es , y el estudio encontró un resultado positivo, entonces la probabilidad posterior para es , y la probabilidad de replicación es .

Problema con la prueba de hipótesis nula

Algunos sostienen que la prueba de hipótesis nula es en sí misma inapropiada, especialmente en "ciencias blandas" como la psicología social. [157] [158]

Como han observado repetidamente los estadísticos, [159] en sistemas complejos, como la psicología social, "la hipótesis nula siempre es falsa", o "todo está correlacionado". Si es así, entonces si no se rechaza la hipótesis nula, eso no demuestra que la hipótesis nula sea verdadera, sino simplemente que fue un falso negativo, generalmente debido a su baja potencia. [160] La baja potencia es especialmente frecuente en áreas temáticas donde los tamaños de los efectos son pequeños y los datos son costosos de adquirir, como la psicología social. [157] [161]

Además, cuando se rechaza la hipótesis nula, puede que no sea evidencia a favor de la hipótesis alternativa sustancial. En las ciencias blandas, muchas hipótesis pueden predecir una correlación entre dos variables. Por lo tanto, la evidencia en contra de la hipótesis nula "no hay correlación" no es evidencia a favor de una de las muchas hipótesis alternativas que predicen igualmente bien "hay una correlación". Fisher desarrolló la NHST para agronomía, donde rechazar la hipótesis nula suele ser una buena prueba de la hipótesis alternativa, ya que no hay muchas de ellas. Rechazar la hipótesis "el fertilizante no ayuda" es evidencia a favor de "el fertilizante ayuda". Pero en psicología, hay muchas hipótesis alternativas para cada hipótesis nula. [161] [162]

En particular, cuando los estudios estadísticos sobre la percepción extrasensorial rechazan la hipótesis nula con un valor p extremadamente bajo (como en el caso de Daryl Bem ), esto no implica la hipótesis alternativa de que "existe la percepción extrasensorial". Es mucho más probable que haya habido una pequeña señal (no de percepción extrasensorial) en la configuración del experimento que se haya medido con precisión. [163]

Paul Meehl señaló que las pruebas de hipótesis estadísticas se utilizan de manera diferente en la psicología "blanda" (personalidad, social, etc.) que en la física. En física, una teoría hace una predicción cuantitativa y se prueba comprobando si la predicción cae dentro del intervalo medido estadísticamente. En la psicología blanda, una teoría hace una predicción direccional y se prueba comprobando si la hipótesis nula se rechaza en la dirección correcta. En consecuencia, la técnica experimental mejorada hace que las teorías tengan más probabilidades de ser refutadas en física, pero menos probabilidades de ser refutadas en la psicología blanda, ya que la hipótesis nula siempre es falsa, ya que dos variables cualesquiera están correlacionadas por un "factor de error" de aproximadamente 0,30. El efecto neto es una acumulación de teorías que permanecen sin ser refutadas , pero sin evidencia empírica para preferir una sobre las otras. [23] [162]

Falacia de la tasa base

Según el filósofo Alexander Bird , una posible razón para las bajas tasas de replicabilidad en ciertos campos científicos es que la mayoría de las hipótesis probadas son falsas a priori . [164] Desde este punto de vista, las bajas tasas de replicabilidad podrían ser consistentes con la ciencia de calidad. En relación con esto, la expectativa de que la mayoría de los hallazgos deberían replicarse sería errónea y, según Bird, una forma de falacia de tasa base. El argumento de Bird funciona de la siguiente manera. Suponiendo una situación ideal de una prueba de significancia, por la cual la probabilidad de rechazar incorrectamente la hipótesis nula es del 5% (es decir, error de tipo I ) y la probabilidad de rechazar correctamente la hipótesis nula es del 80% (es decir, potencia ), en un contexto donde una alta proporción de hipótesis probadas son falsas, es concebible que el número de falsos positivos sea alto en comparación con el de verdaderos positivos. [164] Por ejemplo, en una situación donde solo el 10% de las hipótesis probadas son realmente verdaderas, se puede calcular que hasta el 36% de los resultados serán falsos positivos. [k]

La afirmación de que la falsedad de la mayoría de las hipótesis probadas puede explicar las bajas tasas de replicabilidad es aún más relevante si se considera que la potencia media de las pruebas estadísticas en ciertos campos puede ser mucho menor que el 80 %. Por ejemplo, la proporción de falsos positivos aumenta a un valor entre el 55,2 % y el 57,6 % cuando se calcula con las estimaciones de una potencia media entre el 34,1 % y el 36,4 % para los estudios de psicología, como proporcionan Stanley y sus colegas en su análisis de 200 metanálisis en el campo. [15] Una alta proporción de falsos positivos daría lugar entonces a que muchos hallazgos de investigación no fueran replicables.

Bird señala que la afirmación de que la mayoría de las hipótesis comprobadas son falsas a priori en ciertos campos científicos podría ser plausible dados factores como la complejidad de los fenómenos bajo investigación, el hecho de que las teorías rara vez son indiscutibles, la "distancia inferencial" entre teorías e hipótesis y la facilidad con la que se pueden generar hipótesis. En este sentido, los campos que Bird toma como ejemplos son la medicina clínica, la epidemiología genética y molecular y la psicología social. Esta situación es radicalmente diferente en campos donde las teorías tienen una base empírica destacada y las hipótesis se pueden derivar fácilmente de las teorías (por ejemplo, la física experimental). [164]

Consecuencias

Cuando los efectos se presentan erróneamente como relevantes en la literatura, la falta de detección mediante la replicación conducirá a la canonización de esos hechos falsos. [165]

Un estudio de 2021 descubrió que los artículos en revistas líderes de interés general, psicología y economía con hallazgos que no se pudieron replicar tienden a ser citados más a lo largo del tiempo que los artículos de investigación reproducibles, probablemente porque estos resultados son sorprendentes o interesantes. La tendencia no se ve afectada por la publicación de reproducciones fallidas, después de lo cual solo el 12% de los artículos que citan la investigación original mencionarán la replicación fallida. [166] [167] Además, los expertos pueden predecir qué estudios serán replicables, lo que llevó a los autores del estudio de 2021, Marta Serra-García y Uri Gneezy , a concluir que los expertos aplican estándares más bajos a los resultados interesantes al decidir si publicarlos. [167]

Conciencia y percepciones públicas

En la comunidad científica se han expresado inquietudes de que el público en general puede considerar que la ciencia es menos creíble debido a las replicaciones fallidas. [168] La investigación que respalda esta preocupación es escasa, pero una encuesta representativa a nivel nacional en Alemania mostró que más del 75% de los alemanes no han oído hablar de fallas de replicación en la ciencia. [169] El estudio también encontró que la mayoría de los alemanes tienen percepciones positivas de los esfuerzos de replicación: solo el 18% piensa que la no replicabilidad muestra que no se puede confiar en la ciencia, mientras que el 65% piensa que la investigación de replicación muestra que la ciencia aplica control de calidad, y el 80% está de acuerdo en que los errores y las correcciones son parte de la ciencia. [169]

Respuesta en el ámbito académico

Con la crisis de replicación de la psicología ganando atención, la psicóloga de la Universidad de Princeton Susan Fiske generó controversia por hablar en contra de los críticos de la psicología por lo que ella llamó acoso y socavamiento de la ciencia. [170] [171] [172] [173] Ella llamó a estos "adversarios" no identificados nombres como "terroristas metodológicos" y "policías de datos autoproclamadas", diciendo que las críticas a la psicología deberían expresarse solo en privado o contactando a las revistas. [170] El estadístico y politólogo de la Universidad de Columbia Andrew Gelman respondió a Fiske, diciendo que se había encontrado dispuesta a tolerar el "paradigma muerto" de las estadísticas defectuosas y se había negado a retractarse de publicaciones incluso cuando se señalaron errores. [170] Añadió que su mandato como editora había sido abismal y que se descubrió que varios artículos publicados que editó se basaban en estadísticas extremadamente débiles; uno de los artículos publicados del propio Fiske tenía un error estadístico importante y conclusiones "imposibles". [170]

La revolución de la credibilidad

Algunos investigadores en psicología indican que la crisis de replicación es la base para una "revolución de la credibilidad", en la que los cambios en los estándares por los que se evalúa la ciencia psicológica pueden incluir el énfasis en la transparencia y la apertura, el registro previo de proyectos de investigación y la replicación de la investigación con estándares más altos de evidencia para mejorar la solidez de las afirmaciones científicas. [174] Estos cambios pueden disminuir la productividad de los investigadores individuales, pero este efecto podría evitarse mediante el intercambio de datos y una mayor colaboración. [174] Una revolución de la credibilidad podría ser buena para el entorno de investigación. [175]

Remedios

La atención prestada a la crisis de replicación ha llevado a que se renueven los esfuerzos en psicología para volver a probar hallazgos importantes. [41] [176] Una edición especial de 2013 de la revista Social Psychology se centró en estudios de replicación. [13]

Se ha propuesto la estandarización y la transparencia de los métodos estadísticos y experimentales utilizados. [177] La ​​documentación cuidadosa de la configuración experimental se considera crucial para la replicabilidad de los experimentos y es posible que varias variables no estén documentadas ni estandarizadas, como las dietas de los animales en los estudios con animales. [178]

Un artículo de 2016 escrito por John Ioannidis elaboró ​​el tema "Por qué la mayoría de la investigación clínica no es útil". [179] Ioannidis describe lo que él considera algunos de los problemas y pide reformas, caracterizando ciertos puntos para que la investigación médica vuelva a ser útil; un ejemplo que menciona es la necesidad de que la medicina esté centrada en el paciente (por ejemplo, en la forma del Instituto de Investigación de Resultados Centrados en el Paciente ) en lugar de la práctica actual de ocuparse principalmente de "las necesidades de los médicos, investigadores o patrocinadores".

Reforma en la publicación científica

Metaciencia

La metaciencia es el uso de la metodología científica para estudiar la ciencia misma. Busca aumentar la calidad de la investigación científica al tiempo que reduce el desperdicio. También se la conoce como "investigación sobre la investigación" y "la ciencia de la ciencia", ya que utiliza métodos de investigación para estudiar cómo se lleva a cabo la investigación y dónde se pueden hacer mejoras. La metaciencia se ocupa de todos los campos de investigación y se la ha llamado "una vista aérea de la ciencia". [180] En palabras de Ioannidis, "La ciencia es lo mejor que le ha pasado a los seres humanos... pero podemos hacerla mejor". [181]

Se siguen realizando metainvestigaciones para identificar las raíces de la crisis y abordarlas. Entre los métodos para abordar la crisis se encuentran el registro previo de estudios científicos y ensayos clínicos , así como la fundación de organizaciones como CONSORT y la Red EQUATOR , que emiten directrices para la metodología y la presentación de informes. Se siguen realizando esfuerzos para reformar el sistema de incentivos académicos, mejorar el proceso de revisión por pares , reducir el uso indebido de las estadísticas , combatir el sesgo en la literatura científica y aumentar la calidad y la eficiencia generales del proceso científico.

Presentación de la metodología

Algunos autores han sostenido que la comunicación insuficiente de los métodos experimentales es un factor importante que contribuye a la crisis de reproducibilidad y que una mejor divulgación del diseño experimental y de los análisis estadísticos mejoraría la situación. Estos autores tienden a abogar por un cambio cultural amplio en la comunidad científica en cuanto a cómo se consideran las estadísticas y por una presión más coercitiva por parte de las revistas científicas y los organismos de financiación. [182] Pero se han planteado inquietudes sobre la posibilidad de que las normas de transparencia y replicación se apliquen incorrectamente tanto a los estudios cualitativos como a los cuantitativos. [183]

Las revistas de negocios y gestión que han introducido políticas editoriales sobre accesibilidad, replicación y transparencia de los datos incluyen Strategic Management Journal , Journal of International Business Studies y Management and Organization Review . [92]

Revisión por pares sin conocer los resultados

En respuesta a las preocupaciones en psicología sobre el sesgo de publicación y la filtración de datos , más de 140 revistas de psicología han adoptado la revisión por pares sin tener en cuenta los resultados. En este enfoque, los estudios se aceptan no sobre la base de sus hallazgos y después de que se completen los estudios, sino antes de que se realicen y sobre la base del rigor metodológico de sus diseños experimentales y las justificaciones teóricas para sus técnicas de análisis estadístico antes de que se realice la recopilación o el análisis de datos. [184] Los primeros análisis de este procedimiento han estimado que el 61% de los estudios sin tener en cuenta los resultados han conducido a resultados nulos , en contraste con un estimado del 5% al ​​20% en investigaciones anteriores. [100] Además, las colaboraciones a gran escala entre investigadores que trabajan en múltiples laboratorios en diferentes países que regularmente hacen que sus datos estén disponibles abiertamente para que diferentes investigadores los evalúen se han vuelto mucho más comunes en psicología. [185]

Preinscripción de estudios

La publicación científica ha comenzado a utilizar informes previos al registro para abordar la crisis de replicación. [186] [187] El formato de informe registrado requiere que los autores envíen una descripción de los métodos y análisis del estudio antes de la recopilación de datos. Una vez que el método y el plan de análisis se examinan mediante una revisión por pares, la publicación de los hallazgos está garantizada provisionalmente, en función de si los autores siguen el protocolo propuesto. Un objetivo de los informes registrados es evitar el sesgo de publicación hacia hallazgos significativos que pueden llevar a la implementación de prácticas de investigación cuestionables. Otro es alentar la publicación de estudios con métodos rigurosos.

La revista Psychological Science ha fomentado el registro previo de estudios y la notificación de los tamaños del efecto y los intervalos de confianza. [188] El editor en jefe también señaló que el personal editorial solicitará la replicación de estudios con hallazgos sorprendentes a partir de exámenes que utilicen tamaños de muestra pequeños antes de permitir la publicación de los manuscritos.

Metadatos y herramientas digitales para el seguimiento de réplicas

Se ha sugerido que se necesita "una forma sencilla de comprobar con qué frecuencia se han repetido los estudios y si se confirman o no los hallazgos originales". [166] Las categorizaciones y calificaciones de reproducibilidad a nivel de estudio o de resultados, así como la adición de enlaces y la calificación de las confirmaciones de terceros, podrían ser realizadas por los revisores pares, la revista científica o los lectores en combinación con nuevas plataformas o herramientas digitales.

Reforma estadística

Requerimientos más pequeñospag-valores

Muchas publicaciones exigen un valor p de p  < 0,05 para afirmar que existe significación estadística . El artículo "Redefine statistical meaning" (Redefinir la significación estadística), [189] firmado por un gran número de científicos y matemáticos, propone que en "los campos en los que el umbral para definir la significación estadística de los nuevos descubrimientos es p  < 0,05, proponemos un cambio a p  < 0,005. Este simple paso mejoraría inmediatamente la reproducibilidad de la investigación científica en muchos campos". Su fundamento es que "una de las principales causas de la no reproducibilidad (es que los) estándares estadísticos de evidencia para afirmar nuevos descubrimientos en muchos campos de la ciencia son simplemente demasiado bajos. Asociar hallazgos 'estadísticamente significativos' con p  < 0,05 da como resultado una alta tasa de falsos positivos incluso en ausencia de otros problemas experimentales, de procedimiento y de presentación de informes". [189]

Este llamamiento fue posteriormente criticado por otro gran grupo, que argumentó que "redefinir" el umbral no solucionaría los problemas actuales, sino que daría lugar a otros nuevos y que, al final, todos los umbrales debían justificarse caso por caso en lugar de seguir convenciones generales. [190]

Abordar la interpretación errónea depag-valores

Aunque los estadísticos son unánimes en que el uso de " p  < 0,05" como estándar de significación proporciona evidencia más débil de lo que generalmente se cree, existe una falta de unanimidad sobre lo que se debe hacer al respecto. Algunos han defendido que los métodos bayesianos deberían reemplazar los valores p . Esto no ha sucedido a gran escala, en parte porque es complicado y en parte porque muchos usuarios desconfían de la especificación de distribuciones previas en ausencia de datos duros. Una versión simplificada del argumento bayesiano, basada en probar una hipótesis nula puntual, fue sugerida por el farmacólogo David Colquhoun . [191] [192] Los problemas lógicos de la inferencia inductiva se discutieron en "El problema con los valores p" (2016). [193]

Los riesgos de confiar en los valores p surgen en parte porque incluso una observación de p  = 0,001 no es necesariamente una evidencia sólida contra la hipótesis nula. [192] A pesar del hecho de que la razón de verosimilitud a favor de la hipótesis alternativa sobre la nula es cercana a 100, si la hipótesis fuera inverosímil, con una probabilidad previa de un efecto real de 0,1, incluso la observación de p  = 0,001 tendría un riesgo de falso positivo del 8 por ciento. Aún así, no alcanzaría el nivel del 5 por ciento.

Se recomendó que no se utilizaran los términos "significativo" y "no significativo". [192] Los valores p y los intervalos de confianza deberían seguir especificándose, pero deberían ir acompañados de una indicación del riesgo de falso positivo. Se sugirió que la mejor manera de hacerlo es calcular la probabilidad previa que sería necesario creer para lograr un riesgo de falso positivo de un cierto nivel, como el 5%. Los cálculos se pueden realizar con varios programas informáticos. [192] [194] Este enfoque bayesiano inverso, que el físico Robert Matthews sugirió en 2001, [195] es una forma de evitar el problema de que la probabilidad previa rara vez se conoce.

Fomentar tamaños de muestra más grandes

Para mejorar la calidad de las réplicas, a menudo se necesitan tamaños de muestra más grandes que los utilizados en el estudio original. [196] Se necesitan tamaños de muestra más grandes porque las estimaciones de los tamaños del efecto en el trabajo publicado a menudo se exageran debido al sesgo de publicación y la gran variabilidad de muestreo asociada con tamaños de muestra pequeños en un estudio original. [197] [198] [199] Además, el uso de umbrales de significancia generalmente conduce a efectos inflados, porque particularmente con tamaños de muestra pequeños, solo los efectos más grandes se volverán significativos. [158]

Validación cruzada

Un problema estadístico común es el sobreajuste , es decir, cuando los investigadores ajustan un modelo de regresión sobre una gran cantidad de variables pero una pequeña cantidad de puntos de datos. Por ejemplo, un estudio fMRI típico de emoción, personalidad y cognición social tiene menos de 100 sujetos, pero cada sujeto tiene 10,000 vóxeles. El estudio se ajustaría a un modelo de regresión lineal dispersa que usa los vóxeles para predecir una variable de interés, como el estrés auto-reportado. Pero el estudio luego informaría sobre el valor p del modelo en los mismos datos a los que se ajustó. El enfoque estándar en estadística, donde los datos se dividen en un conjunto de entrenamiento y uno de validación , es resistido porque los sujetos de prueba son costosos de adquirir. [146] [200]

Una posible solución es la validación cruzada , que permite validar el modelo y al mismo tiempo utilizar todo el conjunto de datos para ajustarlo. [201]

Esfuerzos de replicación

Fondos

En julio de 2016, la Organización de Investigación Científica de los Países Bajos puso a disposición 3 millones de euros para estudios de replicación. La financiación se destina a la replicación basada en el reanálisis de datos existentes y a la replicación mediante la recopilación y el análisis de nuevos datos. La financiación está disponible en las áreas de ciencias sociales, investigación sanitaria e innovación en el ámbito de la atención sanitaria. [202]

En 2013, la Fundación Laura y John Arnold financió el lanzamiento del Centro para la Ciencia Abierta con una subvención de 5,25 millones de dólares. En 2017, proporcionó 10 millones de dólares adicionales en financiación. [203] También financió el lanzamiento del Centro de Innovación en Meta-Investigación en Stanford, en la Universidad de Stanford, dirigido por Ioannidis y el científico médico Steven Goodman, para estudiar formas de mejorar la investigación científica. [203] También proporcionó financiación para la iniciativa AllTrials , dirigida en parte por el científico médico Ben Goldacre . [203]

Énfasis en la educación postsecundaria

Basándose en los cursos de métodos experimentales del MIT, Stanford y la Universidad de Washington , se ha sugerido que los cursos de métodos en psicología y otros campos deberían hacer hincapié en los intentos de replicación en lugar de los estudios originales. [204] [205] [206] Este enfoque ayudaría a los estudiantes a aprender la metodología científica y proporcionar numerosas réplicas independientes de hallazgos científicos significativos que pondrían a prueba la replicabilidad de los hallazgos científicos. Algunos han recomendado que se exija a los estudiantes de posgrado que publiquen un intento de replicación de alta calidad sobre un tema relacionado con su investigación doctoral antes de graduarse. [207]

Base de datos de replicación

Ha habido una preocupación de que los intentos de replicación han ido en aumento. [208] [209] [210] Como resultado, esto puede conducir a un desperdicio de investigación. [211] A su vez, esto ha llevado a una necesidad de rastrear sistemáticamente los intentos de replicación. Como resultado, se han creado varias bases de datos (por ejemplo, [212] [213] ). Sin embargo, las bases de datos han creado una Base de Datos de Replicación que incluye psicología, terapia del habla y el lenguaje, entre otras disciplinas, para promover la investigación impulsada por la teoría y optimizar el uso de los recursos académicos e institucionales, al tiempo que se promueve la confianza en la ciencia. [214]

Tesis de último año

Algunas instituciones exigen a los estudiantes de grado que presenten una tesis de último año que consista en un trabajo de investigación original. Daniel Quintana, psicólogo de la Universidad de Oslo en Noruega, ha recomendado que se incentive a los estudiantes a realizar estudios de replicación en proyectos de tesis, además de que se les enseñe sobre ciencia abierta . [215]

Semiautomatizado
"El proceso general de prueba de la reproducibilidad y solidez de la literatura sobre biología del cáncer mediante un robot. Primero, se utiliza la minería de texto para extraer afirmaciones sobre el efecto de los medicamentos en la expresión genética en el cáncer de mama. Luego, dos equipos diferentes probaron de forma semiautomática estas afirmaciones utilizando dos protocolos diferentes y dos líneas celulares diferentes (MCF7 y MDA-MB-231) utilizando el sistema de automatización de laboratorio Eve".

Los investigadores demostraron una forma de prueba semiautomatizada para la reproducibilidad: se extrajeron declaraciones sobre resultados experimentales de artículos de investigación sobre cáncer de expresión genética no semánticos de 2022 y posteriormente se reprodujeron a través del científico robot " Eve ". [216] [217] Los problemas de este enfoque incluyen que puede no ser factible para muchas áreas de investigación y que es posible que no se extraigan suficientes datos experimentales de algunos o muchos artículos, incluso si están disponibles.

Involucrando a los autores originales

El psicólogo Daniel Kahneman argumentó que, en psicología, los autores originales deberían participar en el esfuerzo de replicación porque los métodos publicados a menudo son demasiado vagos. [218] [219] Otros, como el psicólogo Andrew Wilson, no están de acuerdo y argumentan que los autores originales deberían escribir los métodos en detalle. [218] Una investigación de las tasas de replicación en psicología en 2012 indicó tasas de éxito de replicación más altas en los estudios de replicación cuando había superposición de autores con los autores originales de un estudio [220] (tasas de replicación exitosas del 91,7% en estudios con superposición de autores en comparación con tasas de replicación exitosas del 64,6% sin superposición de autores).

Ciencia en gran equipo

La crisis de replicación ha llevado a la formación y desarrollo de varias comunidades colaborativas a gran escala para poner en común sus recursos con el fin de abordar una única cuestión en distintas culturas, países y disciplinas. [221] El foco está en la replicación, para asegurar que el efecto se generalice más allá de una cultura específica e investigar si el efecto es replicable y genuino. [222] Esto permite revisiones internas interdisciplinarias, perspectivas múltiples, protocolos uniformes en todos los laboratorios y el reclutamiento de muestras más grandes y diversas. [222] Los investigadores pueden colaborar coordinando la recopilación de datos o financiando la recopilación de datos por parte de investigadores que pueden no tener acceso a los fondos, lo que permite tamaños de muestra más grandes y aumenta la solidez de las conclusiones.

Cambios más amplios en el enfoque científico

Enfatizar la triangulación, no sólo la replicación

El psicólogo Marcus R. Munafò y el epidemiólogo George Davey Smith sostienen, en un artículo publicado en Nature , que la investigación debería hacer hincapié en la triangulación , no solo en la replicación, para protegerse contra ideas erróneas. Afirman que,

La replicación por sí sola nos llevará hasta cierto punto (y) podría empeorar las cosas... [La triangulación] es el uso estratégico de múltiples enfoques para abordar una cuestión. Cada enfoque tiene sus propias suposiciones, fortalezas y debilidades no relacionadas. Los resultados que coinciden en diferentes metodologías tienen menos probabilidades de ser artefactos ... Tal vez una razón por la que la replicación ha captado tanto interés es la idea, a menudo repetida, de que la falsación está en el corazón de la empresa científica. Esta idea fue popularizada por la máxima de Karl Popper de los años 50 de que las teorías nunca pueden probarse, solo falsificarse. Sin embargo, un énfasis excesivo en la repetición de experimentos podría proporcionar una sensación infundada de certeza sobre los hallazgos que dependen de un único enfoque... los filósofos de la ciencia han avanzado desde Popper. Mejores descripciones de cómo trabajan realmente los científicos incluyen lo que el epistemólogo Peter Lipton llamó en 1991 "inferencia a la mejor explicación". [223]

Paradigma de sistemas complejos

El modelo estadístico y científico dominante de causalidad es el modelo lineal. [224] El modelo lineal supone que las variables mentales son propiedades estables e independientes entre sí. En otras palabras, no se espera que estas variables se influyan entre sí. En cambio, el modelo supone que las variables tendrán un efecto lineal e independiente sobre los resultados observables. [224]

Los científicos sociales Sebastian Wallot y Damian Kelty-Stephen sostienen que el modelo lineal no siempre es apropiado. [224] Una alternativa es el modelo de sistema complejo que supone que las variables mentales son interdependientes. No se supone que estas variables sean estables, sino que interactuarán y se adaptarán a cada contexto específico. [224] Argumentan que el modelo de sistema complejo suele ser más apropiado en psicología, y que el uso del modelo lineal cuando el modelo de sistema complejo es más apropiado dará lugar a réplicas fallidas. [224]

...la psicología puede estar esperando réplicas en las mismas mediciones y bajo las mismas condiciones en las que un creciente cuerpo de evidencia psicológica desalienta explícitamente la predicción de réplicas. Los fracasos en la replicación pueden estar claramente incluidos en el fracaso potencialmente incompleto, pero de amplio alcance, del comportamiento humano para ajustarse al estándar de independencia... [224]

La replicación debería buscar revisar las teorías

La replicación es fundamental para que el progreso científico confirme los hallazgos originales. Sin embargo, la replicación por sí sola no es suficiente para resolver la crisis de replicación. Los esfuerzos de replicación no deben buscar solo apoyar o cuestionar los hallazgos originales, sino también reemplazarlos con teorías revisadas, más sólidas y con mayor poder explicativo. Por lo tanto, este enfoque implica podar las teorías existentes, comparar todas las teorías alternativas y hacer que los esfuerzos de replicación sean más generativos y participen en la construcción de teorías. [225] [226] Sin embargo, la replicación por sí sola no es suficiente, es importante evaluar el grado en que los resultados se generalizan a través de contextos geográficos, históricos y sociales; es importante para varios campos científicos, especialmente para los profesionales y los responsables de las políticas, para realizar análisis que orienten decisiones estratégicas importantes. Los hallazgos reproducibles y replicables fueron el mejor predictor de la generalización más allá de los contextos históricos y geográficos, lo que indica que para las ciencias sociales, los resultados de un período de tiempo y un lugar determinados pueden impulsar de manera significativa lo que está universalmente presente en los individuos. [227]

Ciencia abierta

Seis hexágonos de colores con texto sobre ellos están dispuestos alrededor de las palabras "Principios de la ciencia abierta". Comenzando por la parte superior derecha y moviéndose en el sentido de las agujas del reloj, el texto en los hexágonos dice: Reproducibilidad de los resultados; Integridad científica; Ciencia ciudadana; Promoción del trabajo colaborativo; Facilidad de acceso al conocimiento para todos; y Estimulación de la innovación. Debajo de los hexágonos, hay un gran signo de exclamación y un texto que dice "Además: mejores tasas de citación para artículos y datos de investigación de acceso abierto".
Principios de la ciencia abierta

Los datos abiertos, el software de código abierto y el hardware de código abierto son fundamentales para permitir la reproducibilidad en el sentido de la validación del análisis de datos original. El uso de software propietario, la falta de publicación de software de análisis y la falta de datos abiertos impiden la replicación de estudios. A menos que el software utilizado en la investigación sea de código abierto, es imposible reproducir resultados con diferentes configuraciones de software y hardware. [228] El CERN tiene proyectos de datos abiertos y preservación de análisis del CERN para almacenar datos, toda la información relevante y todo el software y las herramientas necesarias para preservar un análisis en los grandes experimentos del LHC . Además de todo el software y los datos, los activos de análisis preservados incluyen metadatos que permiten comprender el flujo de trabajo del análisis, el software relacionado, las incertidumbres sistemáticas, los procedimientos estadísticos y las formas significativas de buscar el análisis, así como referencias a publicaciones y material de respaldo. [229] El software del CERN es de código abierto y está disponible para su uso fuera de la física de partículas y se proporciona cierta orientación a otros campos sobre los enfoques y estrategias generales utilizados para la ciencia abierta en la física de partículas contemporánea. [230]

Los repositorios en línea donde los datos, protocolos y hallazgos pueden ser almacenados y evaluados por el público buscan mejorar la integridad y reproducibilidad de la investigación. Ejemplos de tales repositorios incluyen Open Science Framework , Registry of Research Data Repositories y Psychfiledrawer.org. Sitios como Open Science Framework ofrecen insignias por usar prácticas de ciencia abierta en un esfuerzo por incentivar a los científicos. Sin embargo, ha habido preocupaciones de que aquellos que tienen más probabilidades de proporcionar sus datos y código para análisis son los investigadores que probablemente sean los más sofisticados. [231] Ioannidis sugirió que "puede surgir la paradoja de que los investigadores más meticulosos y sofisticados y conocedores de métodos y cuidadosos pueden volverse más susceptibles a las críticas y ataques a la reputación por parte de reanalizadores que buscan errores, sin importar cuán insignificantes sean estos errores". [231]

Véase también

Notas

  1. ^ También llamada crisis de replicabilidad , crisis de reproducibilidad , crisis de reproducción o crisis de irreproducibilidad .
  2. ^ Según el Diccionario de Psicología de la APA , el sesgo de confirmación es "la tendencia a reunir evidencia que confirma expectativas preexistentes, generalmente enfatizando o buscando evidencia de apoyo mientras se descarta o no se busca evidencia contradictoria". [115]
  3. ^ En el contexto de las pruebas de significación de hipótesis nula, los resultados que no son estadísticamente significativos
  4. ^ El dragado de datos, también conocido como p -hacking o p -fishing , es el uso indebido de datos, a través de una gran variedad de técnicas, para encontrar apoyo a hipótesis para las cuales los datos son inadecuados. [128]
  5. ^ La publicación selectiva también se conoce como publicación parcial . La publicación es una oportunidad para revelar todos los grados de libertad utilizados o explotados por el investigador. La publicación selectiva es la falta de información sobre detalles o elecciones relevantes, como algunas variables independientes y dependientes, datos faltantes, exclusiones de datos y exclusiones de valores atípicos. [126]
  6. ^ HARKing, también conocido como narración post-hoc , es cuando un análisis exploratorio se enmarca como un análisis confirmatorio. Implica cambiar una hipótesis después de que se haya realizado la investigación, de modo que la nueva hipótesis pueda ser confirmada por los resultados del experimento. [126]
  7. ^ Los autores dan un ejemplo en el que, asumiendo que la correlación media real que refleja un efecto es 0,2 y la desviación estándar de la distribución de efectos también es 0,2, un estudio de replicación tendrá una probabilidad del 62% de encontrar un efecto real mediano a grande (r > 0,3) o un efecto real insignificante (r < 0,1).
  8. ^ 0,412 frente a 0,389 en unidades de diferencias de medias estandarizadas (SMD).
  9. ^ El principal DV utilizado fue la calificación binaria subjetiva (es decir, replicado/no replicado) utilizada en el estudio original de OSC. Los autores también midieron las correlaciones con otras medidas de reproducibilidad (por ejemplo, intervalos de confianza) y encontraron correlaciones casi iguales entre la sensibilidad al contexto y el éxito de la replicación.
  10. ^ El efecto independiente de la sensibilidad al contexto se pudo observar tanto en una regresión logística múltiple como en un modelo de regresión jerárquica. En este último caso, la sensibilidad al contexto se incluyó en el paso 2 de la jerarquía y el cambio en el coeficiente de determinación múltiple resultó ser significativo
  11. ^ Siguiendo el argumento de Bird, este porcentaje se obtiene calculando la probabilidad de informe de falso positivo (FPRP) de la siguiente manera.
    • FPRP = Número de falsos positivos / Número de positivos totales
    • Número de falsos positivos = Probabilidad de obtener un falso positivo x Número de pruebas negativas
    • Número de verdaderos positivos = Probabilidad de obtener un verdadero positivo x Número de pruebas positivas
    Arrogante:
    • Número de pruebas = 1000
    • Proporción de hipótesis verdaderas p = 0,10
    • Probabilidad de obtener un falso positivo a = 0,05
    • Probabilidad de obtener un verdadero positivo 1 – B = 0,8
    Entonces FPRP = (0,05 x 900)/(0,05 x 900 + 0,8 x 100) = 0,36

Referencias

  1. ^ abc Ioannidis JP (agosto de 2005). "Por qué la mayoría de los hallazgos de investigación publicados son falsos". PLOS Medicine . 2 (8): e124. doi : 10.1371/journal.pmed.0020124 . PMC  1182327 . PMID  16060722.
  2. ^ John S (8 de diciembre de 2017). Método científico . Nueva York, NY: Routledge. doi :10.4324/9781315100708. ISBN 978-1-315-10070-8. Número de identificación S2:  201781341.
  3. ^ Lehrer J (13 de diciembre de 2010). "La verdad se desvanece". The New Yorker . Consultado el 30 de enero de 2020 .
  4. ^ Marcus G (1 de mayo de 2013). "La crisis de la psicología social que no existe". The New Yorker . Consultado el 30 de enero de 2020 .
  5. ^ abc Baker M (mayo de 2016). «1500 científicos destapan la reproducibilidad». Nature (artículo de noticias). 533 (7604). Springer Nature : 452–454. Bibcode :2016Natur.533..452B. doi : 10.1038/533452a . PMID  27225100. S2CID  4460617.(Fe de erratas: [1])
  6. ^ Pashler H, Harris CR (noviembre de 2012). "¿Es exagerada la crisis de replicabilidad? Se examinan tres argumentos". Perspectivas sobre la ciencia psicológica . 7 (6): 531–536. doi :10.1177/1745691612463401. PMID  26168109. S2CID  1342421.
  7. ^ Fidler F , Wilcox J (2018). "Reproducibilidad de resultados científicos". The Stanford Encyclopedia of Philosophy . Metaphysics Research Lab, Stanford University . Consultado el 19 de mayo de 2019 .
  8. ^ Korbmacher M, Azevedo F, Pennington CR, Hartmann H, Pownall M, Schmidt K, et al. (25 de julio de 2023). "La crisis de replicación ha llevado a cambios positivos estructurales, procedimentales y comunitarios". Psicología de las comunicaciones . 1 (1): 3. doi :10.1038/s44271-023-00003-2. ISSN  2731-9121. PMC 11290608 . PMID  39242883. 
  9. ^ Moonesinghe R, Khoury MJ, Janssens AC (febrero de 2007). "La mayoría de los hallazgos de investigación publicados son falsos, pero una pequeña réplica puede ser de gran ayuda". PLOS Medicine . 4 (2): e28. doi : 10.1371/journal.pmed.0040028 . PMC 1808082 . PMID  17326704. 
  10. ^ Simons DJ (enero de 2014). "El valor de la replicación directa". Perspectivas sobre la ciencia psicológica . 9 (1): 76–80. doi :10.1177/1745691613514755. PMID  26173243. S2CID  1149441.
  11. ^ abcd Schmidt S (2009). "¿Realmente lo haremos otra vez? El poderoso concepto de replicación es desatendido en las ciencias sociales". Revista de Psicología General . 13 (2). Publicaciones SAGE: 90–100. doi :10.1037/a0015108. ISSN  1089-2680. S2CID  143855611.
  12. ^ abc Open Science Collaboration (agosto de 2015). "PSICOLOGÍA. Estimación de la reproducibilidad de la ciencia psicológica" (PDF) . Science . 349 (6251): aac4716. doi :10.1126/science.aac4716. hdl : 10722/230596 . PMID :  26315443. S2CID  : 218065162.
  13. ^ abc Duvendack M, Palmer-Jones R, Reed RW (mayo de 2017). "¿Qué se entiende por "replicación" y por qué encuentra resistencia en la economía?". American Economic Review . 107 (5): 46–51. doi :10.1257/aer.p20171031. ISSN  0002-8282.
  14. ^ abcdefg Shrout PE, Rodgers JL (enero de 2018). "Psicología, ciencia y construcción del conocimiento: ampliar las perspectivas a partir de la crisis de la replicación". Revista anual de psicología . 69 (1). Revisiones anuales: 487–510. doi :10.1146/annurev-psych-122216-011845. PMID  29300688. S2CID  19593610.
  15. ^ abcdef Stanley TD, Carter EC, Doucouliagos H (diciembre de 2018). "Lo que revelan los metaanálisis sobre la replicabilidad de la investigación psicológica". Psychological Bulletin . 144 (12): 1325–1346. doi :10.1037/bul0000169. PMID  30321017. S2CID  51951232.
  16. ^ Meyer C, Chabris C (31 de julio de 2014). "Por qué es importante la lucha por la comida de los psicólogos". Slate .
  17. ^ Aschwanden C (19 de agosto de 2015). "La ciencia no está rota". FiveThirtyEight . Consultado el 30 de enero de 2020 .
  18. ^ Aschwanden C (27 de agosto de 2015). "La psicología está empezando a lidiar con su problema de replicación". FiveThirtyEight . Consultado el 30 de enero de 2020 .
  19. ^ Etchells P (28 de mayo de 2014). "El impulso de replicación de la psicología: no se trata de ti". The Guardian .
  20. ^ Wagenmakers EJ, Wetzels R, Borsboom D, van der Maas HL, Kievit RA (noviembre de 2012). "Una agenda para la investigación puramente confirmatoria". Perspectivas sobre la ciencia psicológica . 7 (6): 632–638. doi :10.1177/1745691612463078. PMID  26168122. S2CID  5096417.
  21. ^ Ioannidis JP (noviembre de 2012). "Por qué la ciencia no es necesariamente autocorrectora". Perspectivas sobre la ciencia psicológica . 7 (6): 645–654. doi :10.1177/1745691612464056. PMID  26168125. S2CID  11798785.
  22. ^ Pashler H, Harris CR (noviembre de 2012). "¿Es exagerada la crisis de replicabilidad? Se examinan tres argumentos". Perspectivas sobre la ciencia psicológica . 7 (6): 531–536. doi :10.1177/1745691612463401. PMID  26168109. S2CID  1342421.
  23. ^ ab Meehl PE (1967). "Prueba de teorías en psicología y física: una paradoja metodológica". Filosofía de la ciencia . 34 (2): 103–115. doi :10.1086/288135. ISSN  0031-8248. JSTOR  186099. S2CID  96422880.
  24. ^ Kelley K, Preacher KJ (junio de 2012). "Sobre el tamaño del efecto". Psychological Methods . 17 (2): 137–152. doi :10.1037/a0028086. PMID  22545595.
  25. ^ Simonsohn U, Nelson LD, Simmons JP (noviembre de 2014). "Curva p y tamaño del efecto: corrección del sesgo de publicación utilizando solo resultados significativos". Perspectivas sobre la ciencia psicológica . 9 (6): 666–681. doi :10.1177/1745691614553988. PMID  26186117.
  26. ^ Simonsohn U, Nelson LD, Simmons JP (abril de 2014). "Curva P: una clave para el cajón de archivos". Revista de Psicología Experimental. General . 143 (2): 534–547. doi :10.1037/a0033242. PMID  23855496.
  27. ^ abc Romero F (noviembre 2019). «Filosofía de la ciencia y la crisis de replicabilidad». Philosophy Compass . 14 (11). doi : 10.1111/phc3.12633 . ISSN  1747-9991. S2CID  202261836.
  28. ^ Bargh JA, Chen M, Burrows L (agosto de 1996). "Automaticidad del comportamiento social: efectos directos del constructo de rasgos y la activación de estereotipos en la acción". Revista de personalidad y psicología social . 71 (2): 230–244. doi :10.1037/0022-3514.71.2.230. PMID  8765481. S2CID  6654763.
  29. ^ Doyen S, Klein O, Pichon CL, Cleeremans A (18 de enero de 2012). Lauwereyns J (ed.). "Preparación conductual: todo está en la mente, pero ¿en la mente de quién?". PLOS ONE . ​​7 (1): e29081. Bibcode :2012PLoSO...729081D. doi : 10.1371/journal.pone.0029081 . PMC 3261136 . PMID  22279526. 
  30. ^ Yong E (10 de marzo de 2012). «Una réplica fallida provoca un ataque personal mordaz por parte de un profesor de psicología». National Geographic . Archivado desde el original el 25 de febrero de 2021. Consultado el 4 de julio de 2023 .
  31. ^ Pashler H, Coburn N, Harris CR (29 de agosto de 2012). "¿Preparación de la distancia social? No se pueden replicar los efectos sobre los juicios sociales y alimentarios". PLOS ONE . ​​7 (8): e42510. Bibcode :2012PLoSO...742510P. doi : 10.1371/journal.pone.0042510 . PMC 3430642 . PMID  22952597. 
  32. ^ Harris CR, Coburn N, Rohrer D, Pashler H (16 de agosto de 2013). "Dos fracasos en la replicación de los efectos de preparación para alcanzar objetivos de alto rendimiento". PLOS ONE . ​​8 (8): e72467. Bibcode :2013PLoSO...872467H. doi : 10.1371/journal.pone.0072467 . PMC 3745413 . PMID  23977304. 
  33. ^ Shanks DR, Newell BR, Lee EH, Balakrishnan D, Ekelund L, Cenac Z, et al. (24 de abril de 2013). "Preparación del comportamiento inteligente: un fenómeno elusivo". PLOS ONE . ​​8 (4): e56515. Bibcode :2013PLoSO...856515S. doi : 10.1371/journal.pone.0056515 . PMC 3634790 . PMID  23637732. 
  34. ^ Klein RA, Ratliff KA, Vianello M, Adams RB, Bahník Š, Bernstein MJ, et al. (mayo de 2014). "Investigación de la variación en la replicabilidad". Psicología social . 45 (3): 142–152. doi : 10.1027/1864-9335/a000178 . hdl : 2066/131506 . ISSN  1864-9335.
  35. ^ Bem DJ (marzo de 2011). "Sentir el futuro: evidencia experimental de influencias retroactivas anómalas en la cognición y el afecto". Revista de personalidad y psicología social . 100 (3): 407–425. doi :10.1037/a0021524. PMID  21280961. S2CID  1961013.
  36. ^ Wagenmakers EJ, Wetzels R, Borsboom D, van der Maas HL (marzo de 2011). "Por qué los psicólogos deben cambiar la forma en que analizan sus datos: el caso de psi: comentario sobre Bem (2011)". Revista de personalidad y psicología social . 100 (3): 426–432. doi :10.1037/a0022790. PMID  21280965.
  37. ^ Galak J, LeBoeuf RA, Nelson LD, Simmons JP (diciembre de 2012). "Corregir el pasado: errores en la replicación de ψ". Revista de personalidad y psicología social . 103 (6): 933–948. doi :10.1037/a0029709. PMID  22924750.
  38. ^ ab Begley CG, Ellis LM (marzo de 2012). "Desarrollo de fármacos: elevar los estándares para la investigación preclínica del cáncer". Nature (artículo de comentario). 483 (7391): 531–533. Bibcode :2012Natur.483..531B. doi : 10.1038/483531a . PMID  22460880. S2CID  4326966.(Fe de erratas:  doi :10.1038/485041e)
  39. ^ Ioannidis JP (septiembre de 2008). "Por qué la mayoría de las asociaciones verdaderas descubiertas están infladas". Epidemiología . 19 (5): 640–648. doi : 10.1097/EDE.0b013e31818131e7 . PMID  18633328. S2CID  15440816.
  40. ^ abcdef John LK, Loewenstein G , Prelec D (mayo de 2012). "Medición de la prevalencia de prácticas de investigación cuestionables con incentivos para decir la verdad". Psychological Science . 23 (5): 524–532. doi :10.1177/0956797611430953. PMID  22508865. S2CID  8400625.
  41. ^ abcde Simmons JP, Nelson LD, Simonsohn U (noviembre de 2011). "Psicología de los falsos positivos: la flexibilidad no revelada en la recopilación y el análisis de datos permite presentar cualquier cosa como significativa". Psychological Science . 22 (11): 1359–1366. doi :10.1177/0956797611417632. PMID  22006061. S2CID  13802986.
  42. ^ Pashler H, Wagenmakers EJ (noviembre de 2012). "Introducción de los editores a la sección especial sobre replicabilidad en la ciencia psicológica: ¿una crisis de confianza?". Perspectivas sobre la ciencia psicológica . 7 (6): 528–530. doi :10.1177/1745691612465253. PMID  26168108. S2CID  26361121.
  43. ^ Ahlgren A (abril de 1969). "Una modesta propuesta para fomentar la replicación". American Psychologist . 24 (4): 471. doi :10.1037/h0037798. ISSN  1935-990X.
  44. ^ Smith NC (octubre de 1970). "Estudios de replicación: un aspecto descuidado de la investigación psicológica". American Psychologist . 25 (10): 970–975. doi :10.1037/h0029774. ISSN  1935-990X.
  45. ^ Neuliep JW, Crandall R (1993). "Sesgo del revisor contra la investigación de replicación". Journal of Social Behavior and Personality . 8 (6): 21–29. ProQuest  1292304227 – vía ProQuest.
  46. ^ Neuliep JW, Crandall R (1990). "Sesgo editorial contra la investigación de replicación". Journal of Social Behavior and Personality . 5 (4): 85–90 – vía ProQuest.
  47. ^ Lewis-Kraus G (30 de septiembre de 2023). "Estudiaron la deshonestidad. ¿Su trabajo era una mentira?". The New Yorker . ISSN  0028-792X . Consultado el 1 de octubre de 2023 .
  48. ^ Subbaraman N (24 de septiembre de 2023). "La banda de desacreditadores que desbarata a los malos científicos". Wall Street Journal . Archivado desde el original el 24 de septiembre de 2023 . Consultado el 8 de octubre de 2023 .
  49. ^ "APA PsycNet". psycnet.apa.org . Consultado el 8 de octubre de 2023 .
  50. ^ ab Spellman BA (noviembre de 2015). "Una breve historia (personal) futura de la revolución 2.0". Perspectivas sobre la ciencia psicológica . 10 (6): 886–899. doi : 10.1177/1745691615609918 . PMID  26581743. S2CID  206778431.
  51. ^ ab Greenwald AG, ed. (enero de 1976). "Un editorial". Revista de personalidad y psicología social . 33 (1): 1–7. doi :10.1037/h0078635. ISSN  1939-1315.
  52. ^ Sterling TD (1959). "Decisiones de publicación y sus posibles efectos sobre las inferencias extraídas de pruebas de significancia, o viceversa". Revista de la Asociación Estadounidense de Estadística . 54 (285): 30–34. doi :10.2307/2282137. ISSN  0162-1459. JSTOR  2282137.
  53. ^ Mills JL (octubre de 1993). "Tortura de datos". The New England Journal of Medicine . 329 (16): 1196–1199. doi :10.1056/NEJM199310143291613. PMID  8166792.
  54. ^ a b Rosenthal R (May 1979). "The file drawer problem and tolerance for null results". Psychological Bulletin. 86 (3): 638–641. doi:10.1037/0033-2909.86.3.638. ISSN 1939-1455. S2CID 36070395.
  55. ^ a b Cohen J (September 1962). "The statistical power of abnormal-social psychological research: a review". Journal of Abnormal and Social Psychology. 65: 145–153. doi:10.1037/h0045186. PMID 13880271.
  56. ^ Sedlmeier P, Gigerenzer G (March 1989). "Do studies of statistical power have an effect on the power of studies?". Psychological Bulletin. 105 (2): 309–316. doi:10.1037/0033-2909.105.2.309. hdl:21.11116/0000-0000-B883-C. ISSN 1939-1455.
  57. ^ Gelman A (21 September 2016). "What has happened down here is the winds have changed". Statistical Modeling, Causal Inference, and Social Science.
  58. ^ Yong E (3 October 2012). "Nobel laureate challenges psychologists to clean up their act". Nature. doi:10.1038/nature.2012.11535. ISSN 1476-4687.
  59. ^ Vankov I, Bowers J, Munafò MR (May 2014). "On the persistence of low power in psychological science". Quarterly Journal of Experimental Psychology. 67 (5): 1037–1040. doi:10.1080/17470218.2014.885986. PMC 4961230. PMID 24528377.
  60. ^ a b Smaldino PE, McElreath R (September 2016). "The natural selection of bad science". Royal Society Open Science. 3 (9): 160384. arXiv:1605.09511. Bibcode:2016RSOS....360384S. doi:10.1098/rsos.160384. PMC 5043322. PMID 27703703.
  61. ^ Achenbach J. "No, science's reproducibility problem is not limited to psychology". The Washington Post. Retrieved 2015-09-10.
  62. ^ Wiggins BJ, Christopherson C (2019). "The replication crisis in psychology: An overview for theoretical and philosophical psychology". Journal of Theoretical and Philosophical Psychology. 39 (4): 202–217. doi:10.1037/teo0000137. ISSN 2151-3341. S2CID 210567289.
  63. ^ Hagger MS, Chatzisarantis NL, Alberts H, Anggono CO, Batailler C, Birt AR, et al. (July 2016). "A Multilab Preregistered Replication of the Ego-Depletion Effect". Perspectives on Psychological Science. 11 (4): 546–573. doi:10.1177/1745691616652873. hdl:20.500.11937/16871. PMID 27474142.
  64. ^ Bartlett T (30 January 2013). "Power of Suggestion". The Chronicle of Higher Education.
  65. ^ Dominus S (18 October 2017). "When the Revolution Came for Amy Cuddy". The New York Times. ISSN 0362-4331. Retrieved 2017-10-19.
  66. ^ Duncan LE, Keller MC (October 2011). "A critical review of the first 10 years of candidate gene-by-environment interaction research in psychiatry". The American Journal of Psychiatry. 168 (10): 1041–1049. doi:10.1176/appi.ajp.2011.11020191. PMC 3222234. PMID 21890791.
  67. ^ Leichsenring F, Abbass A, Hilsenroth MJ, Leweke F, Luyten P, Keefe JR, et al. (April 2017). "Biases in research: risk factors for non-replicability in psychotherapy and pharmacotherapy research". Psychological Medicine. 47 (6): 1000–1011. doi:10.1017/S003329171600324X. PMID 27955715. S2CID 1872762.
  68. ^ Hengartner MP (28 February 2018). "Raising Awareness for the Replication Crisis in Clinical Psychology by Focusing on Inconsistencies in Psychotherapy Research: How Much Can We Rely on Published Findings from Efficacy Trials?". Frontiers in Psychology. 9. Frontiers Media: 256. doi:10.3389/fpsyg.2018.00256. PMC 5835722. PMID 29541051.
  69. ^ Frank MC, Bergelson E, Bergmann C, Cristia A, Floccia C, Gervain J, et al. (9 March 2017). "A Collaborative Approach to Infant Research: Promoting Reproducibility, Best Practices, and Theory-Building". Infancy. 22 (4): 421–435. doi:10.1111/infa.12182. hdl:10026.1/9942. PMC 6879177. PMID 31772509.
  70. ^ Harris JR (2009) [1998]. The Nurture Assumption: Why Children Turn Out the Way They Do (2nd ed.). New York: Free Press. ISBN 978-1439101650.
  71. ^ Harris HR (2006). No Two Alike: Human Nature and Human Individuality. New York: W. W. Norton & Company. ISBN 978-0393329711.
  72. ^ Tyson C (14 August 2014). "Failure to Replicate". Inside Higher Ed. Retrieved 2018-12-19.
  73. ^ Makel MC, Plucker JA (1 August 2014). "Facts Are More Important Than Novelty: Replication in the Education Sciences". Educational Researcher. 43 (6): 304–316. doi:10.3102/0013189X14545513. S2CID 145571836. Retrieved 2018-12-19.
  74. ^ Kirschner PA, Sweller J, Clark RE (2006). "Why Minimal Guidance During Instruction Does Not Work: An Analysis of the Failure of Constructivist, Discovery, Problem-Based, Experiential, and Inquiry-Based Teaching". Educational Psychologist. 41 (2). Routledge: 75–86. doi:10.1207/s15326985ep4102_1. S2CID 17067829.
  75. ^ Foundations for Success: The Final Report of the National Mathematics Advisory Panel (PDF) (Report). United States Department of Education. 2008. pp. 45–46. Archived (PDF) from the original on 2018-01-18. Retrieved 2020-11-03.
  76. ^ Pashler H, McDaniel M, Rohrer D, Bjork R (December 2008). "Learning Styles: Concepts and Evidence". Psychological Science in the Public Interest. 9 (3). SAGE Publications: 105–119. doi:10.1111/j.1539-6053.2009.01038.x. PMID 26162104. S2CID 2112166.
  77. ^ Nosek BA, Cohoon J, Kidwell MC, Spies JR (2018) [2015]. "Summary of reproducibility rates and effect sizes for original and replication studies overall and by journal/discipline". Estimating the Reproducibility of Psychological Science (table). Reproducibility Project: Psychology. Retrieved 2019-10-16.
  78. ^ a b c Nelson LD, Simmons J, Simonsohn U (January 2018). "Psychology's Renaissance". Annual Review of Psychology. 69 (1): 511–534. doi:10.1146/annurev-psych-122216-011836. PMID 29068778.
  79. ^ Roger A (27 August 2018). "The Science Behind Social Science Gets Shaken Up—Again". Wired. Retrieved 2018-08-28.
  80. ^ Camerer CF, Dreber A, Holzmeister F, Ho TH, Huber J, Johannesson M, et al. (September 2018). "Evaluating the replicability of social science experiments in Nature and Science between 2010 and 2015". Nature Human Behaviour. 2 (9): 637–644. doi:10.1038/s41562-018-0399-z. PMID 31346273. S2CID 52098703.
  81. ^ Klein RA (2018). "Many Labs 2: Investigating Variation in Replicability Across Samples and Settings". Advances in Methods and Practices in Psychological Science. 1 (4): 443–490. doi:10.1177/2515245918810225. hdl:1854/LU-8637133.
  82. ^ a b Witkowski T (2019). "Is the glass half empty or half full? Latest results in the replication crisis in Psychology" (PDF). Skeptical Inquirer. Vol. 43, no. 2. pp. 5–6. Archived from the original (PDF) on 2020-01-30.
  83. ^ Richtel M (16 March 2022). "Brain-Imaging Studies Hampered by Small Data Sets, Study Finds". The New York Times.
  84. ^ Marek S, Tervo-Clemmens B, Calabro FJ, Montez DF, Kay BP, Hatoum AS, et al. (March 2022). "Reproducible brain-wide association studies require thousands of individuals". Nature. 603 (7902): 654–660. Bibcode:2022Natur.603..654M. doi:10.1038/s41586-022-04492-9. PMC 8991999. PMID 35296861.
  85. ^ Ioannidis JP (July 2005). "Contradicted and initially stronger effects in highly cited clinical research". JAMA. 294 (2): 218–228. doi:10.1001/jama.294.2.218. PMID 16014596. S2CID 16749356.
  86. ^ Prinz F, Schlange T, Asadullah K (August 2011). "Believe it or not: how much can we rely on published data on potential drug targets?". Nature Reviews. Drug Discovery. 10 (9): 712. doi:10.1038/nrd3439-c1. PMID 21892149.
  87. ^ Wheeling K (12 May 2016). "Big Pharma Reveals a Biomedical Replication Crisis". Pacific Standard. Retrieved 2020-01-30. Updated on 14 June 2017
  88. ^ a b Haelle T (7 December 2021). "Dozens of major cancer studies can't be replicated". Science News. Retrieved 2022-01-19.
  89. ^ a b "Reproducibility Project: Cancer Biology". www.cos.io. Center for Open Science. Retrieved 2022-01-19.
  90. ^ Mobley A, Linder SK, Braeuer R, Ellis LM, Zwelling L (2013). Arakawa H (ed.). "A survey on data reproducibility in cancer research provides insights into our limited ability to translate findings from the laboratory to the clinic". PLOS ONE. 8 (5): e63221. Bibcode:2013PLoSO...863221M. doi:10.1371/journal.pone.0063221. PMC 3655010. PMID 23691000.
  91. ^ Van Noorden R (July 2023). "Medicine is plagued by untrustworthy clinical trials. How many studies are faked or flawed?". Nature. 619 (7970): 454–458. Bibcode:2023Natur.619..454V. doi:10.1038/d41586-023-02299-w. PMID 37464079.
  92. ^ a b c d Tsui AS (21 January 2022). "From Traditional Research to Responsible Research: The Necessity of Scientific Freedom and Scientific Responsibility for Better Societies". Annual Review of Organizational Psychology and Organizational Behavior. 9 (1): 1–32. doi:10.1146/annurev-orgpsych-062021-021303. ISSN 2327-0608. S2CID 244238570.
  93. ^ Camerer CF, Dreber A, Forsell E, Ho TH, Huber J, Johannesson M, et al. (March 2016). "Evaluating replicability of laboratory experiments in economics". Science. 351 (6280): 1433–1436. Bibcode:2016Sci...351.1433C. doi:10.1126/science.aaf0918. PMID 26940865.
  94. ^ Bohannon J (3 March 2016). "About 40% of economics experiments fail replication survey". Science. doi:10.1126/science.aaf4141. Retrieved 2017-10-25.
  95. ^ Goldfarb RS (1 December 1997). "Now you see it, now you don't: emerging contrary results in economics". Journal of Economic Methodology. 4 (2): 221–244. doi:10.1080/13501789700000016. ISSN 1350-178X.
  96. ^ a b Bergh DD, Sharp BM, Aguinis H, Li M (6 April 2017). "Is there a credibility crisis in strategic management research? Evidence on the reproducibility of study findings". Strategic Organization. 15 (3): 423–436. doi:10.1177/1476127017701076. ISSN 1476-1270. S2CID 44024633.
  97. ^ a b Stagge JH, Rosenberg DE, Abdallah AM, Akbar H, Attallah NA, James R (February 2019). "Assessing data availability and research reproducibility in hydrology and water resources". Scientific Data. 6: 190030. Bibcode:2019NatSD...690030S. doi:10.1038/sdata.2019.30. PMC 6390703. PMID 30806638.
  98. ^ a b Nature Video (28 May 2016). "Is There a Reproducibility Crisis in Science?". Scientific American. Retrieved 2019-08-15.
  99. ^ Fanelli D (April 2010). Scalas E (ed.). ""Positive" results increase down the Hierarchy of the Sciences". PLOS ONE. 5 (4): e10068. Bibcode:2010PLoSO...510068F. doi:10.1371/journal.pone.0010068. PMC 2850928. PMID 20383332.
  100. ^ a b Allen C, Mehler DM (May 2019). "Open science challenges, benefits and tips in early career and beyond". PLOS Biology. 17 (5). Public Library of Science: e3000246. doi:10.1371/journal.pbio.3000246. PMC 6513108. PMID 31042704.
  101. ^ "A New Replication Crisis: Research that is Less Likely to be True is Cited More". University of California, San Diego. 21 May 2021. Archived from the original on 2024-04-13.
  102. ^ Serra-Garcia M, Gneezy U (May 2021). "Nonreplicable publications are cited more than replicable ones". Science Advances. 7 (21). Bibcode:2021SciA....7.1705S. doi:10.1126/sciadv.abd1705. PMC 8139580. PMID 34020944.
  103. ^ Begley CG, Ioannidis JP (January 2015). "Reproducibility in science: improving the standard for basic and preclinical research". Circulation Research. 116 (1): 116–126. doi:10.1161/CIRCRESAHA.114.303819. PMID 25552691. S2CID 3587510.
  104. ^ Price DJ (1963). Little science big science. Columbia University Press. p. 32. ISBN 9780231085625.
  105. ^ Siebert S, Machesky LM, Insall RH (September 2015). "Overflow in science and its implications for trust". eLife. 4: e10825. doi:10.7554/eLife.10825. PMC 4563216. PMID 26365552.
  106. ^ Della Briotta Parolo P, Pan RK, Ghosh R, Huberman BA, Kaski K, Fortunato S (2015). "Attention decay in science". Journal of Informetrics. 9 (4): 734–745. arXiv:1503.01881. Bibcode:2015arXiv150301881D. doi:10.1016/j.joi.2015.07.006. S2CID 10949754.
  107. ^ a b Mirowski P (2011). Science-Mart. Harvard University Press. pp. 2, 24. ISBN 978-0-674-06113-2.
  108. ^ Moeller HG (2006). Luhmann explained: from souls to systems. Chicago: Open Court. p. 25. ISBN 0-8126-9598-4. OCLC 68694011.
  109. ^ Luhmann N (1995). Social systems. Stanford, CA: Stanford University Press. p. 288. ISBN 978-0-8047-2625-2. OCLC 31710315.
  110. ^ a b Scheufele DA (September 2014). "Science communication as political communication". Proceedings of the National Academy of Sciences of the United States of America. 111 (Suppl 4): 13585–13592. Bibcode:2014PNAS..111S3585S. doi:10.1073/pnas.1317516111. PMC 4183176. PMID 25225389.
  111. ^ Pielke R (2007). The honest broker : making sense of science in policy and politics. Cambridge: Cambridge University Press. doi:10.1017/CBO9780511818110. ISBN 978-0-511-81811-0. OCLC 162145073.
  112. ^ Martin GN, Clarke RM (2017). "Are Psychology Journals Anti-replication? A Snapshot of Editorial Practices". Frontiers in Psychology. 8: 523. doi:10.3389/fpsyg.2017.00523. PMC 5387793. PMID 28443044.
  113. ^ Yeung AW (2017). "¿Las revistas de neurociencia aceptan réplicas? Un estudio de la literatura". Frontiers in Human Neuroscience . 11 : 468. doi : 10.3389/fnhum.2017.00468 . PMC 5611708 . PMID  28979201. 
  114. ^ Hubbard R, Vetter DE (1 de febrero de 1996). "Una comparación empírica de la investigación de replicación publicada en contabilidad, economía, finanzas, gestión y marketing". Journal of Business Research . 35 (2): 153–164. doi :10.1016/0148-2963(95)00084-4. ISSN  0148-2963.
  115. ^ "Sesgo de confirmación". Diccionario APA de Psicología . Washington, DC: Asociación Estadounidense de Psicología . nd . Consultado el 2 de febrero de 2022 .{{cite encyclopedia}}: CS1 maint: year (link)
  116. ^ abc Ferguson CJ, Heene M (noviembre de 2012). "Un vasto cementerio de teorías de los no muertos: sesgo de publicación y aversión de la ciencia psicológica a lo nulo". Perspectivas sobre la ciencia psicológica . 7 (6): 555–561. doi :10.1177/1745691612459059. PMID  26168112.
  117. ^ Dominus S (18 de octubre de 2017). "Cuando la revolución llegó para Amy Cuddy". New York Times Magazine .
  118. ^ García-Berthou E, Alcaraz C (mayo de 2004). "Incongruencia entre los estadísticos de prueba y los valores P en artículos médicos". BMC Medical Research Methodology . 4 (1): 13. doi : 10.1186/1471-2288-4-13 . PMC 443510 . PMID  15169550. 
  119. ^ Nieuwenhuis S, Forstmann BU, Wagenmakers EJ (agosto de 2011). "Análisis erróneos de interacciones en neurociencia: un problema de importancia". Nature Neuroscience . 14 (9): 1105–1107. doi :10.1038/nn.2886. PMID  21878926.
  120. ^ ab Fanelli D (abril de 2010). "¿Las presiones para publicar aumentan el sesgo de los científicos? Un respaldo empírico a partir de datos de los estados de EE. UU." PLOS ONE . ​​5 (4): e10271. Bibcode :2010PLoSO...510271F. doi : 10.1371/journal.pone.0010271 . PMC 2858206 . PMID  20422014. 
  121. ^ Nosek BA, Spies JR, Motyl M (noviembre de 2012). "Utopía científica: II. Reestructuración de incentivos y prácticas para promover la verdad por encima de la publicabilidad". Perspectivas sobre la ciencia psicológica . 7 (6): 615–631. arXiv : 1205.4251 . doi :10.1177/1745691612459058. PMC 10540222 . PMID  26168121. S2CID  23602412. 
  122. ^ Everett JA, Earp BD (1 de enero de 2015). "Una tragedia de los bienes comunes (académicos): interpretación de la crisis de replicación en psicología como un dilema social para los investigadores en el inicio de su carrera". Frontiers in Psychology . 6 : 1152. doi : 10.3389/fpsyg.2015.01152 . PMC 4527093 . PMID  26300832. 
  123. ^ ab Clayson PE, Carbine KA, Baldwin SA, Larson MJ (noviembre de 2019). "Comportamiento de informes metodológicos, tamaños de muestra y poder estadístico en estudios de potenciales relacionados con eventos: barreras a la reproducibilidad y replicabilidad". Psicofisiología . 56 (11): e13437. doi :10.1111/psyp.13437. PMID  31322285.
  124. ^ LeBel EP, Peters KR (diciembre de 2011). "Temiendo el futuro de la psicología empírica: la evidencia de Bem (2011) sobre la Psi como estudio de caso de deficiencias en la práctica de la investigación modal". Revista de Psicología General . 15 (4): 371–379. doi :10.1037/a0025172. ISSN  1089-2680.
  125. ^ abc "Mala conducta en la investigación: la zona gris de las prácticas de investigación cuestionables". www.vib.be . Vlaams Instituut voor Biotechnologie . 30 de septiembre de 2013. Archivado desde el original el 2014-10-31 . Consultado el 2015-11-13 .
  126. ^ abcdefgh Wicherts JM , Veldkamp CL, Augusteijn HE, Bakker M, van Aert RC, van Assen MA (2016). "Grados de libertad en la planificación, ejecución, análisis e informes de estudios psicológicos: una lista de verificación para evitar el p-hacking". Fronteras en Psicología . 7 : 1832. doi : 10.3389/fpsyg.2016.01832 . PMC 5122713 . PMID  27933012. 
  127. ^ abc "Los nueve círculos del infierno científico". Perspectivas sobre la ciencia psicológica (Opinión). 7 (6): 643–644. Noviembre de 2012. doi : 10.1177/1745691612459519 . PMID:  26168124. S2CID  : 45328962.
  128. ^ "Dragado de datos". Diccionario APA de Psicología . Washington, DC: Asociación Estadounidense de Psicología . nd . Consultado el 9 de enero de 2022. Práctica inapropiada de buscar en archivos grandes de información para intentar confirmar una hipótesis o creencia preconcebida sin un diseño adecuado que controle posibles factores de confusión o hipótesis alternativas. El dragado de datos puede implicar la selección de qué partes de un gran conjunto de datos se conservarán para obtener resultados específicos deseados.{{cite encyclopedia}}: CS1 maint: year (link)
  129. ^ Begley CG (mayo de 2013). "Seis señales de alerta para trabajos sospechosos". Nature (artículo de comentario). 497 (7450): 433–434. Bibcode :2013Natur.497..433B. doi : 10.1038/497433a . PMID  23698428. S2CID  4312732.
  130. ^ Shea C (13 de noviembre de 2011). "El escándalo de fraude alimenta el debate sobre las prácticas de la psicología social". The Chronicle of Higher Education .
  131. ^ O'Boyle EH, Götz M (2022). "Prácticas de investigación cuestionables". Integridad en la investigación: mejores prácticas para las ciencias sociales y del comportamiento . Oxford University Press. págs. 261–294. ISBN 978-0190938550.
  132. ^ Glick JL (1992). "Auditoría de datos científicos: una herramienta clave de gestión". Accountability in Research . 2 (3): 153–168. doi :10.1080/08989629208573811.
  133. ^ Fiedler K, Schwarz N (19 de octubre de 2015). "Prácticas de investigación cuestionables revisitadas". Ciencias de la personalidad y psicología social . 7 : 45–52. doi :10.1177/1948550615612150. ISSN  1948-5506. S2CID  146717227.
  134. ^ Fanelli D (mayo de 2009). "¿Cuántos científicos inventan y falsifican investigaciones? Una revisión sistemática y un metaanálisis de datos de encuestas". PLOS ONE . ​​4 (5): e5738. Bibcode :2009PLoSO...4.5738F. doi : 10.1371/journal.pone.0005738 . PMC 2685008 . PMID  19478950. 
  135. ^ Button KS, Ioannidis JP, Mokrysz C, Nosek BA, Flint J, Robinson ES, et al. (mayo de 2013). "Fallo eléctrico: por qué un tamaño de muestra pequeño socava la fiabilidad de la neurociencia". Nature Reviews. Neurociencia . 14 (5): 365–376. doi :10.1038/nrn3475. PMID  23571845.
  136. ^ Button KS, Ioannidis JP, Mokrysz C, Nosek BA, Flint J, Robinson ES, et al. (mayo de 2013). "Fallo eléctrico: por qué un tamaño de muestra pequeño socava la fiabilidad de la neurociencia". Nature Reviews. Neurociencia . 14 (5): 365–376. doi : 10.1038/nrn3475 . PMID  23571845. S2CID  455476.
  137. ^ Ioannidis JP, Stanley TD, Doucouliagos H (1 de octubre de 2017). "El poder del sesgo en la investigación económica". The Economic Journal . 127 (605): F236–F265. doi : 10.1111/ecoj.12461 . ISSN  0013-0133. S2CID  158829482.
  138. ^ Flint J, Munafò MR (febrero de 2013). "Genes candidatos y no candidatos en genética del comportamiento". Current Opinion in Neurobiology . 23 (1): 57–61. doi :10.1016/j.conb.2012.07.005. PMC 3752971 . PMID  22878161. 
  139. ^ Dumas-Mallet E, Button KS, Boraud T, Gonon F, Munafò MR (febrero de 2017). "Potencia estadística baja en la ciencia biomédica: una revisión de tres dominios de investigación humana". Royal Society Open Science . 4 (2): 160254. Bibcode :2017RSOS....460254D. doi :10.1098/rsos.160254. PMC 5367316 . PMID  28386409. 
  140. ^ Farrell MS, Werge T, Sklar P, Owen MJ, Ophoff RA, O'Donovan MC, et al. (mayo de 2015). "Evaluación de genes candidatos históricos para la esquizofrenia". Psiquiatría molecular . 20 (5): 555–562. doi :10.1038/mp.2015.16. PMC 4414705 . PMID  25754081. 
  141. ^ Protzko J, Schooler JW (21 de febrero de 2017), Lilienfeld SO, Waldman ID (eds.), "Efectos de declive: tipos, mecanismos y reflexiones personales", Psychological Science Under Scrutiny (1.ª ed.), Wiley, págs. 85-107, doi :10.1002/9781119095910.ch6, ISBN 978-1-118-66107-9, consultado el 26 de julio de 2024
  142. ^ ab Loken E, Gelman A (febrero de 2017). "Error de medición y la crisis de replicación". Science . 355 (6325): 584–585. Bibcode :2017Sci...355..584L. doi :10.1126/science.aal3618. PMID  28183939.
  143. ^ Gelman, Andrew y Eric Loken. "El jardín de los caminos que se bifurcan: por qué las comparaciones múltiples pueden ser un problema, incluso cuando no hay una "expedición de pesca" o un "p-hacking" y la hipótesis de investigación se planteó con antelación". Departamento de Estadística, Universidad de Columbia 348.1-17 (2013): 3.
  144. ^ ab Head ML, Holman L, Lanfear R, Kahn AT, Jennions MD (marzo de 2015). "El alcance y las consecuencias del p-hacking en la ciencia". PLOS Biology . 13 (3): e1002106. doi : 10.1371/journal.pbio.1002106 . PMC 4359000 . PMID  25768323. 
  145. ^ Eisenberger NI, Lieberman MD, Williams KD (octubre de 2003). "¿Duele el rechazo? Un estudio de exclusión social por resonancia magnética funcional". Science . 302 (5643): 290–292. Bibcode :2003Sci...302..290E. doi :10.1126/science.1089134. PMID  14551436.
  146. ^ ab Vul E, Harris C, Winkielman P, Pashler H (mayo de 2009). "Correlaciones sorprendentemente altas en estudios de fMRI de emoción, personalidad y cognición social". Perspectivas sobre la ciencia psicológica . 4 (3): 274–290. doi :10.1111/j.1745-6924.2009.01125.x. PMID  26158964.
  147. ^ ab Wagenmakers EJ (octubre de 2007). "Una solución práctica a los problemas generalizados de los valores p". Psychonomic Bulletin & Review . 14 (5): 779–804. doi :10.3758/BF03194105. PMID  18087943.
  148. ^ Wicherts JM, Veldkamp CL, Augusteijn HE, Bakker M, van Aert RC, van Assen MA (25 de noviembre de 2016). "Grados de libertad en la planificación, ejecución, análisis e informes de estudios psicológicos: una lista de verificación para evitar el p-hacking". Fronteras en Psicología . 7 : 1832. doi : 10.3389/fpsyg.2016.01832 . PMC 5122713 . PMID  27933012. 
  149. ^ Higgins JP, Thompson SG (junio de 2002). "Cuantificación de la heterogeneidad en un metaanálisis". Estadísticas en Medicina . 21 (11): 1539–1558. doi :10.1002/sim.1186. PMID  12111919. S2CID  6319826.
  150. ^ Moosa IA (2 de octubre de 2019). "La fragilidad de los resultados y el sesgo en la investigación empírica: una exposición exploratoria". Revista de metodología económica . 26 (4): 347–360. doi :10.1080/1350178X.2018.1556798. ISSN  1350-178X. S2CID  158504639.
  151. ^ Granger CW (1999). Modelado empírico en economía: especificación y evaluación. Cambridge University Press. pág. 5. doi :10.1017/CBO9780511492327. ISBN 978-0-521-77825-1.
  152. ^ Maziarz M (1 de diciembre de 2021). "Resolución de controversias empíricas con evidencia mecanicista". Síntesis . 199 (3): 9957–9978. doi : 10.1007/s11229-021-03232-2 . ISSN  1573-0964. S2CID  236249427.
  153. ^ Morgan MS, Magnus JR (septiembre de 1997). "El experimento en econometría aplicada". Revista de econometría aplicada . 12 (5): 459–661. ISSN  1099-1255.
  154. ^ ab Van Bavel JJ, Mende-Siedlecki P, Brady WJ, Reinero DA (junio de 2016). "Sensibilidad contextual en la reproducibilidad científica". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 113 (23): 6454–6459. Bibcode :2016PNAS..113.6454V. doi : 10.1073/pnas.1521897113 . JSTOR  26470212. PMC 4988618 . PMID  27217556. 
  155. ^ Trafimow D (julio de 2003). "Prueba de hipótesis y evaluación de teorías en los límites: ideas sorprendentes a partir del teorema de Bayes". Psychological Review . 110 (3): 526–535. doi :10.1037/0033-295X.110.3.526. PMID  12885113.
  156. ^ Wagenmakers EJ (octubre de 2007). "Una solución práctica a los problemas generalizados de los valores p". Psychonomic Bulletin & Review . 14 (5): 779–804. doi :10.3758/BF03194105. PMID  18087943.
  157. ^ ab Cohen J (diciembre de 1994). "La Tierra es redonda (p < .05)". American Psychologist . 49 (12): 997–1003. doi :10.1037/0003-066X.49.12.997. ISSN  1935-990X.
  158. ^ ab Amrhein V, Korner-Nievergelt F, Roth T (2017). "La Tierra es plana (p > 0,05): umbrales de significación y la crisis de la investigación irreplicable". PeerJ . 5 : e3544. doi : 10.7717/peerj.3544 . PMC 5502092 . PMID  28698825. 
  159. ^ Branwen G (30 de abril de 2023). "Todo está correlacionado". gwern.net .
  160. ^ Cohen J (1992). "Cosas que he aprendido (hasta ahora)". En Kazdin AE (ed.). Cuestiones metodológicas y estrategias en la investigación clínica . Washington: Asociación Estadounidense de Psicología. págs. 315–333. doi :10.1037/10109-028. ISBN. 978-1-55798-154-7. Recuperado el 26 de julio de 2024 .
  161. ^ ab Meehl PE (1992). "Riesgos teóricos y asteriscos tabulares: Sir Karl, Sir Ronald y el lento progreso de la psicología blanda". En Miller RB (ed.). La restauración del diálogo: lecturas en la filosofía de la psicología clínica . Washington: Asociación Estadounidense de Psicología. págs. 523–555. doi :10.1037/10112-043. ISBN 978-1-55798-157-8.
  162. ^ de Paul Meehl (1986). Lo que los científicos sociales no entienden . En DW Fiske y RA Shweder (Eds.), Metateoría en las ciencias sociales: Pluralismos y subjetividades (pp. 315-338). Chicago: University of Chicago Press.
  163. ^ Jaynes ET, Bretthorst GL (2003). "5. Usos queer de la teoría de la probabilidad". Teoría de la probabilidad: la lógica de la ciencia . Cambridge, Reino Unido; Nueva York, NY: Cambridge University Press. ISBN 978-0-521-59271-0.
  164. ^ abc Bird A (1 de diciembre de 2021). "Entender la crisis de replicación como una falacia de la tasa base". The British Journal for the Philosophy of Science . 72 (4): 965–993. doi : 10.1093/bjps/axy051 . ISSN  0007-0882.
  165. ^ Nissen SB, Magidson T, Gross K, Bergstrom CT (diciembre de 2016). "Sesgo de publicación y canonización de hechos falsos". eLife . 5 : e21451. arXiv : 1609.00494 . doi : 10.7554/eLife.21451 . PMC 5173326 . PMID  27995896. 
  166. ^ ab University of California San Diego (mayo de 2021). "Una nueva crisis de replicación: las investigaciones que tienen menos probabilidades de ser verdaderas se citan con más frecuencia". phys.org . Consultado el 14 de junio de 2021 .
  167. ^ ab Serra-Garcia M, Gneezy U (mayo de 2021). "Las publicaciones no replicables se citan más que las replicables". Science Advances . 7 (21): eabd1705. Bibcode :2021SciA....7.1705S. doi : 10.1126/sciadv.abd1705 . PMC 8139580 . PMID  34020944. 
  168. ^ Białek M (January 2018). "Replications can cause distorted belief in scientific progress". The Behavioral and Brain Sciences. 41: e122. doi:10.1017/S0140525X18000584. PMID 31064528. S2CID 147705650.
  169. ^ a b Mede NG, Schäfer MS, Ziegler R, Weißkopf M (January 2021). "The "replication crisis" in the public eye: Germans' awareness and perceptions of the (ir)reproducibility of scientific research". Public Understanding of Science. 30 (1): 91–102. doi:10.1177/0963662520954370. PMID 32924865. S2CID 221723269.
  170. ^ a b c d Letzter R (22 September 2016). "Scientists are furious after a famous psychologist accused her peers of 'methodological terrorism'". Business Insider. Retrieved 2020-01-30.
  171. ^ "Draft of Observer Column Sparks Strong Social Media Response". APS Observer. Association for Psychological Science. September 2016. Retrieved 2017-10-04.
  172. ^ Fiske ST (31 October 2016). "A Call to Change Science's Culture of Shaming". APS Observer. 29 (9).
  173. ^ Singal J (12 October 2016). "Inside Psychology's 'Methodological Terrorism' Debate". NY Mag. Retrieved 2017-10-04.
  174. ^ a b Vazire S (July 2018). "Implications of the Credibility Revolution for Productivity, Creativity, and Progress". Perspectives on Psychological Science. 13 (4): 411–417. doi:10.1177/1745691617751884. PMID 29961410. S2CID 49647586.
  175. ^ Korbmacher M, Azevedo F, Pennington CR, Hartmann H, Pownall M, Schmidt K, et al. (25 July 2023). "The replication crisis has led to positive structural, procedural, and community changes". Communications Psychology. 1 (1): 3. doi:10.1038/s44271-023-00003-2. hdl:10852/106350. ISSN 2731-9121. PMC 11290608. PMID 39242883.
  176. ^ Stroebe W, Strack F (January 2014). "The Alleged Crisis and the Illusion of Exact Replication". Perspectives on Psychological Science. 9 (1): 59–71. doi:10.1177/1745691613514450. PMID 26173241. S2CID 31938129.
  177. ^ Jensen A (7 May 2019). "Replication as Success and Unsuccessful Replication". College of Liberal Arts, Department of Philosophy. University of Minnesota. Retrieved 2022-05-25.
  178. ^ Madhusoodanan J (May 2022). "The overlooked variable in animal studies: why diet makes a difference". Nature. 605 (7911): 778–779. Bibcode:2022Natur.605..778M. doi:10.1038/d41586-022-01393-9. PMID 35606524. S2CID 249015202.
  179. ^ Ioannidis JP (June 2016). "Why Most Clinical Research Is Not Useful". PLOS Medicine. 13 (6): e1002049. doi:10.1371/journal.pmed.1002049. PMC 4915619. PMID 27328301.
  180. ^ Ioannidis JP, Fanelli D, Dunne DD, Goodman SN (October 2015). "Meta-research: Evaluation and Improvement of Research Methods and Practices". PLOS Biology. 13 (10): e1002264. doi:10.1371/journal.pbio.1002264. PMC 4592065. PMID 26431313.
  181. ^ Bach B (8 December 2015). "On communicating science and uncertainty: A podcast with John Ioannidis". Scope. Retrieved 2019-05-20.
  182. ^ Gosselin RD (January 2020). "Statistical Analysis Must Improve to Address the Reproducibility Crisis: The ACcess to Transparent Statistics (ACTS) Call to Action". BioEssays. 42 (1): e1900189. doi:10.1002/bies.201900189. PMID 31755115. S2CID 208228664.
  183. ^ Pratt MG, Kaplan S, Whittington R (6 November 2019). "Editorial Essay: The Tumult over Transparency: Decoupling Transparency from Replication in Establishing Trustworthy Qualitative Research". Administrative Science Quarterly. 65 (1): 1–19. doi:10.1177/0001839219887663. ISSN 0001-8392. S2CID 210537501.
  184. ^ Aschwanden C (6 December 2018). "Psychology's Replication Crisis Has Made The Field Better". FiveThirtyEight. Retrieved 2018-12-19.
  185. ^ Chartier C, Kline M, McCarthy R, Nuijten M, Dunleavy DJ, Ledgerwood A (December 2018), "The Cooperative Revolution Is Making Psychological Science Better", Observer, 31 (10), retrieved 2018-12-19
  186. ^ "Registered Replication Reports". Association for Psychological Science. Retrieved 2015-11-13.
  187. ^ Chambers C (20 May 2014). "Psychology's 'registration revolution'". The Guardian. Retrieved 2015-11-13.
  188. ^ Lindsay DS (December 2015). "Replication in Psychological Science". Psychological Science. 26 (12): 1827–1832. doi:10.1177/0956797615616374. PMID 26553013.
  189. ^ a b Benjamin DJ, Berger JO, Johannesson M, Nosek BA, Wagenmakers EJ, Berk R, et al. (January 2018). "Redefine statistical significance". Nature Human Behaviour. 2 (1): 6–10. doi:10.1038/s41562-017-0189-z. hdl:10281/184094. PMID 30980045.
  190. ^ Lakens D, Adolfi FG, Albers CJ, Anvari F, Apps MA, Argamon SE, et al. (March 2018). "Justify your alpha". Nature Human Behaviour. 2 (3): 168–171. doi:10.1038/s41562-018-0311-x. hdl:21.11116/0000-0004-9413-F. ISSN 2397-3374. S2CID 3692182.
  191. ^ Colquhoun D (November 2014). "An investigation of the false discovery rate and the misinterpretation of p-values". Royal Society Open Science. 1 (3): 140216. arXiv:1407.5296. Bibcode:2014RSOS....140216C. doi:10.1098/rsos.140216. PMC 4448847. PMID 26064558.
  192. ^ a b c d Colquhoun D (December 2017). "The reproducibility of research and the misinterpretation of p-values". Royal Society Open Science. 4 (12): 171085. doi:10.1098/rsos.171085. PMC 5750014. PMID 29308247.
  193. ^ Colquhoun D (11 October 2016). "The problem with p-values". Aeon Magazine. Retrieved 2016-12-11.
  194. ^ Longstaff C, Colquhoun D. "Calculator for false positive risk (FPR)". University College London. version 1.7.
  195. ^ Matthews RA (2001). "Why should clinicians care about Bayesian methods?". Journal of Statistical Planning and Inference. 94: 43–58. doi:10.1016/S0378-3758(00)00232-9.
  196. ^ Maxwell SE, Lau MY, Howard GS (September 2015). "Is psychology suffering from a replication crisis? What does "failure to replicate" really mean?". The American Psychologist. 70 (6): 487–498. doi:10.1037/a0039400. PMID 26348332.
  197. ^ IntHout J, Ioannidis JP, Borm GF, Goeman JJ (August 2015). "Small studies are more heterogeneous than large ones: a meta-meta-analysis". Journal of Clinical Epidemiology. 68 (8): 860–869. doi:10.1016/j.jclinepi.2015.03.017. hdl:2066/153978. PMID 25959635.
  198. ^ Button KS, Ioannidis JP, Mokrysz C, Nosek BA, Flint J, Robinson ES, et al. (May 2013). "Power failure: why small sample size undermines the reliability of neuroscience". Nature Reviews. Neuroscience. 14 (5): 365–376. doi:10.1038/nrn3475. PMID 23571845.
  199. ^ Greenwald AG (1975). "Consequences of prejudice against the null hypothesis" (PDF). Psychological Bulletin. 82 (1): 1–20. doi:10.1037/h0076157.
  200. ^ Kriegeskorte N, Simmons WK, Bellgowan PS, Baker CI (May 2009). "Circular analysis in systems neuroscience: the dangers of double dipping". Nature Neuroscience. 12 (5): 535–540. doi:10.1038/nn.2303. PMC 2841687. PMID 19396166.
  201. ^ Yarkoni T, Westfall J (November 2017). "Choosing Prediction Over Explanation in Psychology: Lessons From Machine Learning". Perspectives on Psychological Science. 12 (6): 1100–1122. doi:10.1177/1745691617693393. PMC 6603289. PMID 28841086.
  202. ^ "NWO makes 3 million available for Replication Studies pilot". Netherlands Organisation for Scientific Research (Press release). July 2016. Archived from the original on 2016-07-22.
  203. ^ a b c Apple S (22 January 2017). "The Young Billionaire Behind the War on Bad Science". Wired.
  204. ^ Frank MC, Saxe R (November 2012). "Teaching Replication". Perspectives on Psychological Science. 7 (6): 600–604. doi:10.1177/1745691612460686. PMID 26168118. S2CID 33661604.
  205. ^ Grahe JE, Reifman A, Hermann AD, Walker M, Oleson KC, Nario-Redmond M, et al. (November 2012). "Harnessing the Undiscovered Resource of Student Research Projects". Perspectives on Psychological Science. 7 (6): 605–607. doi:10.1177/1745691612459057. PMID 26168119.
  206. ^ Marwick B, Wang L, Robinson R, Loiselle H (22 October 2019). "How to Use Replication Assignments for Teaching Integrity in Empirical Archaeology". Advances in Archaeological Practice. 8: 78–86. doi:10.1017/aap.2019.38.
  207. ^ Everett JA, Earp BD (1 January 2015). "A tragedy of the (academic) commons: interpreting the replication crisis in psychology as a social dilemma for early-career researchers". Frontiers in Psychology. 6: 1152. doi:10.3389/fpsyg.2015.01152. PMC 4527093. PMID 26300832.
  208. ^ Ziano I, Mok PY, Feldman G (August 2021). "Replication and Extension of Alicke (1985) Better-Than-Average Effect for Desirable and Controllable Traits". Social Psychological and Personality Science. 12 (6): 1005–1017. doi:10.1177/1948550620948973. ISSN 1948-5506.
  209. ^ Korbmacher M, Azevedo F, Pennington CR, Hartmann H, Pownall M, Schmidt K, et al. (25 July 2023). "The replication crisis has led to positive structural, procedural, and community changes". Communications Psychology. 1 (1): 3. doi:10.1038/s44271-023-00003-2. ISSN 2731-9121. PMC 11290608. PMID 39242883.
  210. ^ Pennington CR (2023). A student's guide to open science: using the replication crisis to reform psychology. Maidenhead: Open University Press. ISBN 978-0-335-25117-9.
  211. ^ Kulke L, Rakoczy H (1 February 2018). "Implicit Theory of Mind – An overview of current replications and non-replications". Data in Brief. 16: 101–104. Bibcode:2018DIB....16..101K. doi:10.1016/j.dib.2017.11.016. ISSN 2352-3409. PMC 5694957. PMID 29188228.
  212. ^ "Curate Science". curatescience.org. Retrieved 2024-09-19.
  213. ^ LeBel EP, McCarthy RJ, Earp BD, Elson M, Vanpaemel W (September 2018). "A Unified Framework to Quantify the Credibility of Scientific Findings". Advances in Methods and Practices in Psychological Science. 1 (3): 389–402. doi:10.1177/2515245918787489. ISSN 2515-2459.
  214. ^ Röseler L, Kaiser L, Doetsch C, Klett N, Seida C, Schütz A, et al. (11 September 2024). "The Replication Database: Documenting the Replicability of Psychological Science". Journal of Open Psychology Data. 12 (1): 8. doi:10.5334/jopd.101. ISSN 2050-9863.
  215. ^ Quintana DS (September 2021). "Replication studies for undergraduate theses to improve science and education". Nature Human Behaviour (World View article). 5 (9): 1117–1118. doi:10.1038/s41562-021-01192-8. PMID 34493847. S2CID 237439956.
  216. ^ University of Cambridge (April 2022). "'Robot scientist' Eve finds that less than one-third of scientific results are reproducible". Techxplore. Retrieved 2022-05-15.
  217. ^ Roper K, Abdel-Rehim A, Hubbard S, Carpenter M, Rzhetsky A, Soldatova L, et al. (April 2022). "Testing the reproducibility and robustness of the cancer biology literature by robot". Journal of the Royal Society, Interface. 19 (189): 20210821. doi:10.1098/rsif.2021.0821. PMC 8984295. PMID 35382578.
  218. ^ a b Chambers C (10 June 2014). "Physics envy: Do 'hard' sciences hold the solution to the replication crisis in psychology?". The Guardian.
  219. ^ Kahneman D (2014). "A New Etiquette for Replication". Social Psychology (Commentary). Commentaries and Rejoinder on. 45 (4): 310–311. doi:10.1027/1864-9335/a000202.
  220. ^ Makel MC, Plucker JA, Hegarty B (November 2012). "Replications in Psychology Research: How Often Do They Really Occur?". Perspectives on Psychological Science. 7 (6): 537–542. doi:10.1177/1745691612460688. PMID 26168110.
  221. ^ Uhlmann EL, Ebersole CR, Chartier CR, Errington TM, Kidwell MC, Lai CK, et al. (September 2019). "Scientific Utopia III: Crowdsourcing Science". Perspectives on Psychological Science. 14 (5): 711–733. doi:10.1177/1745691619850561. PMID 31260639.
  222. ^ a b Forscher PS, Wagenmakers EJ, Coles NA, Silan MA, Dutra N, Basnight-Brown D, et al. (May 2023). "The Benefits, Barriers, and Risks of Big-Team Science". Perspectives on Psychological Science. 18 (3): 607–623. doi:10.1177/17456916221082970. PMID 36190899. S2CID 236816530.
  223. ^ Munafò MR, Davey Smith G (January 2018). "Robust research needs many lines of evidence". Nature. 553 (7689): 399–401. Bibcode:2018Natur.553..399M. doi:10.1038/d41586-018-01023-3. PMID 29368721.
  224. ^ a b c d e f Wallot S, Kelty-Stephen DG (1 June 2018). "Interaction-Dominant Causation in Mind and Brain, and Its Implication for Questions of Generalization and Replication". Minds and Machines. 28 (2): 353–374. doi:10.1007/s11023-017-9455-0. hdl:21.11116/0000-0001-AC9C-E. ISSN 1572-8641.
  225. ^ Tierney W, Hardy JH, Ebersole CR, Leavitt K, Viganola D, Clemente EG, et al. (1 November 2020). "Creative destruction in science". Organizational Behavior and Human Decision Processes. 161: 291–309. doi:10.1016/j.obhdp.2020.07.002. hdl:2066/228242. ISSN 0749-5978. S2CID 224979451.
  226. ^ Tierney W, Hardy J, Ebersole CR, Viganola D, Clemente EG, Gordon M, et al. (1 March 2021). "A creative destruction approach to replication: Implicit work and sex morality across cultures". Journal of Experimental Social Psychology. 93: 104060. doi:10.1016/j.jesp.2020.104060. hdl:10037/24275. ISSN 0022-1031. S2CID 229028797.
  227. ^ Delios A, Clemente EG, Wu T, Tan H, Wang Y, Gordon M, et al. (July 2022). "Examining the generalizability of research findings from archival data". Proceedings of the National Academy of Sciences of the United States of America. 119 (30): e2120377119. Bibcode:2022PNAS..11920377D. doi:10.1073/pnas.2120377119. PMC 9335312. PMID 35858443.
  228. ^ Ince DC, Hatton L, Graham-Cumming J (February 2012). "The case for open computer programs". Nature. 482 (7386): 485–488. Bibcode:2012Natur.482..485I. doi:10.1038/nature10836. PMID 22358837.
  229. ^ Vuong QH (January 2018). "The (ir)rational consideration of the cost of science in transition economies". Nature Human Behaviour. 2 (1): 5. doi:10.1038/s41562-017-0281-4. PMID 30980055. S2CID 46878093.
  230. ^ Junk TR, Lyons L (21 December 2020). "Reproducibility and Replication of Experimental Particle Physics Results". Harvard Data Science Review. 2 (4). arXiv:2009.06864. doi:10.1162/99608f92.250f995b. S2CID 221703733.
  231. ^ a b Ioannidis JP (February 2016). "Anticipating consequences of sharing raw data and code and of awarding badges for sharing". Journal of Clinical Epidemiology (Commentary). 70: 258–260. doi:10.1016/j.jclinepi.2015.04.015. PMID 26163123.

Further reading