Mal uso de los valores p

El uso incorrecto de los valores p es común en la investigación científica y la educación científica . Los valores p a menudo se usan o interpretan incorrectamente; ^[1] la Asociación Estadounidense de Estadística afirma que los valores p pueden indicar qué tan incompatibles son los datos con un modelo estadístico específico. ^[2] Desde un enfoque de prueba de hipótesis de Neyman-Pearson para inferencias estadísticas, los datos obtenidos al comparar el valor p con un nivel de significancia arrojarán uno de dos resultados: o se rechaza la hipótesis nula (lo que sin embargo no prueba que la hipótesis nula sea falsa ), o la hipótesis nula no puede rechazarse en ese nivel de significancia (lo que sin embargo no prueba que la hipótesis nula sea verdadera ). Desde un enfoque de prueba estadística de Fisher para inferencias estadísticas, un valor p bajo significa que la hipótesis nula es verdadera y ha ocurrido un evento altamente improbable o que la hipótesis nula es falsa.

Aclaraciones sobrepag-valores

La siguiente lista aclara algunas cuestiones que suelen malinterpretarse con respecto a los valores p : ^[2]^[3]^[4]

El valor p no es la probabilidad de que la hipótesis nula sea verdadera, o la probabilidad de que la hipótesis alternativa sea falsa. ^[2] Un valor p puede indicar el grado de compatibilidad entre un conjunto de datos y una explicación hipotética particular (como una hipótesis nula). Específicamente, el valor p puede tomarse como la probabilidad de obtener un efecto que sea al menos tan extremo como el efecto observado, dado que la hipótesis nula es verdadera. Esto no debe confundirse con la probabilidad de que la hipótesis nula sea verdadera dado el efecto observado (ver falacia del fiscal ). De hecho, la estadística frecuentista no asocia probabilidades a las hipótesis.
El valor p no es la probabilidad de que los efectos observados se hayan producido por pura casualidad. ^[2] El valor p se calcula suponiendo que un determinado modelo, normalmente la hipótesis nula, es verdadero. Esto significa que el valor p es una afirmación sobre la relación de los datos con esa hipótesis. ^[2]
El nivel de significación de 0,05 es simplemente una convención. ^[3]^[5] El nivel de significación de 0,05 (nivel alfa) se utiliza a menudo como límite entre un valor p estadísticamente significativo y uno estadísticamente no significativo . Sin embargo, esto no implica que exista una razón científica general para considerar que los resultados en lados opuestos de cualquier umbral son cualitativamente diferentes. ^[3]^[6]
El valor p no indica el tamaño o la importancia del efecto observado. ^[2] Se puede observar un valor p pequeño para un efecto que no es significativo ni importante. De hecho, cuanto mayor sea el tamaño de la muestra, menor será el efecto mínimo necesario para producir un valor p estadísticamente significativo (véase tamaño del efecto ).

Los problemas 1 y 2 pueden ilustrarse por analogía con la falacia del fiscal en su formato de tabla de contingencia subyacente compartido de 2 × 2, donde la conveniente rotación de atención de 90° del usuario reemplaza el espacio muestral previsto con un espacio muestral ilícito. ^[7]^{: 18-19} Estos usos incorrectos del valor p son, por lo tanto, análogos a la falacia de la probabilidad del condicional transformado y, a su vez, a la falacia de la conversión ilícita de la lógica categórica. ^[7]^{: 12-13}

Representación de probabilidades de hipótesis

Un enfoque frecuentista rechaza la validez de representar probabilidades de hipótesis: las hipótesis son verdaderas o falsas, no algo que pueda representarse con una probabilidad. ^[8]

La estadística bayesiana modela activamente la probabilidad de las hipótesis. El valor p no permite por sí mismo razonar sobre las probabilidades de las hipótesis, lo que requiere múltiples hipótesis o un rango de hipótesis, con una distribución previa de probabilidades entre ellas, en cuyo caso se podría utilizar la estadística bayesiana. En este caso, se utiliza una función de probabilidad para todos los valores posibles de la anterior en lugar del valor p para una única hipótesis nula. El valor p describe una propiedad de los datos cuando se compara con una hipótesis nula específica; no es una propiedad de la hipótesis en sí. Por la misma razón, los valores p no dan la probabilidad de que los datos se hayan producido solo por casualidad. ^[2]

Problema de comparaciones múltiples

El problema de las comparaciones múltiples ocurre cuando se considera un conjunto de inferencias estadísticas simultáneamente ^[9] o se infiere un subconjunto de parámetros seleccionados en función de los valores observados. ^[10] También se lo conoce como el efecto de búsqueda en otra parte . Es más probable que se produzcan errores en la inferencia, incluidos los intervalos de confianza que no incluyen sus parámetros poblacionales correspondientes o las pruebas de hipótesis que rechazan incorrectamente la hipótesis nula , cuando se considera el conjunto como un todo. Se han desarrollado varias técnicas estadísticas para evitar que esto suceda, lo que permite comparar directamente los niveles de significancia para comparaciones simples y múltiples. Estas técnicas generalmente requieren un umbral de significancia más alto para las comparaciones individuales, a fin de compensar la cantidad de inferencias que se realizan. ^{[ cita requerida ]}

El webcomic xkcd satirizó los malentendidos de los valores p al retratar a científicos que investigaban la afirmación de que comer gominolas causaba acné . ^[11]^[12]^[13]^[14] Después de no encontrar una correlación significativa ( p < 0,05) entre comer gominolas y acné, los científicos investigan 20 colores diferentes de gominolas individualmente, sin ajustar para comparaciones múltiples. Encuentran un color (verde) nominalmente asociado con el acné ( p < 0,05). Luego, un periódico informa que los resultados indican que las gominolas verdes están relacionadas con el acné con un nivel de confianza del 95 %, como si el verde fuera el único color probado. De hecho, si se realizan 20 pruebas independientes con un nivel de significancia de 0,05 y todas las hipótesis nulas son verdaderas, existe un 64,2 % de posibilidades de obtener al menos un falso positivo y el número esperado de falsos positivos es 1 (es decir, 0,05 × 20).

En general, la tasa de error por familia (FWER, por sus siglas en inglés), es decir, la probabilidad de obtener al menos un falso positivo, aumenta con el número de pruebas realizadas. La FWER cuando todas las hipótesis nulas son verdaderas para m pruebas independientes, cada una realizada con un nivel de significación α, es: ^[13]

{\text{FWER}}=1-(1-\alpha )^{m}

Véase también

Referencias

^ Vidgen B, Yasseri T (marzo de 2016). "Valores P: mal entendidos y mal utilizados". Frontiers in Physics . 4 (6): 6. arXiv : 1601.06805 . Bibcode :2016FrP.....4....6V. doi : 10.3389/fphy.2016.00006 .
^ abcdefg Wasserstein RL, Lazar NA (2016). "Declaración de la ASA sobre los valores p: contexto, proceso y propósito" (PDF) . The American Statistician . 70 (2): 129–133. doi : 10.1080/00031305.2016.1154108 . S2CID 124084622.
^ abc Sterne JA, Davey Smith G (enero de 2001). "Examinando la evidencia: ¿qué hay de malo en las pruebas de significación?". BMJ . 322 (7280): 226–31. doi :10.1136/bmj.322.7280.226. PMC 1119478 . PMID 11159626.
^ Schervish MJ (1996). " Valores P : qué son y qué no son". The American Statistician . 50 (3): 203–206. doi :10.2307/2684655. JSTOR 2684655.
^ Rafi Z, Greenland S (septiembre de 2020). "Herramientas semánticas y cognitivas para ayudar a la ciencia estadística: reemplazar la confianza y la significación por la compatibilidad y la sorpresa". BMC Medical Research Methodology . 20 (1): 244. arXiv : 1909.08579 . doi : 10.1186/s12874-020-01105-9 . PMC 7528258 . PMID 32998683.
^ Amrhein V, Korner-Nievergelt F, Roth T (2017). "p > 0,05: umbrales de significación y la crisis de la investigación irreplicable". PeerJ . 5 : e3544. doi : 10.7717/peerj.3544 . PMC 5502092 . PMID 28698825.
^ ab Suss, Richard A. (4 de octubre de 2023). "La falacia del fiscal enmarcada como una sustitución del espacio muestral". Preprints de OSF . doi :10.31219/osf.io/cs248.
^ Chaput, Brigitte; Girard, Jean-Claude; Henry, Michel (2011). "Enfoque frecuentista: modelado y simulación en la enseñanza de la estadística y la probabilidad". Enseñanza de la estadística en las matemáticas escolares: desafíos para la enseñanza y la formación docente . Nueva serie de estudios del ICMI. Vol. 14. págs. 85–95. doi :10.1007/978-94-007-1131-0_12. ISBN 978-94-007-1130-3.
^ Miller RG (1981). Inferencia estadística simultánea (2.ª ed.). Nueva York: Springer Verlag . ISBN 978-0-387-90548-8.
^ Benjamini Y (diciembre de 2010). "Inferencia simultánea y selectiva: éxitos actuales y desafíos futuros". Revista biométrica. Biometrische Zeitschrift . 52 (6): 708–21. doi :10.1002/bimj.200900299. PMID 21154895.
^ Munroe R (6 de abril de 2011). "Significant". xkcd . Consultado el 22 de febrero de 2016 .
^ Colquhoun D (noviembre de 2014). "Una investigación de la tasa de descubrimientos falsos y la interpretación errónea de los valores p". Royal Society Open Science . 1 (3): 140216. arXiv : 1407.5296 . Bibcode :2014RSOS....140216C. doi :10.1098/rsos.140216. PMC 4448847 . PMID 26064558.
^ ab Reinhart A (2015). Estadísticas mal hechas: la guía lamentablemente completa. No Starch Press . págs. 47–48. ISBN 978-1-59327-620-1.
^ Barsalou M (2 de junio de 2014). «Pruebas de hipótesis y valores p». Blog de Minitab . Consultado el 22 de febrero de 2016 .

Lectura adicional

Wasserstein, Ronald L.; Schirm, Allen L.; Lazar, Nicole A. (2019-03-20). "Avanzando hacia un mundo más allá de "p < 0,05"". El estadístico estadounidense . 73 (sup1): 1–19. doi : 10.1080/00031305.2019.1583913 . ISSN 0003-1305.
Vidgen B, Yasseri T (marzo de 2016). "Valores P: mal entendidos y mal utilizados". Frontiers in Physics . 4 (6): 6. arXiv : 1601.06805 . Bibcode :2016FrP.....4....6V. doi : 10.3389/fphy.2016.00006 .
Ioannidis, John PA (29 de marzo de 2019). "¿Qué hemos aprendido (o no) de millones de artículos científicos con valores P?". The American Statistician . 73 (sup1): 20–25. doi : 10.1080/00031305.2018.1447512 . ISSN 0003-1305.
Moran JL, Solomon PJ (junio de 2004). "¿Adiós a los valores P?" (PDF) . Cuidados críticos y reanimación . 6 (2): 130–7. PMID 16566700.
Lew MJ (julio de 2012). "Mala práctica estadística en farmacología (y otras disciplinas biomédicas básicas): probablemente no conozcas P". British Journal of Pharmacology . 166 (5): 1559–67. doi :10.1111/j.1476-5381.2012.01931.x. PMC 3419900 . PMID 22394284.
Nuzzo R (febrero de 2014). «Método científico: errores estadísticos». Nature . 506 (7487): 150–2. Bibcode :2014Natur.506..150N. doi : 10.1038/506150a . PMID 24522584.