stringtranslate.com

Mal uso de los valores p

El mal uso de los valores p es común en la investigación científica y la educación científica . Los valores p a menudo se utilizan o interpretan incorrectamente; [1] la Asociación Estadounidense de Estadística afirma que los valores p pueden indicar cuán incompatibles son los datos con un modelo estadístico específico. [2] Desde un enfoque de prueba de hipótesis de Neyman-Pearson para inferencias estadísticas, los datos obtenidos al comparar el valor p con un nivel de significancia arrojarán uno de dos resultados: o se rechaza la hipótesis nula (lo que, sin embargo, no prueba que la hipótesis nula la hipótesis nula es falsa ), o la hipótesis nula no puede rechazarse en ese nivel de significancia (lo que sin embargo no prueba que la hipótesis nula sea verdadera ). Desde el enfoque de prueba estadística de Fisher hasta las inferencias estadísticas, un valor p bajo significa que la hipótesis nula es verdadera y ha ocurrido un evento altamente improbable o que la hipótesis nula es falsa.

Aclaraciones sobrepag-valores

La siguiente lista aclara algunas cuestiones que comúnmente se malinterpretan con respecto a los valores p : [2] [3] [4]

  1. El valor p no es la probabilidad de que la hipótesis nula sea verdadera ni la probabilidad de que la hipótesis alternativa sea falsa. [2] Un valor p puede indicar el grado de compatibilidad entre un conjunto de datos y una explicación hipotética particular (como una hipótesis nula). Específicamente, el valor p puede tomarse como la probabilidad de obtener un efecto que sea al menos tan extremo como el efecto observado, dado que la hipótesis nula es verdadera. Esto no debe confundirse con la probabilidad de que la hipótesis nula sea cierta dado el efecto observado (ver falacia del fiscal ). De hecho, las estadísticas frecuentistas no atribuyen probabilidades a las hipótesis.
  2. El valor p no es la probabilidad de que los efectos observados se produjeran únicamente por azar. [2] El valor p se calcula bajo el supuesto de que cierto modelo, generalmente la hipótesis nula, es verdadero. Esto significa que el valor p es una afirmación sobre la relación de los datos con esa hipótesis. [2]
  3. El nivel de significancia de 0,05 es simplemente una convención. [3] [5] El nivel de significancia de 0,05 (nivel alfa) se utiliza a menudo como límite entre un valor p estadísticamente significativo y uno estadísticamente no significativo . Sin embargo, esto no implica que exista en general una razón científica para considerar los resultados en lados opuestos de cualquier umbral como cualitativamente diferentes. [3] [6]
  4. El valor p no indica el tamaño o la importancia del efecto observado. [2] Se puede observar un valor p pequeño para un efecto que no es significativo o importante. De hecho, cuanto mayor sea el tamaño de la muestra, menor será el efecto mínimo necesario para producir un valor p estadísticamente significativo (ver tamaño del efecto ).

Los problemas 1 y 2 pueden ilustrarse por analogía con la falacia del fiscal en su formato de tabla de contingencia subyacente compartido de 2 × 2, donde la conveniente rotación de atención de 90° del usuario reemplaza el espacio muestral deseado con un espacio muestral ilícito. [7] : 18-19  Estos usos indebidos del valor p son, por tanto, análogos a la falacia del condicional transformado de la probabilidad y, a su vez, a la falacia de la conversión ilícita de la lógica categórica. [7] : 12-13 

Representar probabilidades de hipótesis.

Un enfoque frecuentista rechaza la validez de representar probabilidades de hipótesis: las hipótesis son verdaderas o falsas, no algo que pueda representarse con una probabilidad. [8]

La estadística bayesiana modela activamente la probabilidad de hipótesis. El valor p no permite por sí solo razonar sobre las probabilidades de las hipótesis, lo que requiere múltiples hipótesis o un rango de hipótesis, con una distribución previa de probabilidades entre ellas, en cuyo caso se podría utilizar la estadística bayesiana. Allí, se utiliza una función de verosimilitud para todos los valores posibles del valor anterior en lugar del valor p para una única hipótesis nula. El valor p describe una propiedad de los datos en comparación con una hipótesis nula específica; no es una propiedad de la hipótesis en sí. Por la misma razón, los valores p no dan la probabilidad de que los datos hayan sido producidos únicamente por azar. [2]

Problema de comparaciones múltiples

El problema de las comparaciones múltiples ocurre cuando uno considera un conjunto de inferencias estadísticas simultáneamente [9] o infiere un subconjunto de parámetros seleccionados en función de los valores observados. [10] También se conoce como efecto de mirar a otra parte . Los errores en la inferencia, incluidos los intervalos de confianza que no incluyen sus correspondientes parámetros poblacionales o las pruebas de hipótesis que rechazan incorrectamente la hipótesis nula , son más probables cuando se considera el conjunto como un todo. Se han desarrollado varias técnicas estadísticas para evitar que esto suceda, permitiendo comparar directamente los niveles de significancia para comparaciones únicas y múltiples. Estas técnicas generalmente requieren un umbral de significancia más alto para las comparaciones individuales, a fin de compensar el número de inferencias que se hacen. [ cita necesaria ]

El webcomic xkcd satirizó los malentendidos sobre los valores p al retratar a científicos que investigaban la afirmación de que comer gominolas causaba acné . [11] [12] [13] [14] Después de no poder encontrar una correlación significativa ( p < 0,05) entre el consumo de gominolas y el acné, los científicos investigan 20 colores diferentes de gominolas individualmente, sin realizar ajustes para comparaciones múltiples. Encuentran un color (verde) nominalmente asociado con el acné ( p <0,05). Luego, un periódico informa que los resultados indican que las gominolas verdes están relacionadas con el acné con un nivel de confianza del 95%, como si el verde fuera el único color probado. De hecho, si se realizan 20 pruebas independientes con un nivel de significancia de 0,05 y todas las hipótesis nulas son verdaderas, hay un 64,2% de posibilidades de obtener al menos un falso positivo y el número esperado de falsos positivos es 1 (es decir, 0,05 × 20).

En general, la tasa de error familiar (FWER), es decir, la probabilidad de obtener al menos un falso positivo, aumenta con el número de pruebas realizadas. El FWER cuando todas las hipótesis nulas son verdaderas para m pruebas independientes, cada una de ellas realizada con un nivel de significancia α, es: [13]

Ver también

Referencias

  1. ^ Vidgen B, Yasseri T (marzo de 2016). "Valores P: mal entendidos y mal utilizados". Fronteras en Física . 4 (6): 6. arXiv : 1601.06805 . Código Bib : 2016FrP.....4....6V. doi : 10.3389/fphy.2016.00006 .
  2. ^ abcdefg Wasserstein RL, Lazar NA (2016). "Declaración de la ASA sobre valores p: contexto, proceso y propósito" (PDF) . El estadístico estadounidense . 70 (2): 129-133. doi : 10.1080/00031305.2016.1154108 . S2CID  124084622.
  3. ^ abc Sterne JA, Davey Smith G (enero de 2001). "Caminando la evidencia: ¿qué hay de malo en las pruebas de significancia?". BMJ . 322 (7280): 226–31. doi :10.1136/bmj.322.7280.226. PMC 1119478 . PMID  11159626. 
  4. ^ Schervish MJ (1996). " Valores P : qué son y qué no son". El estadístico estadounidense . 50 (3): 203–206. doi :10.2307/2684655. JSTOR  2684655.
  5. ^ Rafi Z, Groenlandia S (septiembre de 2020). "Herramientas semánticas y cognitivas para ayudar a la ciencia estadística: reemplazar la confianza y la importancia por compatibilidad y sorpresa". Metodología de la investigación médica del BMC . 20 (1): 244. arXiv : 1909.08579 . doi : 10.1186/s12874-020-01105-9 . PMC 7528258 . PMID  32998683. 
  6. ^ Amrhein V, Korner-Nievergelt F, Roth T (2017). "p > 0,05: umbrales de significancia y la crisis de investigaciones irreplicables". PeerJ . 5 : e3544. doi : 10.7717/peerj.3544 . PMC 5502092 . PMID  28698825. 
  7. ^ ab Suss, Richard A. (4 de octubre de 2023). "La falacia del fiscal enmarcada como una sustitución del espacio muestral". Preimpresiones OSF . doi : 10.31219/osf.io/cs248.
  8. ^ Chaput, Brigitte; Girard, Jean-Claude; Henry, Michel (2011). "Enfoque frecuentista: modelado y simulación en la enseñanza de estadística y probabilidad". Enseñanza de la Estadística en la Matemática Escolar-Retos para la Enseñanza y la Formación Docente . Nueva serie de estudios ICMI. vol. 14. págs. 85–95. doi :10.1007/978-94-007-1131-0_12. ISBN 978-94-007-1130-3.
  9. ^ Miller RG (1981). Inferencia estadística simultánea (2ª ed.). Nueva York: Springer Verlag . ISBN 978-0-387-90548-8.
  10. ^ Benjamini Y (diciembre de 2010). "Inferencia simultánea y selectiva: éxitos actuales y desafíos futuros". Revista biométrica. Biometrische Zeitschrift . 52 (6): 708–21. doi :10.1002/bimj.200900299. PMID  21154895.
  11. ^ Munroe R (6 de abril de 2011). "Significativo". xkcd . Consultado el 22 de febrero de 2016 .
  12. ^ Colquhoun D (noviembre de 2014). "Una investigación de la tasa de descubrimientos falsos y la mala interpretación de los valores p". Ciencia abierta de la Royal Society . 1 (3): 140216. arXiv : 1407.5296 . Código Bib : 2014RSOS....140216C. doi :10.1098/rsos.140216. PMC 4448847 . PMID  26064558. 
  13. ^ ab Reinhart A (2015). Estadísticas mal hechas: la guía lamentablemente completa. Sin prensa de almidón . págs. 47–48. ISBN 978-1-59327-620-1.
  14. ^ Barsalou M (2 de junio de 2014). "Prueba de hipótesis y valores p". Blog de Minitab . Consultado el 22 de febrero de 2016 .

Otras lecturas