En las pruebas de significación de hipótesis nulas , el valor [nota 1] es la probabilidad de obtener resultados de la prueba al menos tan extremos como el resultado realmente observado , bajo el supuesto de que la hipótesis nula es correcta. [2] [3] Un valor p muy pequeño significa que un resultado observado tan extremo sería muy improbable bajo la hipótesis nula. Aunque informar los valores p de las pruebas estadísticas es una práctica común en publicaciones académicas de muchos campos cuantitativos, la mala interpretación y el uso indebido de los valores p están muy extendidos y han sido un tema importante en matemáticas y metaciencia . [4] [5] En 2016, la Asociación Estadounidense de Estadística (ASA) hizo una declaración formal de que " los valores p no miden la probabilidad de que la hipótesis estudiada sea cierta, o la probabilidad de que los datos se hayan producido únicamente por azar". y que "un valor p , o significación estadística, no mide el tamaño de un efecto o la importancia de un resultado" o "evidencia sobre un modelo o hipótesis". [6] Dicho esto, un grupo de trabajo de 2019 de la ASA emitió una declaración sobre significancia estadística y replicabilidad, que concluye con: " Los valores p y las pruebas de significancia, cuando se aplican e interpretan adecuadamente, aumentan el rigor de las conclusiones extraídas de los datos". [7]
En estadística, se denomina hipótesis estadística a toda conjetura relativa a la distribución de probabilidad desconocida de un conjunto de variables aleatorias que representan los datos observados en algún estudio . Si planteamos solo una hipótesis y el objetivo de la prueba estadística es ver si esta hipótesis es sostenible, pero no investigar otras hipótesis específicas, entonces dicha prueba se denomina prueba de hipótesis nula .
Como nuestra hipótesis estadística, por definición, establecerá alguna propiedad de la distribución, la hipótesis nula es la hipótesis por defecto bajo la cual esa propiedad no existe. La hipótesis nula suele ser que algún parámetro (como una correlación o una diferencia entre medias) en las poblaciones de interés es cero. Nuestra hipótesis podría especificar la distribución de probabilidad de con precisión, o podría especificar sólo que pertenece a alguna clase de distribuciones. A menudo, reducimos los datos a una única estadística numérica, por ejemplo , cuya distribución de probabilidad marginal está estrechamente relacionada con una cuestión principal de interés en el estudio.
El valor p se utiliza en el contexto de la prueba de hipótesis nula para cuantificar la significancia estadística de un resultado, siendo el resultado el valor observado de la estadística elegida . [nota 2] Cuanto menor sea el valor p , menor será la probabilidad de obtener ese resultado si la hipótesis nula fuera cierta. Se dice que un resultado es estadísticamente significativo si permite rechazar la hipótesis nula. En igualdad de condiciones, los valores p más pequeños se toman como evidencia más sólida contra la hipótesis nula.
En términos generales, el rechazo de la hipótesis nula implica que existe evidencia suficiente en su contra.
Como ejemplo particular, si una hipótesis nula establece que un determinado estadístico resumido sigue la distribución normal estándar N(0,1), entonces el rechazo de esta hipótesis nula podría significar que (i) la media de no es 0, o (ii ) la varianza de no es 1, o (iii) no se distribuye normalmente. Diferentes pruebas de la misma hipótesis nula serían más o menos sensibles a diferentes alternativas. Sin embargo, incluso si logramos rechazar la hipótesis nula para las 3 alternativas, e incluso si sabemos que la distribución es normal y la varianza es 1, la prueba de hipótesis nula no nos dice qué valores distintos de cero de la media son ahora más plausible. Cuantas más observaciones independientes de la misma distribución de probabilidad tengamos, más precisa será la prueba y mayor será la precisión con la que podremos determinar el valor medio y demostrar que no es igual a cero; pero esto también aumentará la importancia de evaluar la relevancia científica o del mundo real de esta desviación.
El valor p es la probabilidad bajo la hipótesis nula de obtener un estadístico de prueba de valor real al menos tan extremo como el obtenido. Considere una estadística de prueba observada de una distribución desconocida . Entonces el valor p es cuál sería la probabilidad previa de observar un valor estadístico de prueba al menos tan "extremo" como si la hipótesis nula fuera cierta. Eso es:
El error que un estadístico en ejercicio consideraría más importante evitar (que es un juicio subjetivo) se denomina error del primer tipo. La primera exigencia de la teoría matemática es deducir criterios de prueba que aseguren que la probabilidad de cometer un error del primer tipo sea igual (o aproximadamente igual, o no exceda) a un número preasignado α, tal como α = 0,05 o 0,01. , etc. Este número se llama nivel de significancia.
— Jerzy Neyman, "La aparición de la estadística matemática" [8]
En una prueba de significancia, la hipótesis nula se rechaza si el valor p es menor o igual a un valor umbral predefinido , que se conoce como nivel alfa o nivel de significancia . no se deriva de los datos, sino que lo establece el investigador antes de examinar los datos. normalmente se establece en 0,05, aunque a veces se utilizan niveles alfa más bajos. En 2018, un grupo de estadísticos liderado por Daniel Benjamin propuso la adopción del valor 0,005 como valor estándar para la significación estadística a nivel mundial. [9]
Se pueden combinar diferentes valores p basados en conjuntos de datos independientes, por ejemplo utilizando la prueba de probabilidad combinada de Fisher .
El valor p es una función del estadístico de prueba elegido y, por lo tanto, es una variable aleatoria . Si la hipótesis nula fija la distribución de probabilidad de forma precisa ( p. ej., dónde está el único parámetro), y si esa distribución es continua, entonces, cuando la hipótesis nula es verdadera, el valor p se distribuye uniformemente entre 0 y 1. Independientemente de la verdad del , el valor p no es fijo; Si la misma prueba se repite de forma independiente con datos nuevos, normalmente se obtendrá un valor p diferente en cada iteración.
Por lo general, sólo se observa un único valor p relacionado con una hipótesis, por lo que el valor p se interpreta mediante una prueba de significancia y no se hace ningún esfuerzo por estimar la distribución de la que se extrajo. Cuando se dispone de una colección de valores p ( por ejemplo, al considerar un grupo de estudios sobre el mismo tema), la distribución de los valores p a veces se denomina curva p . [10] Se puede utilizar una curva p para evaluar la confiabilidad de la literatura científica, por ejemplo, detectando sesgos de publicación o p -hacking . [10] [11]
En los problemas de prueba de hipótesis paramétricas, una hipótesis simple o puntual se refiere a una hipótesis en la que se supone que el valor del parámetro es un número único. Por el contrario, en una hipótesis compuesta el valor del parámetro viene dado por un conjunto de números. Cuando la hipótesis nula es compuesta (o la distribución del estadístico es discreta), entonces, cuando la hipótesis nula es verdadera, la probabilidad de obtener un valor p menor o igual a cualquier número entre 0 y 1 sigue siendo menor que o igual a ese número. En otras palabras, sigue siendo cierto que los valores muy pequeños son relativamente improbables si la hipótesis nula es verdadera, y que se obtiene una prueba de significancia a nivel al rechazar la hipótesis nula si el valor p es menor o igual a . [12] [13]
Por ejemplo, al probar la hipótesis nula de que una distribución es normal con una media menor o igual a cero frente a la alternativa de que la media es mayor que cero ( , varianza conocida), la hipótesis nula no especifica la distribución de probabilidad exacta de la estadística de prueba apropiada. En este ejemplo, esa sería la estadística Z que pertenece a la prueba Z unilateral de una muestra . Para cada valor posible de la media teórica, el estadístico de prueba Z tiene una distribución de probabilidad diferente. En estas circunstancias, el valor p se define tomando el caso de hipótesis nula menos favorable, que normalmente se encuentra en el límite entre nulo y alternativo. Esta definición garantiza la complementariedad de los valores p y los niveles alfa: significa que solo se rechaza la hipótesis nula si el valor p es menor o igual a , y la prueba de hipótesis tendrá una tasa máxima de error tipo 1 de .
El valor p se utiliza ampliamente en las pruebas de hipótesis estadísticas , específicamente en las pruebas de significación de hipótesis nulas. En este método, antes de realizar el estudio, primero se elige un modelo (la hipótesis nula ) y el nivel alfa α (más comúnmente 0,05). Después de analizar los datos, si el valor p es menor que α , se entiende que los datos observados son suficientemente inconsistentes con la hipótesis nula como para rechazar la hipótesis nula. Sin embargo, eso no prueba que la hipótesis nula sea falsa. El valor p , por sí solo, no establece probabilidades de hipótesis. Más bien, es una herramienta para decidir si se rechaza la hipótesis nula. [14]
Según la ASA , existe un acuerdo generalizado en que los valores p a menudo se utilizan y malinterpretan. [3] Una práctica que ha sido particularmente criticada es aceptar la hipótesis alternativa para cualquier valor p nominalmente inferior a 0,05 sin otra evidencia que lo respalde. Aunque los valores p son útiles para evaluar cuán incompatibles son los datos con un modelo estadístico específico, también se deben considerar factores contextuales, como "el diseño de un estudio, la calidad de las mediciones, la evidencia externa del fenómeno en estudio, y la validez de los supuestos que subyacen al análisis de los datos". [3] Otra preocupación es que el valor p a menudo se malinterpreta como la probabilidad de que la hipótesis nula sea cierta. [3] [15]
Algunos estadísticos han propuesto abandonar los valores p y centrarse más en otras estadísticas inferenciales, [3] como los intervalos de confianza , [16] [17] razones de probabilidad , [18] [19] o factores de Bayes , [20] [21] [ 22] pero existe un acalorado debate sobre la viabilidad de estas alternativas. [23] [24] Otros han sugerido eliminar los umbrales de significancia fijos e interpretar los valores p como índices continuos de la solidez de la evidencia contra la hipótesis nula. [25] [26] Otros sugirieron informar junto con los valores p la probabilidad previa de un efecto real que sería necesaria para obtener un riesgo de falso positivo (es decir, la probabilidad de que no haya un efecto real) por debajo de un umbral preespecificado ( por ejemplo, 5%). [27]
Dicho esto, en 2019 se reunió un grupo de trabajo de la ASA para considerar el uso de métodos estadísticos en estudios científicos, específicamente pruebas de hipótesis y valores p, y su conexión con la replicabilidad. [7] Afirma que "Diferentes medidas de incertidumbre pueden complementarse entre sí; ninguna medida sirve para todos los propósitos", citando el valor p como una de estas medidas. También enfatizan que los valores p pueden proporcionar información valiosa al considerar el valor específico y al compararlo con algún umbral. En general, enfatiza que "los valores p y las pruebas de significancia, cuando se aplican e interpretan adecuadamente, aumentan el rigor de las conclusiones extraídas de los datos".
Por lo general, es una estadística de prueba . Una estadística de prueba es el resultado de una función escalar de todas las observaciones. Esta estadística proporciona un número único, como una estadística t o una estadística F. Como tal, la estadística de prueba sigue una distribución determinada por la función utilizada para definir esa estadística de prueba y la distribución de los datos de observación de entrada.
Para el caso importante en el que se supone que los datos son una muestra aleatoria de una distribución normal, dependiendo de la naturaleza del estadístico de prueba y de las hipótesis de interés sobre su distribución, se han desarrollado diferentes pruebas de hipótesis nulas. Algunas de estas pruebas son la prueba z para hipótesis relativas a la media de una distribución normal con varianza conocida, la prueba t basada en la distribución t de Student de un estadístico adecuado para hipótesis relativas a la media de una distribución normal cuando se desconoce la varianza, la prueba F basada en la distribución F de otro estadístico más para hipótesis relativas a la varianza. Para datos de otra naturaleza, por ejemplo datos categóricos (discretos), se podrían construir estadísticas de prueba cuya distribución de hipótesis nula se base en aproximaciones normales a estadísticas apropiadas obtenidas invocando el teorema del límite central para muestras grandes, como en el caso del chi- de Pearson. prueba al cuadrado .
Por lo tanto, calcular un valor p requiere una hipótesis nula, una estadística de prueba (junto con decidir si el investigador está realizando una prueba de una cola o de dos colas ) y datos. Aunque calcular el estadístico de prueba sobre datos dados puede ser fácil, calcular la distribución muestral bajo la hipótesis nula y luego calcular su función de distribución acumulativa (CDF) suele ser un problema difícil. Hoy en día, este cálculo se realiza mediante software estadístico, a menudo mediante métodos numéricos (en lugar de fórmulas exactas), pero, a principios y mediados del siglo XX, se hacía mediante tablas de valores y se interpolaban o extrapolaban valores p de estos. valores discretos [ cita necesaria ] . En lugar de utilizar una tabla de valores p , Fisher invirtió la CDF y publicó una lista de valores del estadístico de prueba para valores p fijos dados ; esto corresponde a calcular la función cuantil (CDF inversa).
Como ejemplo de prueba estadística, se realiza un experimento para determinar si lanzar una moneda al aire es justo (igual probabilidad de obtener cara o cruz) o injustamente sesgado (un resultado es más probable que el otro).
Supongamos que los resultados experimentales muestran que la moneda sale cara 14 veces de un total de 20 lanzamientos. Los datos completos serían una secuencia de veinte veces el símbolo "H" o "T". La estadística en la que podríamos centrarnos podría ser el número total de cabezas. La hipótesis nula es que la moneda es justa y los lanzamientos de moneda son independientes entre sí. Si se considera una prueba de cola derecha, que sería el caso si uno está realmente interesado en la posibilidad de que la moneda esté sesgada hacia la caída de cara, entonces el valor p de este resultado es la probabilidad de que una moneda justa caiga en cara en al menos 14 veces de 20 lanzamientos. Esa probabilidad se puede calcular a partir de coeficientes binomiales como
Esta probabilidad es el valor p , considerando sólo resultados extremos que favorecen a cara. Esto se llama prueba de una cola . Sin embargo, uno podría estar interesado en desviaciones en cualquier dirección, favoreciendo a cara o cruz. En su lugar, se puede calcular el valor p de dos colas , que considera las desviaciones que favorecen a cara o cruz. Como la distribución binomial es simétrica para una moneda justa, el valor p de dos caras es simplemente el doble del valor p de una cara calculado anteriormente : el valor p de dos caras es 0,115.
En el ejemplo anterior:
El Pr (n° de cabezas ≤ 14 cabezas) = 1 - Pr(n° de cabezas ≥ 14 cabezas) + Pr (n° de cabezas = 14) = 1 - 0,058 + 0,036 = 0,978; sin embargo, la simetría de esta distribución binomial hace que sea un cálculo innecesario encontrar la menor de las dos probabilidades. Aquí, el valor p calculado excede 0,05, lo que significa que los datos están dentro del rango de lo que sucedería el 95% de las veces, si la moneda fuera justa. Por tanto, la hipótesis nula no se rechaza al nivel de 0,05.
Sin embargo, si se hubiera obtenido una cara más, el valor p resultante (de dos colas) habría sido 0,0414 (4,14%), en cuyo caso la hipótesis nula se rechazaría en el nivel 0,05.
La diferencia entre los dos significados de "extremo" aparece cuando consideramos un experimento de varias etapas para probar la equidad de la moneda. Supongamos que diseñamos el experimento de la siguiente manera:
Este experimento tiene 7 tipos de resultados: 2 caras, 2 cruces, 5 caras 1 cruz..., 1 cara 5 cruces. Ahora calculamos el valor p del resultado "3 caras, 3 cruces".
Si utilizamos la estadística de prueba , entonces, bajo la hipótesis nula, es exactamente 1 para el valor p bilateral, y exactamente para el valor p unilateral de cola izquierda, y lo mismo para el valor p unilateral de cola derecha.
Si consideramos cada resultado que tiene una probabilidad igual o menor que "3 caras y 3 cruces" como "al menos igual de extremo", entonces el valor p es exactamente .
Sin embargo, supongamos que hemos planeado simplemente lanzar la moneda 6 veces sin importar lo que suceda, entonces la segunda definición de valor p significaría que el valor p de "3 caras y 3 cruces" es exactamente 1.
Por lo tanto, la definición "al menos tan extrema" del valor p es profundamente contextual y depende de lo que el experimentador planeó hacer incluso en situaciones que no ocurrieron.
Los cálculos del valor P se remontan al siglo XVIII, cuando se calculaban para la proporción de sexos humanos al nacer y se usaban para calcular la significación estadística en comparación con la hipótesis nula de igual probabilidad de nacimientos de hombres y mujeres. [28] John Arbuthnot estudió esta cuestión en 1710, [29] [30] [31] [32] y examinó los registros de nacimiento en Londres para cada uno de los 82 años desde 1629 hasta 1710. En cada año, el número de varones nacidos en Londres superó el número de mujeres. Considerando que más nacimientos de hombres o más nacimientos de mujeres son igualmente probables, la probabilidad del resultado observado es 1/2 82 , o aproximadamente 1 en 4.836.000.000.000.000.000.000.000; en términos modernos, el valor p . Esto es extremadamente pequeño, lo que lleva a Arbuthnot a pensar que no se debe al azar, sino a la divina providencia: "De donde se sigue que es el arte, no el azar, el que gobierna". En términos modernos, rechazó la hipótesis nula de que los nacimientos masculinos y femeninos son igualmente probables en el nivel de significancia p = 1/2 82 . Este y otros trabajos de Arbuthnot se acreditan como "... el primer uso de pruebas de significancia..." [33] el primer ejemplo de razonamiento sobre significancia estadística, [34] y "... quizás el primer informe publicado de una prueba no paramétrica ...", [ 30] específicamente la prueba de signos ; ver detalles en Prueba de signos § Historia .
La misma pregunta fue abordada más tarde por Pierre-Simon Laplace , quien en su lugar utilizó una prueba paramétrica , modelando el número de nacimientos masculinos con una distribución binomial : [35]
En la década de 1770, Laplace consideró las estadísticas de casi medio millón de nacimientos. Las estadísticas muestran un exceso de niños respecto de niñas. Concluyó, mediante el cálculo de un valor p , que el exceso era un efecto real, pero inexplicable.
El valor p fue introducido formalmente por primera vez por Karl Pearson , en su prueba chi-cuadrado de Pearson , [36] usando la distribución chi-cuadrado y anotada como P mayúscula. [36] Los valores p para la distribución chi-cuadrado (para Varios valores de χ 2 y grados de libertad), ahora anotados como P, se calcularon en (Elderton 1902), recopilados en (Pearson 1914, págs. xxxi–xxxiii, 26–28, Tabla XII) .
El uso del valor p en estadística fue popularizado por Ronald Fisher , [37] [ cita completa necesaria ] y juega un papel central en su enfoque del tema. [38] En su influyente libro Statistical Methods for Research Workers (1925), Fisher propuso el nivel p = 0,05, o una probabilidad de 1 entre 20 de ser superado por casualidad, como límite de significancia estadística , y aplicó esto a una distribución normal. (como prueba de dos colas), lo que produce la regla de dos desviaciones estándar (en una distribución normal) para la significación estadística (ver regla 68–95–99,7 ). [39] [nota 3] [40]
Luego calculó una tabla de valores, similar a Elderton pero, lo que es más importante, invirtió los papeles de χ 2 y p. Es decir, en lugar de calcular p para diferentes valores de χ 2 (y grados de libertad n ), calculó valores de χ 2 que producen valores de p específicos , específicamente 0,99, 0,98, 0,95, 0,90, 0,80, 0,70, 0,50. , 0,30, 0,20, 0,10, 0,05, 0,02 y 0,01. [41] Eso permitió que los valores calculados de χ 2 se compararan con los límites y fomentó el uso de valores p (especialmente 0,05, 0,02 y 0,01) como límites, en lugar de calcular e informar los valores p mismos. Posteriormente se compiló el mismo tipo de tablas (Fisher y Yates 1938), lo que consolidó el enfoque. [40]
Como ilustración de la aplicación de los valores p al diseño e interpretación de experimentos, en su siguiente libro The Design of Experiments (1935), Fisher presentó el experimento de la dama probando el té , [42] que es el ejemplo arquetípico del p - valor.
Para evaluar la afirmación de una señora de que ella ( Muriel Bristol ) podía distinguir por el sabor cómo se prepara el té (primero agregando la leche a la taza, luego el té, o primero el té, luego la leche), se le presentaron secuencialmente 8 tazas: 4 preparadas de una manera, 4 prepararon la otra, y se les pidió que determinaran la preparación de cada taza (sabiendo que eran 4 de cada una). En ese caso, la hipótesis nula era que ella no tenía ninguna habilidad especial, la prueba era la prueba exacta de Fisher y el valor p era que Fisher estaba dispuesto a rechazar la hipótesis nula (considere muy poco probable que el resultado se deba al azar) si todos fueron clasificados correctamente. (En el experimento real, Bristol clasificó correctamente las 8 tazas).
Fisher reiteró el umbral de p = 0,05 y explicó su fundamento, afirmando: [43]
Es habitual y conveniente que los experimentadores tomen el 5 por ciento como nivel estándar de significancia, en el sentido de que están dispuestos a ignorar todos los resultados que no alcancen este estándar y, de esta manera, eliminar de la discusión posterior los resultados mayores. parte de las fluctuaciones que las causas fortuitas han introducido en sus resultados experimentales.
También aplica este umbral al diseño de experimentos, señalando que si solo se hubieran presentado 6 tazas (3 de cada una), una clasificación perfecta solo habría arrojado un valor p que no habría alcanzado este nivel de significancia. [43] Fisher también subrayó la interpretación de p, como la proporción a largo plazo de valores al menos tan extremos como los datos, asumiendo que la hipótesis nula es verdadera.
En ediciones posteriores, Fisher contrastó explícitamente el uso del valor p para la inferencia estadística en ciencia con el método Neyman-Pearson, al que denomina "procedimientos de aceptación". [44] Fisher enfatiza que si bien niveles fijos como 5%, 2% y 1% son convenientes, se puede utilizar el valor p exacto , y la solidez de la evidencia puede y será revisada con mayor experimentación. Por el contrario, los procedimientos de decisión requieren una decisión clara, que produzca una acción irreversible, y el procedimiento se basa en costos de error que, según él, son inaplicables a la investigación científica.
El valor E puede referirse a dos conceptos, ambos relacionados con el valor p y ambos desempeñan un papel en pruebas múltiples . En primer lugar, corresponde a una alternativa genérica y más sólida al valor p que puede abordar la continuación opcional de los experimentos. En segundo lugar, también se utiliza para abreviar "valor esperado", que es el número esperado de veces que se espera obtener un estadístico de prueba al menos tan extremo como el que realmente se observó si se supone que la hipótesis nula es verdadera. [45] Este valor esperado es el producto del número de pruebas y el valor p .
El valor q es el análogo del valor p con respecto a la tasa de descubrimiento falso positivo . [46] Se utiliza en pruebas de hipótesis múltiples para mantener el poder estadístico y al mismo tiempo minimizar la tasa de falsos positivos . [47]
La probabilidad de dirección ( pd ) es el equivalente numérico bayesiano del valor p . [48] Corresponde a la proporción de la distribución posterior que es del signo de la mediana, que normalmente varía entre el 50% y el 100%, y representa la certeza con la que un efecto es positivo o negativo.
Los valores p de segunda generación amplían el concepto de valores p al no considerar significativos tamaños de efecto extremadamente pequeños y prácticamente irrelevantes. [49]
El uso de valores p durante casi un siglo [desde 1925] para determinar la significancia estadística de los resultados experimentales ha contribuido a una ilusión de certeza y [a] crisis de reproducibilidad en muchos campos científicos . Hay una creciente determinación de reformar el análisis estadístico... Algunos [investigadores] sugieren cambiar los métodos estadísticos, mientras que otros eliminarían un umbral para definir resultados "significativos".
{{cite book}}
: CS1 maint: location missing publisher (link)