valor p

En las pruebas de significancia de hipótesis nula , el valor p^{[nota 1]} es la probabilidad de obtener resultados de prueba al menos tan extremos como el resultado realmente observado , bajo el supuesto de que la hipótesis nula es correcta. ^[2]^{[3] Un valor}p muy pequeño significa que un resultado observado tan extremo sería muy improbable bajo la hipótesis nula . Aunque informar los valores p de las pruebas estadísticas es una práctica común en las publicaciones académicas de muchos campos cuantitativos, la mala interpretación y el mal uso de los valores p están muy extendidos y han sido un tema importante en matemáticas y metaciencia . ^[4]^[5]

En 2016, la Asociación Estadounidense de Estadística (ASA) hizo una declaración formal de que " los valores p no miden la probabilidad de que la hipótesis estudiada sea verdadera, o la probabilidad de que los datos se hayan producido solo por casualidad" y que "un valor p , o significación estadística, no mide el tamaño de un efecto o la importancia de un resultado" o "evidencia con respecto a un modelo o hipótesis". ^[6] Dicho esto, un grupo de trabajo de 2019 de la ASA emitió una declaración sobre la significación estadística y la replicabilidad, concluyendo con: " los valores p y las pruebas de significación, cuando se aplican e interpretan correctamente, aumentan el rigor de las conclusiones extraídas de los datos". ^[7]

Conceptos básicos

En estadística, toda conjetura relativa a la distribución de probabilidad desconocida de un conjunto de variables aleatorias que representan los datos observados en algún estudio se denomina hipótesis estadística . Si enunciamos una sola hipótesis y el objetivo de la prueba estadística es ver si esta hipótesis es sostenible, pero no investigar otras hipótesis específicas, entonces dicha prueba se denomina prueba de hipótesis nula . $X$

Como nuestra hipótesis estadística, por definición, enunciará alguna propiedad de la distribución, la hipótesis nula es la hipótesis predeterminada bajo la cual esa propiedad no existe. La hipótesis nula es típicamente que algún parámetro (como una correlación o una diferencia entre medias) en las poblaciones de interés es cero. Nuestra hipótesis puede especificar la distribución de probabilidad de con precisión, o puede especificar solamente que pertenece a alguna clase de distribuciones. A menudo, reducimos los datos a una única estadística numérica, por ejemplo, , cuya distribución de probabilidad marginal está estrechamente relacionada con una cuestión principal de interés en el estudio. $X$ $T$

El valor p se utiliza en el contexto de la prueba de hipótesis nula para cuantificar la significación estadística de un resultado, siendo el resultado el valor observado de la estadística elegida . ^{[nota 2]} Cuanto menor sea el valor p , menor será la probabilidad de obtener ese resultado si la hipótesis nula fuera verdadera. Se dice que un resultado es estadísticamente significativo si nos permite rechazar la hipótesis nula. En igualdad de condiciones, los valores p más pequeños se toman como evidencia más sólida contra la hipótesis nula. $T$

En términos generales, el rechazo de la hipótesis nula implica que hay suficiente evidencia en contra de ella.

Como ejemplo particular, si una hipótesis nula establece que una determinada estadística de resumen sigue la distribución normal estándar , entonces el rechazo de esta hipótesis nula podría significar que (i) la media de no es 0, o (ii) la varianza de no es 1, o (iii) no se distribuye normalmente. Diferentes pruebas de la misma hipótesis nula serían más o menos sensibles a diferentes alternativas. Sin embargo, incluso si logramos rechazar la hipótesis nula para las 3 alternativas, e incluso si sabemos que la distribución es normal y la varianza es 1, la prueba de la hipótesis nula no nos dice qué valores distintos de cero de la media son ahora más plausibles. Cuantas más observaciones independientes de la misma distribución de probabilidad tengamos, más precisa será la prueba y mayor será la precisión con la que podremos determinar el valor medio y demostrar que no es igual a cero; pero esto también aumentará la importancia de evaluar la relevancia científica o del mundo real de esta desviación. $T$ ${\mathcal {N}}(0,1),$ $T$ $T$ $T$

Definición e interpretación

Definición

El valor p es la probabilidad, bajo la hipótesis nula, de obtener un estadístico de prueba de valor real al menos tan extremo como el obtenido. Consideremos un estadístico de prueba observado de una distribución desconocida . Entonces, el valor p es la probabilidad previa que sería de observar un valor del estadístico de prueba al menos tan "extremo" como si la hipótesis nula fuera verdadera. Es decir: $t$ $T$ $p$ $t$ $H_{0}$

$p=\Pr(T\geq t\mid H_{0})$ para una distribución estadística de prueba de cola derecha unilateral.
$p=\Pr(T\leq t\mid H_{0})$ para una distribución estadística de prueba de cola izquierda unilateral.
$p=2\min\{\Pr(T\geq t\mid H_{0}),\Pr(T\leq t\mid H_{0})\}$ para una distribución estadística de prueba bilateral. Si la distribución de es simétrica respecto de cero, entonces $T$ $p=\Pr(|T|\geq |t|\mid H_{0}).$

Interpretaciones

El error que un estadístico en ejercicio consideraría más importante evitar (lo cual es un juicio subjetivo) se denomina error de primera clase. La primera exigencia de la teoría matemática es deducir criterios de prueba que aseguren que la probabilidad de cometer un error de primera clase sea igual (o aproximadamente igual, o no exceda) a un número preasignado α, como α = 0,05 o 0,01, etc. Este número se denomina nivel de significación.
— Jerzy Neyman, "El surgimiento de la estadística matemática" ^[8]

En una prueba de significancia, la hipótesis nula se rechaza si el valor p es menor o igual a un valor umbral predefinido , que se conoce como nivel alfa o nivel de significancia . no se deriva de los datos, sino que lo establece el investigador antes de examinar los datos. se establece comúnmente en 0,05, aunque a veces se utilizan niveles alfa más bajos. El valor 0,05 (equivalente a 1/20 posibilidades) fue propuesto originalmente por R. Fisher en 1925 en su famoso libro titulado " Métodos estadísticos para investigadores ". ^[9] En 2018, un grupo de estadísticos dirigido por Daniel Benjamin propuso la adopción del valor 0,005 como valor estándar para la significancia estadística en todo el mundo. ^[10] $H_{0}$ $\alpha$ $\alpha$ $\alpha$

Se pueden combinar diferentes valores p basados en conjuntos de datos independientes, por ejemplo utilizando la prueba de probabilidad combinada de Fisher .

Distribución

El valor p es una función de la estadística de prueba elegida y, por lo tanto, es una variable aleatoria . Si la hipótesis nula fija la distribución de probabilidad de con precisión (por ejemplo, donde es el único parámetro), y si esa distribución es continua, entonces, cuando la hipótesis nula es verdadera, el valor p se distribuye uniformemente entre 0 y 1. Independientemente de la verdad de , el valor p no es fijo; si la misma prueba se repite de forma independiente con datos nuevos, normalmente se obtendrá un valor p diferente en cada iteración. $T$ $T$ $H_{0}:\theta =\theta _{0},$ $\theta$ $H_{0}$

Por lo general, solo se observa un único valor p relacionado con una hipótesis, por lo que el valor p se interpreta mediante una prueba de significancia y no se realiza ningún esfuerzo para estimar la distribución de la que se extrajo. Cuando se dispone de una colección de valores p (por ejemplo, cuando se considera un grupo de estudios sobre el mismo tema), la distribución de valores p a veces se denomina curva p . ^[11] Una curva p se puede utilizar para evaluar la confiabilidad de la literatura científica, como por ejemplo detectando sesgo de publicación o p -hacking . ^[11]^[12]

Distribución para hipótesis compuestas

En los problemas de prueba de hipótesis paramétricas, una hipótesis simple o puntual se refiere a una hipótesis en la que se supone que el valor del parámetro es un solo número. Por el contrario, en una hipótesis compuesta , el valor del parámetro está dado por un conjunto de números. Cuando la hipótesis nula es compuesta (o la distribución de la estadística es discreta), entonces, cuando la hipótesis nula es verdadera, la probabilidad de obtener un valor p menor o igual a cualquier número entre 0 y 1 sigue siendo menor o igual a ese número. En otras palabras, sigue siendo el caso de que los valores muy pequeños son relativamente improbables si la hipótesis nula es verdadera, y que se obtiene una prueba de significancia a nivel rechazando la hipótesis nula si el valor p es menor o igual a . ^[13]^[14] $\alpha$ $\alpha$

Por ejemplo, al probar la hipótesis nula de que una distribución es normal con una media menor o igual a cero contra la alternativa de que la media es mayor que cero ( , varianza conocida), la hipótesis nula no especifica la distribución de probabilidad exacta del estadístico de prueba apropiado. En este ejemplo, ese sería el estadístico Z perteneciente a la prueba Z de una muestra unilateral . Para cada valor posible de la media teórica, el estadístico de la prueba Z tiene una distribución de probabilidad diferente. En estas circunstancias, el valor p se define tomando el caso de hipótesis nula menos favorable, que normalmente está en el límite entre la hipótesis nula y la alternativa. Esta definición asegura la complementariedad de los valores p y los niveles alfa: significa que solo se rechaza la hipótesis nula si el valor p es menor o igual a , y la prueba de hipótesis tendrá de hecho una tasa de error de tipo 1 máxima de . $H_{0}:\mu \leq 0$ $\alpha =0.05$ $0.05$ $0.05$

Uso

El valor p se utiliza ampliamente en las pruebas de hipótesis estadísticas , específicamente en las pruebas de significación de la hipótesis nula. En este método, antes de realizar el estudio, primero se elige un modelo (la hipótesis nula ) y el nivel alfa α (más comúnmente 0,05). Después de analizar los datos, si el valor p es menor que α , se considera que los datos observados son suficientemente inconsistentes con la hipótesis nula para que esta sea rechazada. Sin embargo, eso no prueba que la hipótesis nula sea falsa. El valor p , en sí mismo, no establece probabilidades de hipótesis. Más bien, es una herramienta para decidir si se rechaza o no la hipótesis nula. ^[15]

Mal uso

Según la ASA , existe un amplio consenso en que los valores p se suelen utilizar y malinterpretar de forma incorrecta. ^[3] Una práctica que ha sido particularmente criticada es la de aceptar la hipótesis alternativa para cualquier valor p nominalmente inferior a 0,05 sin otra evidencia que la respalde. Aunque los valores p son útiles para evaluar la incompatibilidad de los datos con un modelo estadístico específico, también se deben considerar factores contextuales, como "el diseño de un estudio, la calidad de las mediciones, la evidencia externa del fenómeno en estudio y la validez de los supuestos que sustentan el análisis de los datos". ^[3] Otra preocupación es que el valor p se suele malinterpretar como la probabilidad de que la hipótesis nula sea verdadera. ^[3]^[16]

Algunos estadísticos han propuesto abandonar los valores p y centrarse más en otras estadísticas inferenciales, ^[3] como los intervalos de confianza , ^[17]^[18] los cocientes de verosimilitud , ^[19]^[20] o los factores de Bayes , ^[21]^[22]^[23] pero existe un acalorado debate sobre la viabilidad de estas alternativas. ^[24]^[25] Otros han sugerido eliminar los umbrales de significación fijos e interpretar los valores p como índices continuos de la fuerza de la evidencia contra la hipótesis nula. ^[26]^[27] Sin embargo, otros sugirieron informar junto con los valores p la probabilidad previa de un efecto real que se requeriría para obtener un riesgo de falso positivo (es decir, la probabilidad de que no haya un efecto real) por debajo de un umbral preestablecido (por ejemplo, 5%). ^[28]

Dicho esto, en 2019 un grupo de trabajo de la ASA se reunió para considerar el uso de métodos estadísticos en estudios científicos, específicamente pruebas de hipótesis y valores p , y su conexión con la replicabilidad. ^[7] Afirma que "diferentes medidas de incertidumbre pueden complementarse entre sí; ninguna medida única sirve para todos los propósitos", citando el valor p como una de estas medidas. También enfatizan que los valores p pueden proporcionar información valiosa al considerar el valor específico, así como al compararlo con algún umbral. En general, enfatiza que " los valores p y las pruebas de significación, cuando se aplican e interpretan correctamente, aumentan el rigor de las conclusiones extraídas de los datos".

Cálculo

Por lo general, es una estadística de prueba . Una estadística de prueba es el resultado de una función escalar de todas las observaciones. Esta estadística proporciona un único número, como una estadística t o una estadística F. Como tal, la estadística de prueba sigue una distribución determinada por la función utilizada para definir esa estadística de prueba y la distribución de los datos de observación de entrada. $T$

Para el caso importante en el que se supone que los datos son una muestra aleatoria de una distribución normal, dependiendo de la naturaleza de la estadística de prueba y de las hipótesis de interés sobre su distribución, se han desarrollado diferentes pruebas de hipótesis nulas. Algunas de estas pruebas son la prueba z para hipótesis relacionadas con la media de una distribución normal con varianza conocida, la prueba t basada en la distribución t de Student de una estadística adecuada para hipótesis relacionadas con la media de una distribución normal cuando la varianza es desconocida, la prueba F basada en la distribución F de otra estadística más para hipótesis relacionadas con la varianza. Para datos de otra naturaleza, por ejemplo, datos categóricos (discretos), se pueden construir estadísticas de prueba cuya distribución de hipótesis nula se base en aproximaciones normales a estadísticas apropiadas obtenidas invocando el teorema del límite central para muestras grandes, como en el caso de la prueba de chi-cuadrado de Pearson .

Por lo tanto, el cálculo de un valor p requiere una hipótesis nula, una estadística de prueba (junto con la decisión de si el investigador está realizando una prueba de una cola o de dos colas ) y datos. Aunque calcular la estadística de prueba sobre datos dados puede ser fácil, calcular la distribución de muestreo bajo la hipótesis nula y luego calcular su función de distribución acumulativa (CDF) es a menudo un problema difícil. Hoy, este cálculo se realiza utilizando software estadístico, a menudo a través de métodos numéricos (en lugar de fórmulas exactas), pero, a principios y mediados del siglo XX, esto se hacía en cambio mediante tablas de valores, y uno interpolaba o extrapolaba los valores p a partir de estos valores discretos ^{[ cita requerida ]} . En lugar de utilizar una tabla de valores p , Fisher invirtió la CDF, publicando una lista de valores de la estadística de prueba para valores p fijos dados ; esto corresponde al cálculo de la función cuantil (CDF inversa).

Ejemplo

Probando la imparcialidad de una moneda

Como ejemplo de una prueba estadística, se realiza un experimento para determinar si el lanzamiento de una moneda es justo (igual probabilidad de que caiga cara o cruz) o injustamente sesgado (un resultado es más probable que el otro).

Supongamos que los resultados experimentales muestran que la moneda sale cara 14 veces de un total de 20 lanzamientos. Los datos completos serían una secuencia de veinte veces el símbolo "H" o "T". La estadística en la que uno podría centrarse podría ser el número total de caras. La hipótesis nula es que la moneda es justa y los lanzamientos de moneda son independientes entre sí. Si se considera una prueba de cola derecha, que sería el caso si uno está realmente interesado en la posibilidad de que la moneda esté sesgada a caer cara, entonces el valor p de este resultado es la probabilidad de que una moneda justa caiga cara al menos 14 veces de 20 lanzamientos. Esa probabilidad se puede calcular a partir de coeficientes binomiales como $X$ $T$

{\begin{aligned}&\Pr(14{\text{ heads}})+\Pr(15{\text{ heads}})+\cdots +\Pr(20{\text{ heads}})\\&={\frac {1}{2^{20}}}\left[{\binom {20}{14}}+{\binom {20}{15}}+\cdots +{\binom {20}{20}}\right]={\frac {60\,460}{1\,048\,576}}\approx 0.058.\end{aligned}}

Esta probabilidad es el valor p , considerando solo los resultados extremos que favorecen a cara. Esto se llama prueba de una cola . Sin embargo, uno podría estar interesado en desviaciones en cualquier dirección, favoreciendo a cara o cruz. El valor p de dos colas , que considera las desviaciones que favorecen a cara o cruz, puede calcularse en su lugar. Como la distribución binomial es simétrica para una moneda justa, el valor p de dos caras es simplemente el doble del valor p de una cara calculado anteriormente : el valor p de dos caras es 0,115.

En el ejemplo anterior:

Hipótesis nula ( H0 ): La _moneda es justa, con Pr(cara) = 0,5.
Estadística de prueba: Número de caras.
Nivel alfa (umbral de significancia designado): 0,05.
Observación O : 14 caras en 20 lanzamientos.
Valor p de dos colas de la observación O dado H ₀ = 2 × min(Pr(número de caras ≥ 14 caras), Pr(número de caras ≤ 14 caras)) = 2 × min(0,058, 0,978) = 2 × 0,058 = 0,115.

Pr(n.° de caras ≤ 14 caras) = 1 − Pr(n.° de caras ≥ 14 caras) + Pr(n.° de caras = 14) = 1 − 0,058 + 0,036 = 0,978; sin embargo, la simetría de esta distribución binomial hace que sea innecesario realizar un cálculo para encontrar la menor de las dos probabilidades. En este caso, el valor p calculado supera 0,05, lo que significa que los datos se encuentran dentro del rango de lo que sucedería el 95 % de las veces si la moneda fuera justa. Por lo tanto, la hipótesis nula no se rechaza en el nivel 0,05.

Sin embargo, si se hubiera obtenido una cabeza más, el valor p resultante (de dos colas) habría sido 0,0414 (4,14%), en cuyo caso la hipótesis nula sería rechazada en el nivel 0,05.

Parada opcional

La diferencia entre los dos significados de "extremo" aparece cuando consideramos una prueba de hipótesis secuencial, o una detención opcional, para la imparcialidad de la moneda. En general, la detención opcional cambia la forma en que se calcula el valor p. ^[29]^[30] Supongamos que diseñamos el experimento de la siguiente manera:

Lanza la moneda dos veces. Si en ambas ocasiones sale cara o cruz, finaliza el experimento.
De lo contrario, lanza la moneda 4 veces más.

Este experimento tiene 7 tipos de resultados: 2 caras, 2 cruces, 5 caras 1 cruce, ..., 1 cara 5 cruces. Ahora calculamos el valor p del resultado "3 caras 3 cruces".

Si utilizamos la estadística de prueba , entonces bajo la hipótesis nula es exactamente 1 para el valor p de dos lados , y exactamente 1 para el valor p de cola izquierda de un lado , y lo mismo para el valor p de cola derecha de un lado . ${\text{heads}}/{\text{tails}}$ $19/32$

Si consideramos cada resultado que tiene una probabilidad igual o menor que "3 caras 3 cruces" como "al menos tan extremo", entonces el valor p es exactamente $1/2.$

Sin embargo, supongamos que hemos planeado simplemente lanzar la moneda 6 veces sin importar lo que suceda, entonces la segunda definición del valor p significaría que el valor p de "3 caras 3 cruces" es exactamente 1.

Por lo tanto, la definición "al menos tan extrema" del valor p es profundamente contextual y depende de lo que el experimentador planeó hacer incluso en situaciones que no ocurrieron.

Historia

Fotografía en tono sepia de un joven con traje, una medalla y gafas con montura metálica. — Ronald Fisher

Los cálculos del valor p se remontan a la década de 1700, cuando se calcularon para la proporción de sexos humanos al nacer y se usaron para calcular la significación estadística en comparación con la hipótesis nula de igual probabilidad de nacimientos de hombres y mujeres. ^[31] John Arbuthnot estudió esta cuestión en 1710, ^[32]^[33]^[34]^[35] y examinó los registros de nacimiento en Londres para cada uno de los 82 años desde 1629 hasta 1710. En cada año, el número de varones nacidos en Londres superó al número de mujeres. Considerando que más nacimientos de hombres o más nacimientos de mujeres son igualmente probables, la probabilidad del resultado observado es 1/2 ⁸² , o aproximadamente 1 en 4.836.000.000.000.000.000.000.000; en términos modernos, el valor p . Esta cifra es insignificante, lo que lleva a Arbuthnot a pensar que no se debió al azar, sino a la providencia divina: "De donde se sigue que es el arte, no el azar, lo que gobierna". En términos modernos, rechazó la hipótesis nula de nacimientos de hombres y mujeres igualmente probables en el nivel de significación p = 1/2 ⁸² . Este y otros trabajos de Arbuthnot se consideran "... el primer uso de pruebas de significación..." ^[36] el primer ejemplo de razonamiento sobre la significación estadística, ^[37] y "... quizás el primer informe publicado de una prueba no paramétrica ...", ^[33] específicamente la prueba de signos ; véanse los detalles en Prueba de signos § Historia .

La misma cuestión fue abordada posteriormente por Pierre-Simon Laplace , quien en su lugar utilizó una prueba paramétrica , modelando el número de nacimientos varones con una distribución binomial : ^[38]

En la década de 1770, Laplace analizó las estadísticas de casi medio millón de nacimientos, que mostraban un exceso de niños en comparación con las niñas. Concluyó, mediante el cálculo de un valor p , que el exceso era un efecto real, pero inexplicable.

El valor p fue introducido formalmente por primera vez por Karl Pearson , en su prueba de chi-cuadrado de Pearson , ^[39] utilizando la distribución de chi-cuadrado y anotada como P mayúscula. ^[39] Los valores p para la distribución de chi-cuadrado (para varios valores de χ ² y grados de libertad), ahora anotados como P, se calcularon en (Elderton 1902), recopilados en (Pearson 1914, pp. xxxi–xxxiii, 26–28, Tabla XII).

Ronald Fisher formalizó y popularizó el uso del valor p en estadística, ^[40]^[41] y jugó un papel central en su enfoque del tema. ^[42] En su influyente libro Statistical Methods for Research Workers (1925), Fisher propuso el nivel p = 0,05, o una probabilidad de 1 en 20 de ser excedido por el azar, como límite para la significación estadística , y lo aplicó a una distribución normal (como una prueba de dos colas), produciendo así la regla de dos desviaciones estándar (en una distribución normal) para la significación estadística (ver regla 68–95–99.7 ). ^[43]^{[nota 3]}^[44]

Luego calculó una tabla de valores, similar a Elderton pero, de manera importante, invirtió los roles de χ ² y p. Es decir, en lugar de calcular p para diferentes valores de χ ² (y grados de libertad n ), calculó valores de χ ² que producen valores p específicos , específicamente 0,99, 0,98, 0,95, 0,90, 0,80, 0,70, 0,50, 0,30, 0,20, 0,10, 0,05, 0,02 y 0,01. ^[45] Eso permitió que los valores calculados de χ ² se compararan con los puntos de corte y fomentó el uso de valores p (especialmente 0,05, 0,02 y 0,01) como puntos de corte, en lugar de calcular y reportar los valores p en sí. El mismo tipo de tablas se compilaron posteriormente en (Fisher y Yates 1938), lo que consolidó el enfoque. ^[44]

Como ilustración de la aplicación de los valores p al diseño e interpretación de experimentos, en su siguiente libro The Design of Experiments (1935), Fisher presentó el experimento de la dama probando té , ^[46] que es el ejemplo arquetípico del valor p .

Para evaluar la afirmación de una señora de que ella ( Muriel Bristol ) podía distinguir por el sabor cómo se prepara el té (primero añadiendo la leche a la taza, luego el té, o primero el té, luego la leche), se le presentaron secuencialmente 8 tazas: 4 preparadas de una manera, 4 preparadas de la otra, y se le pidió que determinara la preparación de cada taza (sabiendo que había 4 de cada una). En ese caso, la hipótesis nula era que no tenía ninguna habilidad especial, la prueba era la prueba exacta de Fisher y el valor p era 1,5 , de modo que Fisher estaba dispuesta a rechazar la hipótesis nula (considerar que era muy poco probable que el resultado se debiera al azar) si todas se clasificaban correctamente. (En el experimento real, Bristol clasificó correctamente las 8 tazas). $1/{\binom {8}{4}}=1/70\approx 0.014,$

Fisher reiteró el umbral p = 0,05 y explicó su fundamento, afirmando: ^[47]

Es habitual y conveniente que los experimentadores tomen el 5 por ciento como nivel estándar de significación, en el sentido de que están preparados para ignorar todos los resultados que no alcancen este estándar y, por este medio, eliminar de la discusión posterior la mayor parte de las fluctuaciones que causas aleatorias han introducido en sus resultados experimentales.

También aplica este umbral al diseño de experimentos, señalando que si sólo se hubieran presentado 6 tazas (3 de cada una), una clasificación perfecta sólo habría producido un valor p que no habría cumplido con este nivel de significancia. ^[47] Fisher también subrayó la interpretación de p, como la proporción a largo plazo de valores al menos tan extremos como los datos, asumiendo que la hipótesis nula es verdadera. $1/{\binom {6}{3}}=1/20=0.05,$

En ediciones posteriores, Fisher contrastó explícitamente el uso del valor p para la inferencia estadística en la ciencia con el método de Neyman-Pearson, al que denomina "Procedimientos de aceptación". ^[48] Fisher enfatiza que, si bien los niveles fijos como el 5%, el 2% y el 1% son convenientes, se puede utilizar el valor p exacto y la solidez de la evidencia puede y será revisada con más experimentación. Por el contrario, los procedimientos de decisión requieren una decisión clara, que da como resultado una acción irreversible, y el procedimiento se basa en los costos de error, que, según sostiene, son inaplicables a la investigación científica.

Índices relacionados

El valor E puede referirse a dos conceptos, ambos relacionados con el valor p y ambos desempeñan un papel en las pruebas múltiples . En primer lugar, corresponde a una alternativa genérica y más robusta al valor p que puede lidiar con la continuación opcional de los experimentos. En segundo lugar, también se utiliza para abreviar "valor esperado", que es el número esperado de veces que uno espera obtener una estadística de prueba al menos tan extrema como la que se observó realmente si uno asume que la hipótesis nula es verdadera. ^[49] Este valor esperado es el producto del número de pruebas y el valor p .

El valor q es el análogo del valor p con respecto a la tasa de falsos descubrimientos positivos . ^[50] Se utiliza en pruebas de hipótesis múltiples para mantener el poder estadístico mientras se minimiza la tasa de falsos positivos . ^[51]

La probabilidad de dirección ( pd ) es el equivalente numérico bayesiano del valor p . ^[52] Corresponde a la proporción de la distribución posterior que es del signo de la mediana, variando típicamente entre 50% y 100%, y representando la certeza con la que un efecto es positivo o negativo.

Los valores p de segunda generación amplían el concepto de valores p al no considerar tamaños de efecto extremadamente pequeños y prácticamente irrelevantes como significativos. ^[53]

Véase también

Notas

^ La cursiva, la capitalización y la separación con guiones del término varían. Por ejemplo, el estilo AMA utiliza " valor P ", el estilo APA utiliza " valor p " y la Asociación Estadounidense de Estadística utiliza " valor p ". En todos los casos, la "p" significa probabilidad. ^[1]
^ La significación estadística de un resultado no implica que el resultado también tenga relevancia en el mundo real. Por ejemplo, un medicamento puede tener un efecto estadísticamente significativo que es demasiado pequeño para ser interesante.
^ Para ser más específicos, p = 0,05 corresponde a aproximadamente 1,96 desviaciones estándar para una distribución normal (prueba de dos colas), y 2 desviaciones estándar corresponden a aproximadamente una probabilidad de 1 en 22 de ser excedido por el azar, o p ≈ 0,045; Fisher señala estas aproximaciones.

Referencias

^ "Estilo de la casa ASA" (PDF) . Noticias de Amstat . Asociación Estadounidense de Estadística.
^ Aschwanden C (24 de noviembre de 2015). «Ni siquiera los científicos pueden explicar fácilmente los valores P». FiveThirtyEight . Archivado desde el original el 25 de septiembre de 2019. Consultado el 11 de octubre de 2019 .
^ abcde Wasserstein RL, Lazar NA (7 de marzo de 2016). "Declaración de la ASA sobre los valores p: contexto, proceso y propósito". The American Statistician . 70 (2): 129–133. doi : 10.1080/00031305.2016.1154108 .
^ Hubbard R, Lindsay RM (2008). "Por qué los valores P no son una medida útil de evidencia en las pruebas de significación estadística". Teoría y psicología . 18 (1): 69–88. doi :10.1177/0959354307086923. S2CID 143487211.
^ Munafò MR , Nosek BA, Bishop DV, Button KS, Chambers CD, du Sert NP, et al. (enero de 2017). "Un manifiesto para la ciencia reproducible". Nature Human Behaviour . 1 (1): 0021. doi : 10.1038/s41562-016-0021 . PMC 7610724. PMID 33954258. S2CID 6326747.
^ Wasserstein, Ronald L.; Lazar, Nicole A. (2 de abril de 2016). "La declaración de la ASA sobre los valores p: contexto, proceso y propósito". The American Statistician . 70 (2): 129–133. doi : 10.1080/00031305.2016.1154108 . ISSN 0003-1305. S2CID 124084622.
^ ab Benjamini, Yoav; De Veaux, Richard D.; Efron, Bradley; Evans, Scott; Glickman, Mark; Graubard, Barry I.; He, Xuming; Meng, Xiao-Li; Reid, Nancy M.; Stigler, Stephen M.; Vardeman, Stephen B.; Wikle, Christopher K.; Wright, Tommy; Young, Linda J.; Kafadar, Karen (2021-10-02). "Declaración del grupo de trabajo del presidente de la ASA sobre la significación estadística y la replicabilidad". Chance . 34 (4). Informa UK Limited: 10–11. doi : 10.1080/09332480.2021.2003631 . ISSN 0933-2480.
^ Neyman, Jerzy (1976). "El surgimiento de la estadística matemática: un bosquejo histórico con especial referencia a los Estados Unidos". En Owen, DB (ed.). Sobre la historia de la estadística y la probabilidad. Libros de texto y monografías. Nueva York: Marcel Dekker Inc. p. 161.
^ Fisher, RA (1992), Kotz, Samuel; Johnson, Norman L. (eds.), "Métodos estadísticos para investigadores", Avances en estadística: metodología y distribución , Springer Series in Statistics, Nueva York, NY: Springer, págs. 66-70, doi :10.1007/978-1-4612-4380-9_6, ISBN 978-1-4612-4380-9, consultado el 7 de julio de 2024
^ Benjamin, Daniel J.; Berger, James O.; Johannesson, Magnus; Nosek, Brian A.; Wagenmakers, E.-J.; Berk, Richard; Bollen, Kenneth A.; Brembs, Björn; Brown, Lawrence; Camerer, Colin; Cesarini, David; Chambers, Christopher D.; Clyde, Merlise; Cook, Thomas D.; De Boeck, Paul; Dienes, Zoltan; Dreber, Anna; Easwaran, Kenny; Efferson, Charles; Fehr, Ernst; Fidler, Fiona; Field, Andy P.; Forster, Malcolm; George, Edward I.; Gonzalez, Richard; Goodman, Steven; Green, Edwin; Green, Donald P.; Greenwald, Anthony G.; Hadfield, Jarrod D.; Hedges, Larry V.; Held, Leonhard; Hua Ho, Teck; Hoijtink, Herbert; Hruschka, Daniel J.; Imai, Kosuke; Imbens, Guido; Ioannidis, John PA; Jeon, Minjeong; Jones, James Holanda; Kirchler, Michael; Laibson, David; Lista, Juan; Pequeño, Rodrigo; Lupia, Arturo; Machéry, Edouard; Maxwell, Scott E.; McCarthy, Michael; Moore, Don A.; Morgan, Stephen L.; Munafó, Marcus; Nakagawa, Shinichi; Nyhan, Brendan; Parker, Timothy H.; Pericchi, Luis; Perugini, Marco; Más rodante, Jeff; Rousseau, Judith; Savalei, Victoria; Schönbrodt, Félix D.; Sellke, Thomas; Sinclair, Betsy; Tingley, Dustin; Van Zandt, Trisha; Vazire, Simine; Watts, Duncan J.; Winship, Christopher; Wolpert, Robert L.; Xie, Yu; Joven, Cristóbal; Zinman, Jonathan; Johnson, Valen E. (1 de septiembre de 2017). "Redefinir la significación estadística". Nature Human Behaviour . 2 (1): 6–10. doi :10.1038/s41562-017-0189-z. eISSN 2397-3374. hdl : 10281/184094 . PMID 30980045. S2CID 256726352.
^ ab Head ML, Holman L, Lanfear R, Kahn AT, Jennions MD (marzo de 2015). "El alcance y las consecuencias del p-hacking en la ciencia". PLOS Biology . 13 (3): e1002106. doi : 10.1371/journal.pbio.1002106 . PMC 4359000 . PMID 25768323.
^ Simonsohn U, Nelson LD, Simmons JP (noviembre de 2014). " Curva p y tamaño del efecto: corrección del sesgo de publicación utilizando solo resultados significativos". Perspectivas sobre la ciencia psicológica . 9 (6): 666–681. doi :10.1177/1745691614553988. PMID 26186117. S2CID 39975518.
^ Bhattacharya B, Habtzghi D (2002). "Mediana del valor p bajo la hipótesis alternativa". The American Statistician . 56 (3): 202–6. doi :10.1198/000313002146. S2CID 33812107.
^ Hung HM, O'Neill RT, Bauer P, Köhne K (marzo de 1997). "El comportamiento del valor P cuando la hipótesis alternativa es verdadera". Biometrics (manuscrito enviado). 53 (1): 11–22. doi :10.2307/2533093. JSTOR 2533093. PMID 9147587.
^ Nuzzo R (febrero de 2014). «Método científico: errores estadísticos». Nature . 506 (7487): 150–152. Bibcode :2014Natur.506..150N. doi : 10.1038/506150a . PMID 24522584.
^ Colquhoun D (noviembre de 2014). "Una investigación de la tasa de descubrimientos falsos y la interpretación errónea de los valores p". Royal Society Open Science . 1 (3): 140216. arXiv : 1407.5296 . Bibcode :2014RSOS....140216C. doi :10.1098/rsos.140216. PMC 4448847 . PMID 26064558.
^ Lee DK (diciembre de 2016). "Alternativas al valor P: intervalo de confianza y tamaño del efecto". Revista Coreana de Anestesiología . 69 (6): 555–562. doi :10.4097/kjae.2016.69.6.555. PMC 5133225 . PMID 27924194.
^ Ranstam J (agosto de 2012). "Por qué la cultura del valor P es mala y los intervalos de confianza una mejor alternativa". Osteoartritis y cartílago . 20 (8): 805–808. doi : 10.1016/j.joca.2012.04.001 . PMID 22503814.
^ Perneger TV (mayo de 2001). "Examinando la evidencia. Los cocientes de verosimilitud son alternativas a los valores P". BMJ . 322 (7295): 1184–1185. doi :10.1136/bmj.322.7295.1184. PMC 1120301 . PMID 11379590.
^ Royall R (2004). "El paradigma de la verosimilitud para la evidencia estadística". La naturaleza de la evidencia científica . págs. 119–152. doi :10.7208/chicago/9780226789583.003.0005. ISBN 9780226789576.
^ Schimmack U (30 de abril de 2015). "Reemplazar los valores p con factores de Bayes: una cura milagrosa para la crisis de replicabilidad en la ciencia psicológica". Índice de replicabilidad . Consultado el 7 de marzo de 2017 .
^ Marden JI (diciembre de 2000). "Prueba de hipótesis: de los valores p a los factores de Bayes". Revista de la Asociación Estadounidense de Estadística . 95 (452): 1316–1320. doi :10.2307/2669779. JSTOR 2669779.
^ Stern HS (16 de febrero de 2016). "Una prueba con otro nombre: valores P, factores de Bayes e inferencia estadística". Investigación conductual multivariante . 51 (1): 23–29. doi :10.1080/00273171.2015.1099032. PMC 4809350. PMID 26881954 .
^ Murtaugh PA (marzo de 2014). "En defensa de los valores P". Ecología . 95 (3): 611–617. Bibcode :2014Ecol...95..611M. doi :10.1890/13-0590.1. PMID 24804441.
^ Aschwanden C (7 de marzo de 2016). "Los estadísticos encontraron algo en lo que pueden estar de acuerdo: es hora de dejar de usar mal los valores P". FiveThirtyEight .
^ Amrhein V , Korner-Nievergelt F, Roth T (2017). "La Tierra es plana (p > 0,05): umbrales de significación y la crisis de la investigación irreplicable". PeerJ . 5 : e3544. doi : 10.7717/peerj.3544 . PMC 5502092. PMID 28698825 .
^ Amrhein V , Greenland S (enero de 2018). "Eliminar, en lugar de redefinir, la significación estadística". Nature Human Behaviour . 2 (1): 4. doi :10.1038/s41562-017-0224-0. PMID 30980046. S2CID 46814177.
^ Colquhoun D (diciembre de 2017). "La reproducibilidad de la investigación y la interpretación errónea de los valores p". Royal Society Open Science . 4 (12): 171085. doi :10.1098/rsos.171085. PMC 5750014 . PMID 29308247.
^ Goodman, Steven (1 de julio de 2008). "Una docena sucia: doce conceptos erróneos sobre el valor p". Seminarios en hematología . Interpretación de la investigación cuantitativa. 45 (3): 135–140. doi :10.1053/j.seminhematol.2008.04.003. ISSN 0037-1963. PMID 18582619.
^ Wagenmakers, Eric-Jan (octubre de 2007). "Una solución práctica a los problemas generalizados de los valores p". Psychonomic Bulletin & Review . 14 (5): 779–804. doi :10.3758/BF03194105. ISSN 1069-9384. PMID 18087943.
^ Brian E , Jaisson M (2007). "Fisicoteología y matemáticas (1710-1794)". El origen de la proporción sexual humana al nacer . Springer Science & Business Media. págs. 1-25. ISBN 978-1-4020-6036-6.
^ Arbuthnot J (1710). "Un argumento a favor de la Divina Providencia, tomado de la regularidad constante observada en los nacimientos de ambos sexos" (PDF) . Philosophical Transactions of the Royal Society of London . 27 (325–336): 186–190. doi : 10.1098/rstl.1710.0011 . S2CID 186209819.
^ ab Conover WJ (1999). "Capítulo 3.4: La prueba de signos". Practical Nonparametric Statistics (Tercera edición). Wiley. págs. 157–176. ISBN 978-0-471-16068-7.
^ Sprent P (1989). Métodos estadísticos no paramétricos aplicados (segunda edición). Chapman & Hall. ISBN 978-0-412-44980-2.
^ Stigler SM (1986). Historia de la estadística: la medición de la incertidumbre antes de 1900. Harvard University Press. pp. 225–226. ISBN 978-0-67440341-3.
^ Bellhouse P (2001). "John Arbuthnot". En Heyde CC , Seneta E (eds.). Estadísticos de los siglos . Springer. págs. 39–42. ISBN 978-0-387-95329-8.
^ Hald A (1998). "Capítulo 4. Azar o diseño: pruebas de significación". Una historia de la estadística matemática desde 1750 hasta 1930 . Wiley. pág. 65.
^ Stigler SM (1986). Historia de la estadística: la medición de la incertidumbre antes de 1900. Harvard University Press. pág. 134. ISBN 978-0-67440341-3.
^ ab Pearson K (1900). "Sobre el criterio de que un sistema dado de desviaciones de lo probable en el caso de un sistema correlacionado de variables es tal que puede suponerse razonablemente que ha surgido de un muestreo aleatorio" (PDF) . Philosophical Magazine . Serie 5. 50 (302): 157–175. doi :10.1080/14786440009463897.
^ Biau, David Jean; Jolles, Brigitte M.; Porcher, Raphaël (2010). "Valor P y la teoría de la prueba de hipótesis: una explicación para nuevos investigadores". Ortopedia clínica e investigación relacionada . 468 (3): 885–892. doi :10.1007/s11999-009-1164-4. ISSN 0009-921X. PMC 2816758 . PMID 19921345.
^ Brereton, Richard G. (2021). "Valores P y distribuciones multivariadas: términos no ortogonales en modelos de regresión". Quimiometría y sistemas de laboratorio inteligentes . 210 : 104264. doi :10.1016/j.chemolab.2021.104264.
^ Hubbard R, Bayarri MJ (2003), "Confusión sobre medidas de evidencia ( p 's) versus errores (α's) en pruebas estadísticas clásicas", The American Statistician , 57 (3): 171–178 [p. 171], doi :10.1198/0003130031856, S2CID 55671953
^ Fisher 1925, pág. 47, Capítulo III. Distribuciones.
^ ab Dallal 2012, Nota 31: ¿Por qué P = 0,05?
^ Fisher 1925, págs. 78-79, 98, Capítulo IV. Pruebas de bondad de ajuste, independencia y homogeneidad; con tabla de χ2, Tabla III. Tabla de χ2.
^ Fisher 1971, II. Los principios de la experimentación, ilustrados por un experimento psicofísico.
^ ab Fisher 1971, Sección 7. La prueba de significación.
^ Fisher 1971, Sección 12.1 Inferencia científica y procedimientos de aceptación.
^ "Definición de valor E". Institutos Nacionales de Salud .
^ Storey JD (2003). "La tasa de falsos descubrimientos positivos: una interpretación bayesiana y el valor q". Anales de Estadística . 31 (6): 2013–2035. doi : 10.1214/aos/1074290335 .
^ Storey JD, Tibshirani R (agosto de 2003). "Significación estadística para estudios de todo el genoma". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 100 (16): 9440–9445. Bibcode :2003PNAS..100.9440S. doi : 10.1073/pnas.1530509100 . PMC 170937 . PMID 12883005.
^ Makowski D, Ben-Shachar MS, Chen SH, Lüdecke D (10 de diciembre de 2019). "Índices de existencia y significación de efectos en el marco bayesiano". Frontiers in Psychology . 10 : 2767. doi : 10.3389/fpsyg.2019.02767 . PMC 6914840 . PMID 31920819.
^ Introducción a los valores p de segunda generación Jeffrey D. Blume, Robert A. Greevy, Valerie F. Welty, Jeffrey R. Smith y William D. Dupont https://www.tandfonline.com/doi/full/10.1080/00031305.2018.1537893

Lectura adicional

Denworth L (octubre de 2019). "Un problema significativo: los métodos científicos estándar están bajo fuego. ¿Cambiará algo?". Scientific American . 321 (4): 62–67 (63). El uso de valores p durante casi un siglo [desde 1925] para determinar la significación estadística de los resultados experimentales ha contribuido a una ilusión de certeza y [a] crisis de reproducibilidad en muchos campos científicos . Existe una creciente determinación de reformar el análisis estadístico... Algunos [investigadores] sugieren cambiar los métodos estadísticos, mientras que otros eliminarían un umbral para definir resultados "significativos".
Elderton WP (1902). "Tablas para probar la bondad de ajuste de la teoría a la observación". Biometrika . 1 (2): 155–163. doi :10.1093/biomet/1.2.155.
Pearson, Karl (1914). "Sobre la probabilidad de que dos distribuciones independientes de frecuencia sean en realidad muestras de la misma población, con especial referencia a trabajos recientes sobre la identidad de cepas de tripanosoma". Biometrika . 10 : 85–154. doi :10.1093/biomet/10.1.85.
Fisher RA (1925). Métodos estadísticos para investigadores . Edimburgo, Escocia: Oliver & Boyd. ISBN 978-0-05-002170-5.
Fisher RA (1971) [1935]. El diseño de experimentos (novena edición). Macmillan. ISBN 978-0-02-844690-5.
Fisher RA, Yates F (1938). Tablas estadísticas para la investigación biológica, agrícola y médica . Londres, Inglaterra.{{cite book}}: CS1 maint: location missing publisher (link)
Stigler SM (1986). Historia de la estadística: la medición de la incertidumbre antes de 1900. Cambridge, Mass.: Belknap Press de Harvard University Press. ISBN 978-0-674-40340-6.
Hubbard R, Armstrong JS (2006). "Por qué no sabemos realmente qué significa la significación estadística: implicaciones para los educadores" (PDF) . Journal of Marketing Education . 28 (2): 114–120. doi :10.1177/0273475306288399. hdl : 2092/413 . S2CID : 34729227. Archivado desde el original (PDF) el 18 de mayo de 2006.
Hubbard R, Lindsay RM (2008). "Por qué los valores P no son una medida útil de la evidencia en las pruebas de significación estadística" (PDF) . Theory & Psychology . 18 (1): 69–88. doi :10.1177/0959354307086923. S2CID 143487211. Archivado desde el original (PDF) el 2016-10-21 . Consultado el 2015-08-28 .
Stigler S (diciembre de 2008). "Fisher y el nivel del 5%". Chance . 21 (4): 12. doi : 10.1007/s00144-008-0033-3 .
Dallal GE (2012). El pequeño manual de práctica estadística.
Biau DJ, Jolles BM, Porcher R (marzo de 2010). "Valor P y la teoría de la prueba de hipótesis: una explicación para nuevos investigadores". Ortopedia clínica e investigación relacionada . 468 (3): 885–892. doi :10.1007/s11999-009-1164-4. PMC 2816758. PMID 19921345 .
Reinhart A (2015). Estadísticas mal hechas: la guía lamentablemente completa. No Starch Press . p. 176. ISBN 978-1593276201.
Benjamini, Yoav ; De Veaux, Richard D.; Efron, Bradley ; Evans, Scott; Glickman, Mark; Graubard, Barry I.; He, Xuming; Meng, Xiao-Li ; Reid, Nancy ; Stigler, Stephen M. ; Vardeman, Stephen B.; Wikle, Christopher K.; Wright, Tommy; Young, Linda J.; Kafadar, Karen (2021). "Declaración del grupo de trabajo del presidente de la ASA sobre significación estadística y replicabilidad". Anales de estadística aplicada . 15 (3): 1084–1085. doi : 10.1214/21-AOAS1501 .
Benjamin, Daniel J.; Berger, James O.; Johannesson, Magnus; Nosek, Brian A.; Wagenmakers, E.-J.; Berk, Richard; Bollen, Kenneth A.; Brembs, Björn; Brown, Lawrence; Camerer, Colin; Cesarini, David; Chambers, Christopher D.; Clyde, Merlise; Cook, Thomas D.; De Boeck, Paul; Dienes, Zoltan; Dreber, Anna; Easwaran, Kenny; Efferson, Charles; Fehr, Ernst; Fidler, Fiona; Field, Andy P.; Forster, Malcolm; George, Edward I.; Gonzalez, Richard; Goodman, Steven; Green, Edwin; Green, Donald P.; Greenwald, Anthony G.; Hadfield, Jarrod D.; Hedges, Larry V.; Held, Leonhard; Hua Ho, Teck; Hoijtink, Herbert; Hruschka, Daniel J.; Imai, Kosuke; Imbens, Guido; Ioannidis, John PA; Jeon, Minjeong; Jones, James Holanda; Kirchler, Michael; Laibson, David; Lista, Juan; Pequeño, Rodrigo; Lupia, Arturo; Machéry, Edouard; Maxwell, Scott E.; McCarthy, Michael; Moore, Don A.; Morgan, Stephen L.; Munafó, Marcus; Nakagawa, Shinichi; Nyhan, Brendan; Parker, Timothy H.; Pericchi, Luis; Perugini, Marco; Más rodante, Jeff; Rousseau, Judith; Savalei, Victoria; Schönbrodt, Félix D.; Sellke, Thomas; Sinclair, Betsy; Tingley, Dustin; Van Zandt, Trisha; Vazire, Simine; Watts, Duncan J.; Winship, Christopher; Wolpert, Robert L.; Xie, Yu; Joven, Cristóbal; Zinman, Jonathan; Johnson, Valen E. (1 de septiembre de 2017). "Redefinir la significación estadística". Nature Human Behaviour . 2 (1): 6–10. doi :10.1038/s41562-017-0189-z. eISSN 2397-3374. hdl : 10281/184094 . PMID 30980045. S2CID 256726352.

Enlaces externos

Wikimedia Commons tiene medios relacionados con Valor P .

Calculadoras de valores p gratuitas en línea para varias pruebas específicas (Chi-cuadrado, prueba F de Fisher, etc.).
Comprensión de los valores p, incluyendo una aplicación Java que ilustra cómo los valores numéricos de los valores p pueden dar impresiones bastante engañosas sobre la verdad o falsedad de la hipótesis bajo prueba.
StatQuest: Valores P, explicados claramente en YouTube
StatQuest: errores en el cálculo de valores p y cálculos de potencia en YouTube
La ciencia no está rota: artículo sobre cómo se pueden manipular los valores p y una herramienta interactiva para visualizarlos.