stringtranslate.com

Pruebas de una y dos colas

Una prueba de dos colas aplicada a la distribución normal .
Una prueba de una cola , que muestra el valor p como el tamaño de una cola.

En las pruebas de significación estadística , una prueba de una cola y una prueba de dos colas son formas alternativas de calcular la significación estadística de un parámetro inferido de un conjunto de datos, en términos de una estadística de prueba . Una prueba de dos colas es apropiada si el valor estimado es mayor o menor que un cierto rango de valores, por ejemplo, si un examinado puede obtener una puntuación superior o inferior a un rango específico de puntuaciones. Este método se utiliza para probar la hipótesis nula y si el valor estimado existe en las áreas críticas, se acepta la hipótesis alternativa sobre la hipótesis nula. Una prueba de una cola es apropiada si el valor estimado puede desviarse del valor de referencia en una sola dirección, izquierda o derecha, pero no en ambas. Un ejemplo puede ser si una máquina produce más del uno por ciento de productos defectuosos. En esta situación, si el valor estimado existe en una de las áreas críticas unilaterales, dependiendo de la dirección de interés (mayor o menor que), se acepta la hipótesis alternativa sobre la hipótesis nula. Los nombres alternativos son pruebas unilaterales y bilaterales ; La terminología "cola" se utiliza porque las porciones extremas de las distribuciones, donde las observaciones conducen al rechazo de la hipótesis nula, son pequeñas y a menudo "descienden" hacia cero como en la distribución normal , coloreada en amarillo, o "curva de campana". En la foto de la derecha y coloreada en verde.

Aplicaciones

Las pruebas de una cola se utilizan para distribuciones asimétricas que tienen una sola cola, como la distribución chi-cuadrado , que son comunes para medir la bondad de ajuste , o para un lado de una distribución que tiene dos colas, como la normal. distribución , que es común al estimar la ubicación; esto corresponde a especificar una dirección. Las pruebas de dos colas sólo son aplicables cuando hay dos colas, como en la distribución normal, y corresponden a considerar cualquiera de las direcciones significativa. [1] [2]

En el enfoque de Ronald Fisher , la hipótesis nula H 0 se rechazará cuando el valor p del estadístico de prueba sea suficientemente extremo (con respecto a la distribución muestral del estadístico de prueba ) y, por lo tanto, se considere poco probable que sea resultado del azar. Esto generalmente se hace comparando el valor p resultante con el nivel de significancia especificado, indicado por , al calcular la significancia estadística de un parámetro . En una prueba de una cola, se decide de antemano que "extremo" significa "suficientemente pequeño" o "suficientemente grande"; los valores en la otra dirección se consideran no significativos. Se puede informar que la probabilidad de la cola izquierda o derecha como el valor p de una cola, que en última instancia corresponde a la dirección en la que el estadístico de prueba se desvía de H 0. [3] En una prueba de dos colas, "extremo" significa " "ya sea suficientemente pequeño o suficientemente grande", y los valores en cualquier dirección se consideran significativos. [4] Para una estadística de prueba dada, hay una única prueba de dos colas y dos pruebas de una cola, una para cada dirección. Cuando se proporciona un nivel de significancia , las regiones críticas existirían en los dos extremos de la distribución con un área de cada una para una prueba de dos colas. Alternativamente, la región crítica existiría únicamente en el extremo de la cola única con un área de para una prueba de una cola. Para un nivel de significancia dado en una prueba de dos colas para un estadístico de prueba, las pruebas de una cola correspondientes para el mismo estadístico de prueba se considerarán dos veces más significativas (la mitad del valor p ) si los datos están en la dirección especificada por la prueba, o no significativo en absoluto ( valor p arriba ) si los datos están en la dirección opuesta a la región crítica especificada por la prueba.

Por ejemplo, si lanzar una moneda al aire y comprobar si está sesgada hacia cara es una prueba de una cola, y obtener datos de "todas las caras" se consideraría muy significativo, mientras que obtener datos de "todas las cruces" no sería significativo en todos ( p  = 1). Por el contrario, probar si está sesgado en cualquier dirección es una prueba de dos colas, y "todas las caras" o "todas las cruces" se considerarían datos muy significativos. En las pruebas médicas, si bien uno generalmente está interesado en si un tratamiento produce resultados mejores que el azar, lo que sugiere una prueba de una cola; un peor resultado también es interesante para el campo científico, por lo que se debería utilizar una prueba de dos colas que corresponda, en cambio, a comprobar si el tratamiento produce resultados diferentes al azar, ya sea mejores o peores. [5] En el experimento arquetípico de dama probando té , Fisher probó si la dama en cuestión era mejor que el azar para distinguir dos tipos de preparación de té, no si su habilidad era diferente del azar, y por lo tanto utilizó una prueba de una cola.

Ejemplo de lanzamiento de moneda

Al lanzar una moneda, la hipótesis nula es una secuencia de ensayos de Bernoulli con probabilidad de 0,5, lo que produce una variable aleatoria X que es 1 para cara y 0 para cruz, y un estadístico de prueba común es la media muestral (del número de caras). Para saber si la moneda está sesgada hacia la cara, se utilizaría una prueba de una cola: sólo un gran número de caras serían significativas. En ese caso, tiene posibilidades de ocurrir un conjunto de datos de cinco caras (HHHHH), con una media muestral de 1 (5 lanzamientos consecutivos con 2 resultados - ((1/2)^5 =1/32). Esto tendría y sería significativo (rechazando la hipótesis nula) si la prueba se analizara a un nivel de significancia de (el nivel de significancia correspondiente al límite de corte). Sin embargo, si se prueba si la moneda está sesgada hacia cara o cruz, una prueba de dos colas Se usaría la prueba, y un conjunto de datos de cinco caras (media muestral 1) es tan extremo como un conjunto de datos de cinco colas (media muestral 0). Como resultado, el valor p sería y esto no sería significativo ( no rechazar la hipótesis nula) si la prueba se analizó a un nivel de significancia de .

Historia

p -valor de la distribución chi-cuadrado para diferente número de grados de libertad

El valor p fue introducido por Karl Pearson [6] en la prueba chi-cuadrado de Pearson , donde definió P (notación original) como la probabilidad de que la estadística estuviera en o por encima de un nivel determinado. Esta es una definición de una cola, y la distribución chi-cuadrado es asimétrica, solo asume valores positivos o cero, y tiene una sola cola, la superior. Mide la bondad de ajuste de los datos con una distribución teórica, donde cero corresponde al acuerdo exacto con la distribución teórica; Por lo tanto, el valor p mide la probabilidad de que el ajuste sea tan malo o peor.

Distribución normal , mostrando dos colas.

La distinción entre pruebas de una y dos colas fue popularizada por Ronald Fisher en el influyente libro Statistical Methods for Research Workers , [7] donde la aplicó especialmente a la distribución normal , que es una distribución simétrica con dos colas iguales. La distribución normal es una medida común de ubicación, en lugar de bondad de ajuste, y tiene dos colas, correspondientes a que la estimación de ubicación está por encima o por debajo de la ubicación teórica (por ejemplo, media muestral comparada con la media teórica). En el caso de una distribución simétrica como la distribución normal, el valor p de una cola es exactamente la mitad del valor p de dos colas : [7]

A veces se introduce cierta confusión por el hecho de que en algunos casos deseamos conocer la probabilidad de que la desviación, que se sabe que es positiva, exceda un valor observado, mientras que en otros casos la probabilidad requerida es que una desviación, que con la misma frecuencia es positiva. y negativo, excederá un valor observado; la última probabilidad es siempre la mitad de la primera.

Fisher enfatizó la importancia de medir la cola (el valor observado del estadístico de prueba y todos los más extremos) en lugar de simplemente la probabilidad de un resultado específico en sí, en su El diseño de experimentos (1935). [8] Explica esto porque un conjunto específico de datos puede ser improbable (en la hipótesis nula), pero resultados más extremos son probables, por lo que visto desde esta perspectiva, los datos específicos pero no extremadamente improbables no deben considerarse significativos.

Pruebas específicas

Si el estadístico de prueba sigue una distribución t de Student en la hipótesis nula, lo cual es común cuando la variable subyacente sigue una distribución normal con un factor de escala desconocido, entonces la prueba se denomina prueba t de una o dos colas . Si la prueba se realiza utilizando la media y la varianza de la población real, en lugar de una estimación de una muestra, se denominaría prueba Z de una o dos colas .

Las tablas estadísticas para ty para Z proporcionan valores críticos para pruebas de una y dos colas. Es decir, proporcionan los valores críticos que aislan una región completa en uno u otro extremo de la distribución muestral, así como los valores críticos que aislan las regiones (de la mitad del tamaño) en ambos extremos de la distribución muestral.

Ver también

Referencias

  1. ^ Mundry, R.; Fischer, J. (1998). "El uso de programas estadísticos para pruebas no paramétricas de muestras pequeñas a menudo conduce a valores de P incorrectos: ejemplos del comportamiento animal". Comportamiento animal . 56 (1): 256–259. doi :10.1006/anbe.1998.0756. PMID  9710485. S2CID  40169869.
  2. ^ Pillemer, DB (1991). "Pruebas de hipótesis de una cola versus dos colas en la investigación educativa contemporánea". Investigador Educativo . 20 (9): 13-17. doi :10.3102/0013189X020009013. S2CID  145478007.
  3. ^ Una introducción moderna a la probabilidad y la estadística: comprender por qué y cómo . Dekking, Michel, 1946-. Londres: Springer. 2005. págs. 389–390. ISBN 9781852338961. OCLC  262680588.{{cite book}}: Mantenimiento CS1: otros ( enlace )
  4. ^ John E. Freund , (1984) Estadística elemental moderna , sexta edición. Prentice Hall. ISBN 0-13-593525-3 (Sección "Inferencias sobre medias", capítulo "Pruebas de significancia", página 289.) 
  5. ^ JM Bland, DG Bland (BMJ, 1994) Notas estadísticas: pruebas de significancia de una y dos caras
  6. ^ Pearson, Karl (1900). "Sobre el criterio de que un sistema dado de desviaciones de lo probable en el caso de un sistema correlacionado de variables es tal que se puede suponer razonablemente que surgió de un muestreo aleatorio" (PDF) . Revista Filosófica . Serie 5. 50 (302): 157–175. doi :10.1080/14786440009463897.
  7. ^ ab Fisher, Ronald (1925). Métodos estadísticos para investigadores . Edimburgo: Oliver & Boyd. ISBN 0-05-002170-2.
  8. ^ Pescador, Ronald A. (1971) [1935]. El diseño de experimentos (9ª ed.). Macmillan. ISBN 0-02-844690-9.