Una prueba de chi-cuadrado (también prueba de chi-cuadrado o prueba de χ 2 ) es una prueba de hipótesis estadística que se utiliza en el análisis de tablas de contingencia cuando los tamaños de muestra son grandes. En términos más simples, esta prueba se utiliza principalmente para examinar si dos variables categóricas ( dos dimensiones de la tabla de contingencia ) son independientes al influir en la estadística de la prueba ( valores dentro de la tabla ). [1] La prueba es válida cuando el estadístico de prueba tiene chi-cuadrado distribuido bajo la hipótesis nula , específicamente la prueba de chi-cuadrado de Pearson y variantes de la misma. La prueba de chi-cuadrado de Pearson se utiliza para determinar si existe una diferencia estadísticamente significativa entre las frecuencias esperadas y las frecuencias observadas en una o más categorías de una tabla de contingencia . Para tablas de contingencia con tamaños de muestra más pequeños, se utiliza en su lugar la prueba exacta de Fisher .
En las aplicaciones estándar de esta prueba, las observaciones se clasifican en clases mutuamente excluyentes. Si la hipótesis nula de que no hay diferencias entre las clases de la población es cierta, el estadístico de prueba calculado a partir de las observaciones sigue una distribución de frecuencia χ2 . El propósito de la prueba es evaluar qué tan probable sería que las frecuencias observadas supusieran que la hipótesis nula fuera cierta.
Las estadísticas de prueba que siguen una distribución χ 2 ocurren cuando las observaciones son independientes. También existen pruebas de χ 2 para probar la hipótesis nula de independencia de un par de variables aleatorias basadas en observaciones de los pares.
Las pruebas de chi-cuadrado a menudo se refieren a pruebas para las cuales la distribución del estadístico de prueba se aproxima asintóticamente a la distribución χ2 , lo que significa que la distribución muestral (si la hipótesis nula es verdadera) del estadístico de prueba se aproxima cada vez más a una distribución de chi-cuadrado. a medida que aumentan los tamaños de muestra .
En el siglo XIX, los métodos analíticos estadísticos se aplicaban principalmente en el análisis de datos biológicos y era costumbre que los investigadores asumieran que las observaciones seguían una distribución normal , como Sir George Airy y Mansfield Merriman , cuyos trabajos fueron criticados por Karl Pearson en su artículo de 1900. . [2]
A finales del siglo XIX, Pearson notó la existencia de una asimetría significativa en algunas observaciones biológicas. Para modelar las observaciones independientemente de que sean normales o asimétricas, Pearson, en una serie de artículos publicados entre 1893 y 1916, [3] [4] [5] [6] ideó la distribución de Pearson , una familia de distribuciones de probabilidad continuas , que incluye la distribución normal y muchas distribuciones asimétricas, y propuso un método de análisis estadístico que consiste en utilizar la distribución de Pearson para modelar la observación y realizar una prueba de bondad de ajuste para determinar qué tan bien se ajusta realmente el modelo a las observaciones.
En 1900, Pearson publicó un artículo [2] sobre la prueba de χ 2 , que se considera uno de los fundamentos de la estadística moderna. [7] En este artículo, Pearson investigó una prueba de bondad de ajuste.
Supongamos que n observaciones en una muestra aleatoria de una población se clasifican en k clases mutuamente excluyentes con números respectivos de observaciones x i (para i = 1,2,…, k ), y una hipótesis nula da la probabilidad p i de que una La observación cae en la i- ésima clase. Entonces tenemos los números esperados m i = np i para todo i , donde
Pearson propuso que, bajo la circunstancia de que la hipótesis nula sea correcta, como n → ∞ la distribución límite de la cantidad dada a continuación es la distribución χ 2 .
Pearson abordó primero el caso en el que los números esperados m i son números suficientemente grandes conocidos en todas las celdas, asumiendo que cada observación x i puede considerarse distribuida normalmente , y llegó al resultado de que, en el límite cuando n se vuelve grande, X 2 sigue la distribución χ 2 con k − 1 grados de libertad.
Sin embargo, Pearson consideró a continuación el caso en el que los números esperados dependían de los parámetros que debían estimarse a partir de la muestra, y sugirió que, siendo la notación de m i los verdaderos números esperados y m ′ i los números esperados estimados, la diferencia
normalmente será positivo y lo suficientemente pequeño como para omitirlo. En conclusión, Pearson argumentó que si consideráramos que X ′ 2 también se distribuye como distribución χ 2 con k − 1 grados de libertad, el error en esta aproximación no afectaría las decisiones prácticas. Esta conclusión causó cierta controversia en las aplicaciones prácticas y no se resolvió durante 20 años hasta los artículos de Fisher de 1922 y 1924. [8] [9]
Una estadística de prueba que sigue exactamente una distribución de chi-cuadrado es la prueba de que la varianza de una población distribuida normalmente tiene un valor dado basado en una varianza muestral . Estas pruebas son poco comunes en la práctica porque generalmente se desconoce la verdadera varianza de la población. Sin embargo, existen varias pruebas estadísticas en las que la distribución chi-cuadrado es aproximadamente válida:
Para conocer una prueba exacta utilizada en lugar de la prueba de independencia de chi-cuadrado 2 × 2, consulte la prueba exacta de Fisher .
Para obtener una prueba exacta utilizada en lugar de la prueba de bondad de ajuste de chi-cuadrado 2 × 1, consulte prueba binomial .
El uso de la distribución chi-cuadrado para interpretar la estadística chi-cuadrado de Pearson requiere asumir que la probabilidad discreta de las frecuencias binomiales observadas en la tabla puede aproximarse mediante la distribución continua chi-cuadrado . Esta suposición no es del todo correcta e introduce algunos errores.
Para reducir el error de aproximación, Frank Yates sugirió una corrección por continuidad que ajusta la fórmula de la prueba chi-cuadrado de Pearson restando 0,5 de la diferencia absoluta entre cada valor observado y su valor esperado en una tabla de contingencia de 2 × 2 . [10] Esto reduce el valor de chi-cuadrado obtenido y, por lo tanto, aumenta su valor p .
Si se toma una muestra de tamaño n de una población que tiene una distribución normal , entonces hay un resultado (ver distribución de la varianza muestral ) que permite realizar una prueba para determinar si la varianza de la población tiene un valor predeterminado. Por ejemplo, un proceso de fabricación podría haber estado en condiciones estables durante un largo período, lo que permitiría determinar un valor de la varianza esencialmente sin errores. Supongamos que se está probando una variante del proceso, lo que da lugar a una pequeña muestra de n artículos cuya variación se va a probar. El estadístico de prueba T en este caso podría establecerse como la suma de los cuadrados alrededor de la media muestral, dividida por el valor nominal de la varianza (es decir, el valor que se probará como mantenimiento). Entonces T tiene una distribución chi-cuadrado con n − 1 grados de libertad . Por ejemplo, si el tamaño de la muestra es 21, la región de aceptación para T con un nivel de significancia del 5% está entre 9,59 y 34,17.
Supongamos que hay una ciudad de 1.000.000 de habitantes con cuatro barrios: A , B , C y D. Se toma una muestra aleatoria de 650 residentes de la ciudad y se registra su ocupación como "de cuello blanco", "de cuello azul" o "sin cuello" . La hipótesis nula es que el barrio de residencia de cada persona es independiente de su clasificación ocupacional. Los datos se tabulan como:
Tomemos la muestra que vive en el barrio A , 150, para estimar qué proporción del total de 1.000.000 vive en el barrio A. De manera similar tomamos 349/650 para estimar qué proporción de ese millón son trabajadores administrativos. Bajo el supuesto de independencia bajo la hipótesis, deberíamos "esperar" que el número de trabajadores administrativos en el vecindario A sea
Luego en esa "celda" de la tabla, tenemos
La suma de estas cantidades en todas las celdas es el estadístico de prueba; en este caso, . Bajo la hipótesis nula, esta suma tiene aproximadamente una distribución chi-cuadrado cuyo número de grados de libertad es
Si el estadístico de prueba es improbablemente grande según esa distribución chi-cuadrado, entonces se rechaza la hipótesis nula de independencia. Aquí tenemos un valor de chi-cuadrado de 24,57, que es bastante grande y, por lo tanto, tenemos cierta evidencia para rechazar la hipótesis nula (H0). Esto significa que el vecindario de residencia de cada persona está correlacionado con su clasificación ocupacional.
Una cuestión relacionada es la prueba de homogeneidad. Supongamos que en lugar de dar a cada residente de cada uno de los cuatro barrios las mismas posibilidades de inclusión en la muestra, decidimos de antemano cuántos residentes de cada barrio incluir. Entonces cada residente tiene las mismas posibilidades de ser elegido que todos los residentes del mismo barrio, pero los residentes de diferentes barrios tendrían diferentes probabilidades de ser elegidos si los cuatro tamaños de muestra no son proporcionales a las poblaciones de los cuatro barrios. En tal caso, estaríamos probando la "homogeneidad" en lugar de la "independencia". La pregunta es si las proporciones de trabajadores manuales, administrativos y no manuales en los cuatro barrios son las mismas. Sin embargo, la prueba se realiza de la misma forma.
En criptoanálisis , la prueba de chi-cuadrado se utiliza para comparar la distribución de texto sin formato y (posiblemente) texto cifrado descifrado . El valor más bajo de la prueba significa que el descifrado se realizó correctamente con una alta probabilidad. [11] [12] Este método se puede generalizar para resolver problemas criptográficos modernos. [13]
En bioinformática , la prueba de chi-cuadrado se utiliza para comparar la distribución de ciertas propiedades de genes (p. ej., contenido genómico, tasa de mutación, agrupamiento de redes de interacción, etc.) que pertenecen a diferentes categorías (p. ej., genes de enfermedades, genes esenciales, genes en un determinado cromosoma, etc.). [14] [15]