En estadística y estadística aplicada se denomina prueba χ² (pronunciado como «ji al cuadrado»[1] y a veces como «chi al cuadrado») a cualquier prueba en la que el estadístico utilizado sigue una distribución χ² si la hipótesis nula es cierta.
En las aplicaciones estándar de esta prueba, las observaciones se clasifican en clases mutuamente excluyentes.
Los estadísticos de prueba que siguen una distribución χ2 ocurren cuando las observaciones son independientes.
Pruebas chi-cuadrado suele referirse a pruebas para las que la distribución del estadístico de prueba se aproxima a la distribución χ2 asintóticamente, lo que significa que la distribución muestral (si la hipótesis nula es cierta) del estadístico de prueba se aproxima cada vez más a una distribución chi-cuadrado a medida que aumentan los tamaños de muestra.
En el siglo XIX, los métodos de análisis estadístico se aplicaban principalmente en el análisis de datos biológicos y era habitual que los investigadores asumieran que las observaciones seguían una distribución normal, como Sir George Airy y Mansfield Merriman, cuyos trabajos fueron criticados por Karl Pearson en su artículo de 1900.
Un test estadístico que sigue exactamente una distribución chi-cuadrado es la prueba de que la varianza de una población normalmente distribuida tiene un valor determinado basado en una varianza muestral.
Esta suposición no es del todo correcta e introduce algún error.
[8] Esto reduce el valor chi-cuadrado obtenido y, por tanto, aumenta su p-valor.
Por ejemplo, un proceso de fabricación podría haber estado en condición estable durante un largo período, lo que permitió determinar un valor para la varianza esencialmente sin error.
Suponga que se está probando una variante del proceso, lo que da lugar a una pequeña muestra de n elementos de producto cuya variación se va a probar.
Deseamos probar la hipótesis según la cual un dado de seis caras no está manipulado, con un riesgo α = 0,05.
Si está equilibrado, esperaríamos que de estos 600 lanzamientos, cada número caiga 100 veces.
Efectivamente, 88 + 109 + 107 + 94 + 105 + 97 = 600 y si sabemos, por ejemplo, el número de veces que obtenemos los dígitos del 1 al 5, sabemos la cantidad de veces que obtenemos el número 6: 600 – (88 + 109 + 107 + 94 + 105) = 97.
Esta ley de χ2 da el valor por debajo del cual consideramos que el sorteo cumple con un riesgo α = 0,05 : P(T < 11,07) = 0,95.
Por otro lado, supongamos que nuestro experimento da el siguiente resultado:
En este caso la variable T definida anteriormente vale: Dado que 12,92 > 11,07, esta vez podemos rechazar la hipótesis nula: estos datos estadísticos nos permiten considerar que el dado está amañado.
Los datos se tabulan como: Tomemos la muestra que vive en el barrio A, 150, para estimar qué proporción de todo el 1.000.000 vive en el barrio A.
En tal caso, estaríamos probando la "homogeneidad" en lugar de la "independencia".
El valor más bajo de la prueba significa que el descifrado tuvo éxito con alta probabilidad.
[9][10] Este método puede generalizarse para resolver problemas criptográficos modernos.