Se trata de una prueba de valor p . La configuración es la siguiente: [2] [3]
Antes del experimento, el experimentador fija un número determinado de muestras a tomar.
Los datos observados son , el número de muestras de un conjunto finito de categorías dadas. Satisfacen .
La hipótesis nula es que los números de recuento se toman de una distribución multinomial . Es decir, los datos subyacentes se toman de una distribución categórica sobre las categorías dadas.
La estadística de prueba de chi-cuadrado de Pearson se define como . El valor p de la estadística de prueba se calcula numéricamente o buscándolo en una tabla.
Si el valor p es suficientemente pequeño (normalmente p < 0,05 por convención), entonces se rechaza la hipótesis nula y concluimos que los datos observados no siguen la distribución multinomial.
Un ejemplo sencillo es probar la hipótesis de que un dado común de seis caras es "justo" (es decir, que los seis resultados tienen la misma probabilidad de ocurrir). En este caso, los datos observados son , la cantidad de veces que el dado ha caído en cada número. La hipótesis nula es , y . Como se detalla a continuación, si , entonces la imparcialidad de los dados puede rechazarse en el nivel de .
Una prueba de bondad de ajuste establece si una distribución de frecuencia observada difiere de una distribución teórica.
Una prueba de homogeneidad compara la distribución de los recuentos de dos o más grupos que utilizan la misma variable categórica (por ejemplo, la elección de actividad (universidad, ejército, empleo, viajes) de los graduados de una escuela secundaria informada un año después de la graduación, ordenada por año de graduación, para ver si el número de graduados que eligen una actividad determinada ha cambiado de una clase a otra o de una década a otra). [4]
Una prueba de independencia evalúa si las observaciones que consisten en medidas de dos variables, expresadas en una tabla de contingencia , son independientes entre sí (por ejemplo, las respuestas de una encuesta a personas de diferentes nacionalidades para ver si la nacionalidad de una persona está relacionada con la respuesta).
Para las tres pruebas, el procedimiento de cálculo incluye los siguientes pasos:
Para una prueba de bondad de ajuste, df = Cats − Params , donde Cats es el número de categorías de observación reconocidas por el modelo y Params es el número de parámetros en el modelo ajustados para que el modelo se ajuste mejor a las observaciones: el número de categorías reducido por el número de parámetros ajustados en la distribución.
Para una prueba de homogeneidad, df = (Filas − 1)×(Columnas − 1) , donde Filas corresponde al número de categorías (es decir, filas en la tabla de contingencia asociada) y Cols corresponde al número de grupos independientes (es decir, columnas en la tabla de contingencia asociada). [4]
Para una prueba de independencia, df = (Filas − 1)×(Columnas − 1) , donde en este caso, Filas corresponde al número de categorías en una variable y Columnas corresponde al número de categorías en la segunda variable. [4]
Compárese con el valor crítico de la distribución de chi-cuadrado con grados de libertad df y el nivel de confianza seleccionado (unilateral, ya que la prueba es solo en una dirección, es decir, ¿el valor de prueba es mayor que el valor crítico?), que en muchos casos da una buena aproximación de la distribución de .
Sostener o rechazar la hipótesis nula de que la distribución de frecuencias observada es la misma que la distribución teórica en función de si el estadístico de prueba excede el valor crítico de . Si el estadístico de prueba excede el valor crítico de , la hipótesis nula ( = no hay diferencia entre las distribuciones) puede rechazarse, y la hipótesis alternativa ( = hay una diferencia entre las distribuciones) puede aceptarse, ambas con el nivel de confianza seleccionado. Si el estadístico de prueba cae por debajo del valor umbral, entonces no se puede llegar a una conclusión clara, y la hipótesis nula se sostiene (no rechazamos la hipótesis nula), aunque no necesariamente se acepta.
Prueba de ajuste de una distribución
Distribución uniforme discreta
En este caso, las observaciones se dividen entre las celdas. Una aplicación sencilla es probar la hipótesis de que, en la población general, los valores aparecerían en cada celda con la misma frecuencia. La "frecuencia teórica" para cualquier celda (bajo la hipótesis nula de una distribución uniforme discreta ) se calcula así:
y la reducción en los grados de libertad es , nocionalmente porque las frecuencias observadas están restringidas a sumar .
Un ejemplo específico de su aplicación sería su aplicación para la prueba log-rank.
Otras distribuciones
Al comprobar si las observaciones son variables aleatorias cuya distribución pertenece a una familia de distribuciones dada, las "frecuencias teóricas" se calculan utilizando una distribución de esa familia ajustada de alguna manera estándar. La reducción en los grados de libertad se calcula como , donde es el número de parámetros utilizados para ajustar la distribución. Por ejemplo, al comprobar una distribución gamma generalizada de tres parámetros , , y al comprobar una distribución normal (donde los parámetros son la media y la desviación estándar), , y al comprobar una distribución de Poisson (donde el parámetro es el valor esperado), . Por lo tanto, habrá grados de libertad, donde es el número de categorías.
Los grados de libertad no se basan en la cantidad de observaciones, como en el caso de la distribución t de Student o F. Por ejemplo, si se prueba un dado de seis caras , habría cinco grados de libertad porque hay seis categorías o parámetros (cada número); la cantidad de veces que se lanza el dado no influye en la cantidad de grados de libertad.
Cálculo de la estadística de prueba
El valor de la estadística de prueba es
dónde
= Estadística de prueba acumulativa de Pearson, que se aproxima asintóticamente a una distribución .
= el número de observaciones del tipo i .
= número total de observaciones
= el recuento esperado (teórico) del tipo i , afirmado por la hipótesis nula de que la fracción del tipo i en la población es
La estadística de chi-cuadrado también se puede calcular como
Este resultado es consecuencia del teorema binomial.
El resultado sobre el número de grados de libertad es válido cuando los datos originales son multinomiales y, por lo tanto, los parámetros estimados son eficientes para minimizar la estadística de chi-cuadrado. Sin embargo, de manera más general, cuando la estimación de máxima verosimilitud no coincide con la estimación de chi-cuadrado mínimo, la distribución se ubicará en algún punto entre una distribución de chi-cuadrado con y grados de libertad (véase, por ejemplo, Chernoff y Lehmann, 1954).
La prueba de chi-cuadrado indica una asociación estadísticamente significativa entre el nivel de educación completado y la asistencia a controles rutinarios (chi2(3) = 14.6090, p = 0.002). Las proporciones sugieren que a medida que aumenta el nivel de educación, también lo hace la proporción de personas que asisten a controles rutinarios. En concreto, las personas que se han graduado de la universidad asisten a controles rutinarios en una proporción mayor (31.52%) en comparación con aquellos que no se han graduado de la escuela secundaria (8.44%). Este hallazgo puede sugerir que un mayor nivel educativo se asocia con una mayor probabilidad de participar en conductas que promuevan la salud, como los controles rutinarios.
En este caso, una "observación" consiste en los valores de dos resultados y la hipótesis nula es que la ocurrencia de estos resultados es estadísticamente independiente . Cada observación se asigna a una celda de una matriz bidimensional de celdas (llamada tabla de contingencia ) de acuerdo con los valores de los dos resultados. Si hay r filas y c columnas en la tabla, la "frecuencia teórica" para una celda, dada la hipótesis de independencia, es
donde es el tamaño total de la muestra (la suma de todas las celdas de la tabla), y
es la fracción de observaciones del tipo i ignorando el atributo de columna (fracción de totales de fila), y
es la fracción de observaciones del tipo j ignorando el atributo de fila (fracción de los totales de columna). El término " frecuencias " se refiere a números absolutos en lugar de valores ya normalizados.
El valor de la estadística de prueba es
Tenga en cuenta que es 0 si y solo si , es decir, solo si el número esperado y verdadero de observaciones son iguales en todas las celdas.
El ajuste del modelo de "independencia" reduce el número de grados de libertad en p = r + c − 1. El número de grados de libertad es igual al número de celdas rc , menos la reducción en grados de libertad, p , que se reduce a ( r − 1)( c − 1).
Para la prueba de independencia, también conocida como prueba de homogeneidad, una probabilidad de chi-cuadrado menor o igual a 0,05 (o que la estadística de chi-cuadrado esté en el punto crítico de 0,05 o más) es comúnmente interpretada por los trabajadores aplicados como justificación para rechazar la hipótesis nula de que la variable de fila es independiente de la variable de columna. [6]
La hipótesis alternativa corresponde a las variables que tienen una asociación o relación donde no se especifica la estructura de esta relación.
Supuestos
La prueba de chi-cuadrado, cuando se utiliza con la aproximación estándar de que es aplicable una distribución de chi-cuadrado, tiene los siguientes supuestos: [7]
Los datos de muestra son un muestreo aleatorio de una distribución o población fija donde cada conjunto de miembros de la población del tamaño de muestra dado tiene la misma probabilidad de selección. Se han desarrollado variantes de la prueba para muestras complejas, como cuando los datos están ponderados. Se pueden utilizar otras formas, como el muestreo intencional . [8]
Tamaño de la muestra (tabla completa)
Se supone que la muestra es lo suficientemente grande. Si se realiza una prueba de chi cuadrado en una muestra de menor tamaño, la prueba de chi cuadrado arrojará una inferencia inexacta. El investigador, al utilizar la prueba de chi cuadrado en muestras pequeñas, podría terminar cometiendo un error de tipo II . Para muestras pequeñas, se prefiere la prueba de Cash. [9] [10]
Recuento celular esperado
Recuentos de celdas esperados adecuados. Algunos requieren 5 o más, y otros requieren 10 o más. Una regla común es 5 o más en todas las celdas de una tabla de 2 x 2, y 5 o más en el 80 % de las celdas en tablas más grandes, pero ninguna celda con un recuento esperado de cero. Cuando no se cumple esta suposición, se aplica la corrección de Yates .
Independencia
Siempre se supone que las observaciones son independientes entre sí. Esto significa que no se puede utilizar la prueba de chi-cuadrado para probar datos correlacionados (como pares emparejados o datos de panel). En esos casos, la prueba de McNemar puede ser más adecuada.
Una prueba que se basa en diferentes supuestos es la prueba exacta de Fisher ; si se cumple su supuesto de distribuciones marginales fijas, es sustancialmente más precisa para obtener un nivel de significación, especialmente con pocas observaciones. En la gran mayoría de las aplicaciones, este supuesto no se cumplirá y la prueba exacta de Fisher será demasiado conservadora y no tendrá una cobertura correcta. [11]
Derivación
Derivación utilizando el teorema del límite central
La distribución nula de la estadística de Pearson con j filas y k columnas se aproxima mediante la distribución de chi-cuadrado con ( k − 1) ( j − 1) grados de libertad. [12]
En el caso especial donde solo hay dos celdas en la tabla, los valores esperados siguen una distribución binomial ,
dónde
p = probabilidad, bajo la hipótesis nula,
n = número de observaciones en la muestra.
En el ejemplo anterior, la probabilidad hipotética de una observación masculina es de 0,5, con 100 muestras. Por lo tanto, esperamos observar 50 hombres.
Si n es suficientemente grande, la distribución binomial anterior puede aproximarse mediante una distribución gaussiana (normal) y, por lo tanto, la estadística de prueba de Pearson se aproxima a una distribución de chi-cuadrado.
Sea O 1 el número de observaciones de la muestra que se encuentran en la primera celda. La estadística de prueba de Pearson se puede expresar como
que a su vez puede expresarse como
Por la aproximación normal a un binomio, este es el cuadrado de una variable normal estándar y, por lo tanto, se distribuye como chi-cuadrado con 1 grado de libertad. Tenga en cuenta que el denominador es una desviación estándar de la aproximación gaussiana, por lo que se puede escribir
Por lo tanto, para ser coherente con el significado de la distribución de chi-cuadrado, estamos midiendo qué tan probable es que el número observado de desviaciones estándar se aleje de la media según la aproximación gaussiana (que es una buena aproximación para n grandes ).
Luego, la distribución chi-cuadrado se integra a la derecha del valor estadístico para obtener el valor P , que es igual a la probabilidad de obtener un estadístico igual o mayor que el observado, asumiendo la hipótesis nula.
Argumentos similares a los anteriores conducen al resultado deseado, aunque los detalles son más complejos. Se puede aplicar un cambio ortogonal de variables para convertir los sumandos limitantes en la estadística de prueba en un cuadrado menos de variables aleatorias normales estándar iid. [13]
Demostremos ahora que la distribución efectivamente se aproxima asintóticamente a la distribución a medida que el número de observaciones tiende al infinito.
Sea el número de observaciones, el número de celdas y la probabilidad de que una observación caiga en la celda i-ésima, para . Denotamos por la configuración donde para cada i hay observaciones en la celda i-ésima. Nótese que
Sea la estadística de prueba acumulativa de Pearson para dicha configuración y sea la distribución de esta estadística. Demostraremos que la última probabilidad se aproxima a la distribución con grados de libertad, como
Para cualquier valor arbitrario T:
Utilizaremos un procedimiento similar a la aproximación del teorema de De Moivre-Laplace . Las contribuciones de los números pequeños son de orden subprincipal en y, por lo tanto, para los números grandes podemos utilizar la fórmula de Stirling para ambos y para obtener lo siguiente:
Sustituyendo por
Podemos aproximar para valores grandes la suma de los mediante una integral sobre los . Observando que:
llegamos a
Al expandir el logaritmo y tomar los términos principales en , obtenemos
El chi de Pearson, , es precisamente el argumento del exponente (excepto -1/2; note que el término final en el argumento del exponente es igual a ).
Este argumento se puede escribir como:
es una matriz simétrica regular y, por lo tanto, diagonalizable . Por lo tanto, es posible realizar un cambio lineal de variables en para obtener nuevas variables de manera que:
Este cambio lineal de variables simplemente multiplica la integral por un jacobiano constante , por lo que obtenemos:
Donde C es una constante.
Esta es la probabilidad de que la suma al cuadrado de variables independientes distribuidas normalmente con media cero y varianza unitaria sea mayor que T, es decir, que con grados de libertad sea mayor que T.
Hemos demostrado así que en el límite donde la distribución de chi de Pearson se aproxima a la distribución chi con grados de libertad.
Se lanza un dado de 6 caras 60 veces. El número de veces que cae con 1, 2, 3, 4, 5 y 6 boca arriba es 5, 8, 9, 8, 10 y 20, respectivamente. ¿El dado está sesgado, según la prueba de chi-cuadrado de Pearson con un nivel de significación del 95% y/o 99%?
La hipótesis nula es que el dado no tiene sesgo, por lo tanto, se espera que cada número aparezca la misma cantidad de veces, en este caso ,60/norte = 10. Los resultados se pueden tabular de la siguiente manera:
A continuación, consultamos una tabla de valores críticos de la distribución de chi-cuadrado de cola superior ; el valor tabular se refiere a la suma de las variables al cuadrado dividida por los resultados esperados. Para el presente ejemplo, esto significa
Éste es el resultado experimental cuya improbabilidad (con un dado justo) deseamos estimar.
La suma experimental de 13,4 se encuentra entre los valores críticos de 97,5% y 99% de significancia o confianza ( valor p ). En concreto, es poco probable que se obtengan 20 tiradas de 6, cuando la expectativa es de solo 10 de esos valores, con un dado justo.
Prueba de bondad de ajuste de chi-cuadrado
En este contexto, las frecuencias de las distribuciones teóricas y empíricas son recuentos no normalizados y, para una prueba de chi-cuadrado, los tamaños de muestra totales de ambas distribuciones (sumas de todas las celdas de las tablas de contingencia correspondientes ) tienen que ser los mismos.
Por ejemplo, para probar la hipótesis de que se ha extraído una muestra aleatoria de 100 personas de una población en la que los hombres y las mujeres tienen la misma frecuencia, se compararía el número observado de hombres y mujeres con las frecuencias teóricas de 50 hombres y 50 mujeres. Si hubiera 44 hombres en la muestra y 56 mujeres, entonces
Si la hipótesis nula es verdadera (es decir, se eligen hombres y mujeres con la misma probabilidad), la estadística de prueba se extraerá de una distribución de chi-cuadrado con un grado de libertad (porque si se conoce la frecuencia masculina, entonces se determina la frecuencia femenina).
La consulta de la distribución chi-cuadrado para 1 grado de libertad muestra que la probabilidad de observar esta diferencia (o una diferencia más extrema que ésta) si los hombres y las mujeres son igualmente numerosos en la población es de aproximadamente 0,23. Esta probabilidad es superior a los criterios convencionales de significación estadística (0,01 o 0,05), por lo que normalmente no rechazaríamos la hipótesis nula de que el número de hombres en la población es el mismo que el de mujeres (es decir, consideraríamos que nuestra muestra está dentro del rango de lo que esperaríamos para una proporción de hombres/mujeres de 50/50).
Problemas
La aproximación a la distribución de chi-cuadrado falla si las frecuencias esperadas son demasiado bajas. Normalmente será aceptable siempre que no más del 20% de los eventos tengan frecuencias esperadas inferiores a 5. Cuando solo hay 1 grado de libertad, la aproximación no es confiable si las frecuencias esperadas son inferiores a 10. En este caso, se puede obtener una mejor aproximación reduciendo el valor absoluto de cada diferencia entre las frecuencias observadas y esperadas en 0,5 antes de elevar al cuadrado; esto se llama corrección de Yates para la continuidad .
En los casos en que se encuentra que el valor esperado, E, es pequeño (lo que indica una pequeña probabilidad de población subyacente y/o un pequeño número de observaciones), la aproximación normal de la distribución multinomial puede fallar, y en tales casos se encuentra que es más apropiado utilizar la prueba G , una estadística de prueba basada en la razón de verosimilitud . Cuando el tamaño total de la muestra es pequeño, es necesario utilizar una prueba exacta apropiada, típicamente la prueba binomial o, para las tablas de contingencia , la prueba exacta de Fisher . Esta prueba utiliza la distribución condicional de la estadística de prueba dados los totales marginales y, por lo tanto, supone que los márgenes se determinaron antes del estudio; alternativas como la prueba de Boschloo que no hacen esta suposición son uniformemente más poderosas .
Se puede demostrar que la prueba es una aproximación de orden bajo de la prueba. [14] Las razones anteriores para los problemas mencionados se hacen evidentes cuando se investigan los términos de orden superior.
^ Pearson, Karl (1900). "Sobre el criterio de que un sistema dado de desviaciones de lo probable en el caso de un sistema correlacionado de variables es tal que puede suponerse razonablemente que ha surgido de un muestreo aleatorio". Philosophical Magazine . Serie 5. 50 (302): 157–175. doi :10.1080/14786440009463897.
^ Loukas, Orestis; Chung, Ho Ryun (2022). "Caracterización basada en entropía de restricciones de modelado". arXiv : 2206.14105 [stat.ME].
^ Loukas, Orestis; Chung, Ho Ryun (2023). "Empirismo total: aprender de los datos". arXiv : 2311.08315 [math.ST].
^ abc David E. Bock, Paul F. Velleman, Richard D. De Veaux (2007). "Estadísticas, modelando el mundo", págs. 606-627, Pearson Addison Wesley, Boston, ISBN 0-13-187621-X
^ "1.3.6.7.4. Valores críticos de la distribución de chi-cuadrado" . Consultado el 14 de octubre de 2014 .
^ "Valores críticos de la distribución de chi-cuadrado". Manual electrónico de métodos estadísticos del NIST/SEMATECH . Instituto Nacional de Normas y Tecnología.
^ McHugh, Mary (15 de junio de 2013). "La prueba de chi-cuadrado de independencia". Biochemia Medica . 23 (2): 143–149. doi :10.11613/BM.2013.018. PMC 3900058 . PMID 23894860.
^ Véase Field, Andy. Descubrimiento de estadísticas mediante SPSS .para suposiciones sobre Chi Cuadrado.
^ Cash, W. (1979). "Estimación de parámetros en astronomía mediante la aplicación de la razón de verosimilitud". The Astrophysical Journal . 228 : 939. Bibcode :1979ApJ...228..939C. doi : 10.1086/156922 . ISSN 0004-637X.
^ "La estadística de efectivo y el ajuste a futuro". hesperia.gsfc.nasa.gov . Consultado el 19 de octubre de 2021 .
^ "Una formulación bayesiana para el análisis exploratorio de datos y pruebas de bondad de ajuste" (PDF) . Revista estadística internacional. pág. 375.
^ Estadísticas para aplicaciones. MIT OpenCourseWare . Clase 23. Teorema de Pearson. Consultado el 21 de marzo de 2007.
^ Benhamou, Eric; Melot, Valentin (3 de septiembre de 2018). "Siete pruebas de la prueba de independencia de chi-cuadrado de Pearson y su interpretación gráfica". pág. 5-6. arXiv : 1808.09171 [math.ST].
^ Jaynes, ET (2003). Teoría de la probabilidad: la lógica de la ciencia. C. University Press. pág. 298. ISBN978-0-521-59271-0.( El enlace lleva a una edición fragmentaria de marzo de 1996. )
Referencias
Chernoff, H. ; Lehmann, EL (1954). "El uso de estimaciones de máxima verosimilitud en pruebas χ 2 {\displaystyle \chi ^{2}} para determinar la bondad del ajuste". Anales de estadística matemática . 25 (3): 579–586. doi : 10.1214/aoms/1177728726 .