stringtranslate.com

Prueba de chi-cuadrado de Pearson

La prueba de chi-cuadrado de Pearson o prueba de Pearson es una prueba estadística aplicada a conjuntos de datos categóricos para evaluar la probabilidad de que cualquier diferencia observada entre los conjuntos surja por casualidad. Es la más utilizada de muchas pruebas de chi-cuadrado (p. ej., Yates , índice de verosimilitud , prueba de acrónimo en series temporales , etc.): procedimientos estadísticos cuyos resultados se evalúan con referencia a la distribución de chi-cuadrado . Sus propiedades fueron investigadas por primera vez por Karl Pearson en 1900. [1] En contextos donde es importante mejorar la distinción entre el estadístico de prueba y su distribución, se utilizan nombres similares a prueba o estadístico de χ-cuadrado de Pearson .

Es una prueba de valor p . La configuración es la siguiente: [2] [3]

Un ejemplo sencillo es probar la hipótesis de que un dado ordinario de seis caras es "justo" (es decir, los seis resultados tienen la misma probabilidad de ocurrir). En este caso, el dato observado es , el número de veces que ha caído el dado sobre cada número. La hipótesis nula es , y . Como se detalla a continuación, si , entonces la equidad de los dados puede rechazarse en el nivel de .

Uso

La prueba de chi-cuadrado de Pearson se utiliza para evaluar tres tipos de comparación: bondad de ajuste , homogeneidad e independencia .

Para las tres pruebas, el procedimiento computacional incluye los siguientes pasos:

  1. Calcule el estadístico de prueba de chi-cuadrado , que se asemeja a una suma normalizada de desviaciones al cuadrado entre las frecuencias observadas y teóricas (ver más abajo).
  2. Determine los grados de libertad , df , de esa estadística.
    1. Para una prueba de bondad de ajuste, df = Cats − Parms , donde Cats es el número de categorías de observación reconocidas por el modelo y Parms es el número de parámetros del modelo ajustados para que el modelo se ajuste mejor a las observaciones: número de categorías reducido por el número de parámetros ajustados en la distribución.
    2. Para una prueba de homogeneidad, df = (Filas − 1)×(Cols − 1) , donde Filas corresponde al número de categorías (es decir, filas en la tabla de contingencia asociada) y Cols corresponde al número de grupos independientes (es decir, columnas en la tabla de contingencia asociada). [4]
    3. Para una prueba de independencia, df = (Filas − 1)×(Cols − 1) , donde en este caso, Filas corresponde al número de categorías en una variable y Cols corresponde al número de categorías en la segunda variable. [4]
  3. Seleccione el nivel de confianza deseado ( nivel de significancia , valor p o el nivel alfa correspondiente ) para el resultado de la prueba.
  4. Compare con el valor crítico de la distribución chi-cuadrado con gl grados de libertad y el nivel de confianza seleccionado (unilateral, ya que la prueba es solo en una dirección, es decir, ¿el valor de la prueba es mayor que el valor crítico?), que en En muchos casos da una buena aproximación de la distribución de .
  5. Sostenga o rechace la hipótesis nula de que la distribución de frecuencia observada es la misma que la distribución teórica en función de si el estadístico de prueba excede el valor crítico de . Si el estadístico de prueba excede el valor crítico de , se puede rechazar la hipótesis nula ( = no hay diferencia entre las distribuciones) y se puede aceptar la hipótesis alternativa ( = hay diferencia entre las distribuciones), ambas con el nivel seleccionado. de confianza. Si el estadístico de prueba cae por debajo del valor umbral , entonces no se puede llegar a una conclusión clara y la hipótesis nula se sostiene (no podemos rechazar la hipótesis nula), aunque no necesariamente se acepta.

Prueba de ajuste de una distribución.

Distribución uniforme discreta

En este caso las observaciones se dividen entre celdas. Una aplicación sencilla es probar la hipótesis de que, en la población general, los valores ocurrirían en cada celda con la misma frecuencia. La "frecuencia teórica" ​​para cualquier celda (bajo la hipótesis nula de una distribución uniforme discreta ) se calcula así como

y la reducción en los grados de libertad es , teóricamente, porque las frecuencias observadas están obligadas a sumar .

Un ejemplo específico de su aplicación sería su aplicación para la prueba de rango logarítmico.

Otras distribuciones

Al probar si las observaciones son variables aleatorias cuya distribución pertenece a una determinada familia de distribuciones, las "frecuencias teóricas" se calculan utilizando una distribución de esa familia ajustada de alguna manera estándar. La reducción de los grados de libertad se calcula como , donde es el número de parámetros utilizados para ajustar la distribución. Por ejemplo, al verificar una distribución gamma generalizada de tres parámetros , y al verificar una distribución normal (donde los parámetros son la media y la desviación estándar), y al verificar una distribución de Poisson (donde el parámetro es el valor esperado) . Así, habrá grados de libertad, donde está el número de categorías.

Los grados de libertad no se basan en el número de observaciones como ocurre con la distribución t o F de Student . Por ejemplo, si se prueba un dado justo de seis caras , habría cinco grados de libertad porque hay seis categorías o parámetros (cada número); el número de veces que se lanza el dado no influye en el número de grados de libertad.

Calcular la estadística de prueba

Distribución chi-cuadrado , que muestra X 2 en el eje x y el valor P en el eje y.

El valor del estadístico de prueba es

dónde

Luego, la estadística de chi-cuadrado se puede utilizar para calcular un valor p comparando el valor de la estadística con una distribución de chi-cuadrado . El número de grados de libertad es igual al número de celdas menos la reducción de grados de libertad .

El estadístico chi-cuadrado también se puede calcular como

Este resultado es consecuencia del teorema de Pitágoras.

El resultado sobre los números de grados de libertad es válido cuando los datos originales son multinomiales y, por tanto, los parámetros estimados son eficientes para minimizar el estadístico chi-cuadrado. Sin embargo, de manera más general, cuando la estimación de máxima verosimilitud no coincide con la estimación mínima de chi-cuadrado, la distribución se ubicará en algún lugar entre una distribución de chi-cuadrado con y grados de libertad (ver, por ejemplo, Chernoff y Lehmann, 1954).

La prueba de chi-cuadrado indica una asociación estadísticamente significativa entre el nivel de educación completado y la asistencia a controles de rutina (chi2(3) = 14,6090, p = 0,002). Las proporciones sugieren que a medida que aumenta el nivel de educación, también aumenta la proporción de personas que asisten a controles de rutina. En concreto, las personas que han terminado sus estudios universitarios acuden en mayor proporción a controles de rutina (31,52%) que aquellas que no han terminado la escuela secundaria (8,44%). Este hallazgo puede sugerir que un mayor nivel educativo se asocia con una mayor probabilidad de participar en conductas que promuevan la salud, como los chequeos de rutina.

método bayesiano

En estadística bayesiana , se usaría en cambio una distribución de Dirichlet como conjugado previo . Si se toma una estimación previa uniforme, entonces la estimación de máxima verosimilitud para la probabilidad poblacional es la probabilidad observada, y se puede calcular una región creíble alrededor de esta u otra estimación.

Pruebas de independencia estadística

En este caso, una "observación" consta de los valores de dos resultados y la hipótesis nula es que la ocurrencia de estos resultados es estadísticamente independiente . Cada observación se asigna a una celda de una matriz bidimensional de celdas (llamada tabla de contingencia ) de acuerdo con los valores de los dos resultados. Si hay r filas yc columnas en la tabla, la "frecuencia teórica" ​​para una celda, dada la hipótesis de independencia, es

donde es el tamaño total de la muestra (la suma de todas las celdas de la tabla) y

es la fracción de observaciones de tipo i ignorando el atributo de la columna (fracción de los totales de las filas), y

es la fracción de observaciones de tipo j ignorando el atributo de fila (fracción de totales de columna). El término " frecuencias " se refiere a números absolutos y no a valores ya normalizados.

El valor del estadístico de prueba es

Tenga en cuenta que es 0 si y sólo si , es decir, sólo si el número esperado y verdadero de observaciones son iguales en todas las celdas.

Ajustar el modelo de "independencia" reduce el número de grados de libertad en p  =  r  +  c  − 1. El número de grados de libertad es igual al número de celdas rc , menos la reducción en grados de libertad, p , que reduce a ( r  - 1)( c  - 1).

Para la prueba de independencia, también conocida como prueba de homogeneidad, los trabajadores aplicados comúnmente interpretan una probabilidad de chi-cuadrado menor o igual a 0,05 (o que la estadística de chi-cuadrado sea igual o mayor que el punto crítico de 0,05) como justificación para rechazar la hipótesis nula de que la variable de fila es independiente de la variable de columna. [6] La hipótesis alternativa corresponde a las variables que tienen una asociación o relación donde no se especifica la estructura de esta relación.

Suposiciones

La prueba de chi-cuadrado, cuando se utiliza con la aproximación estándar de que es aplicable una distribución de chi-cuadrado, tiene los siguientes supuestos: [7]

muestra aleatoria simple
Los datos de muestra son un muestreo aleatorio de una distribución o población fija donde cada conjunto de miembros de la población del tamaño de muestra dado tiene la misma probabilidad de selección. Se han desarrollado variantes de la prueba para muestras complejas, como aquellas en las que se ponderan los datos. Se pueden utilizar otras formas, como el muestreo intencional . [8]
Tamaño de la muestra (tabla completa)
Se supone una muestra con un tamaño suficientemente grande. Si se realiza una prueba de chi cuadrado en una muestra con un tamaño más pequeño, entonces la prueba de chi cuadrado producirá una inferencia inexacta. El investigador, al utilizar la prueba de chi cuadrado en muestras pequeñas, podría terminar cometiendo un error de tipo II . Para tamaños de muestra pequeños se prefiere la prueba de Cash. [9] [10]
Recuento de células esperado
Recuentos celulares esperados adecuados. Algunos requieren 5 o más y otros requieren 10 o más. Una regla común es 5 o más en todas las celdas de una tabla de 2 por 2, y 5 o más en el 80% de las celdas de tablas más grandes, pero ninguna celda con un recuento esperado cero. Cuando no se cumple este supuesto, se aplica la corrección de Yates .
Independencia
Siempre se supone que las observaciones son independientes entre sí. Esto significa que el chi-cuadrado no se puede utilizar para probar datos correlacionados (como pares coincidentes o datos de panel). En esos casos, la prueba de McNemar puede ser más apropiada.

Una prueba que se basa en diferentes supuestos es la prueba exacta de Fisher ; si se cumple su supuesto de distribuciones marginales fijas, es sustancialmente más preciso obtener un nivel de significancia, especialmente con pocas observaciones. En la gran mayoría de aplicaciones esta suposición no se cumplirá y la prueba exacta de Fisher será demasiado conservadora y no tendrá una cobertura correcta. [11]

Derivación

Derivación utilizando el teorema del límite central

La distribución nula del estadístico de Pearson con j filas y k columnas se aproxima mediante la distribución chi-cuadrado con ( k  − 1)( j  − 1) grados de libertad. [12]

Esta aproximación surge como la distribución verdadera, bajo la hipótesis nula, si el valor esperado viene dado por una distribución multinomial . Para tamaños de muestra grandes, el teorema del límite central dice que esta distribución tiende hacia una cierta distribución normal multivariada .

dos celdas

En el caso especial en el que solo hay dos celdas en la tabla, los valores esperados siguen una distribución binomial .

dónde

p = probabilidad, bajo la hipótesis nula,
n = número de observaciones en la muestra.

En el ejemplo anterior, la probabilidad hipotética de una observación masculina es 0,5, con 100 muestras. Así esperamos observar 50 machos.

Si n es suficientemente grande, la distribución binomial anterior puede aproximarse mediante una distribución gaussiana (normal) y, por lo tanto, el estadístico de prueba de Pearson se aproxima a una distribución chi-cuadrado,

Sea O 1 el número de observaciones de la muestra que están en la primera celda. El estadístico de la prueba de Pearson se puede expresar como

que a su vez puede expresarse como

Por la aproximación normal a un binomio, este es el cuadrado de una variable normal estándar y, por lo tanto, se distribuye como chi-cuadrado con 1 grado de libertad. Tenga en cuenta que el denominador es una desviación estándar de la aproximación gaussiana, por lo que se puede escribir

Entonces, de manera consistente con el significado de la distribución chi-cuadrado, estamos midiendo qué tan probable es el número observado de desviaciones estándar alejadas de la media bajo la aproximación gaussiana (que es una buena aproximación para n grande ).

Luego, la distribución chi-cuadrado se integra a la derecha del valor estadístico para obtener el valor P , que es igual a la probabilidad de obtener un estadístico igual o mayor que el observado, asumiendo la hipótesis nula.

Tablas de contingencia de dos por dos

Cuando la prueba se aplica a una tabla de contingencia que contiene dos filas y dos columnas, la prueba equivale a una prueba Z de proporciones. [ cita necesaria ]

Muchas células

Argumentos ampliamente similares a los anteriores conducen al resultado deseado, aunque los detalles son más complicados. Se puede aplicar un cambio ortogonal de variables para convertir los sumandos limitantes del estadístico de prueba en un cuadrado menos de variables aleatorias normales estándar iid. [13]

Demostremos ahora que la distribución efectivamente se acerca asintóticamente a la distribución cuando el número de observaciones se acerca al infinito.

Sea el número de observaciones, el número de celdas y la probabilidad de que una observación caiga en la i-ésima celda, para . Denotamos por la configuración donde para cada i hay observaciones en la i-ésima celda. Tenga en cuenta que

Sea el estadístico de prueba acumulativo de Pearson para tal configuración y sea la distribución de este estadístico. Demostraremos que esta última probabilidad se aproxima a la distribución con grados de libertad, como

Para cualquier valor arbitrario T:

Usaremos un procedimiento similar a la aproximación del teorema de Moivre-Laplace . Las contribuciones de las pequeñas son de orden sublime y, por lo tanto, para las grandes podemos usar la fórmula de Stirling para ambas y para obtener lo siguiente:

Al sustituir por

podemos aproximar en grandes cantidades la suma de mediante una integral sobre . Señalando que:

llegamos a

Desarrollando el logaritmo y tomando los términos principales en , obtenemos

El chi de Pearson, , es precisamente el argumento del exponente (excepto -1/2; tenga en cuenta que el término final en el argumento del exponente es igual a ).

Este argumento se puede escribir como:

es una matriz simétrica regular y, por tanto, diagonalizable . Por tanto, es posible realizar un cambio lineal de variables para obtener nuevas variables de modo que:

Este cambio lineal de variables simplemente multiplica la integral por un jacobiano constante , por lo que obtenemos:

Donde C es una constante.

Esta es la probabilidad de que la suma al cuadrado de variables independientes distribuidas normalmente de media cero y varianza unitaria sea mayor que T, es decir, que con grados de libertad sea mayor que T.

Así hemos demostrado que en el límite donde la distribución del chi de Pearson se aproxima a la distribución del chi con grados de libertad.

Una derivación alternativa se encuentra en la página de distribución multinomial .

Ejemplos

Equidad de los dados

Se lanza un dado de 6 caras 60 veces. El número de veces que cae con 1, 2, 3, 4, 5 y 6 boca arriba es 5, 8, 9, 8, 10 y 20, respectivamente. ¿El dado está sesgado, según la prueba chi-cuadrado de Pearson a un nivel de significancia del 95% y/o 99%?

La hipótesis nula es que el dado es insesgado, por lo tanto se espera que cada número ocurra el mismo número de veces; en este caso,60/norte= 10. Los resultados se pueden tabular de la siguiente manera:

Luego consultamos una tabla de valores críticos de distribución de chi-cuadrado de cola superior , el valor tabular se refiere a la suma de las variables al cuadrado, cada una dividida por los resultados esperados. Para el presente ejemplo, esto significa

Éste es el resultado experimental cuya improbabilidad (con un dado justo) deseamos estimar.

La suma experimental de 13,4 está entre los valores críticos de 97,5% y 99% de significancia o confianza ( valor p ). Específicamente, obtener 20 tiradas de 6, cuando la expectativa es solo 10 de esos valores, es poco probable con un dado justo.

Prueba de bondad de ajuste de chi-cuadrado

En este contexto, las frecuencias de las distribuciones teóricas y empíricas son recuentos no normalizados y, para una prueba de chi-cuadrado, los tamaños de muestra totales de ambas distribuciones (sumas de todas las celdas de las tablas de contingencia correspondientes ) deben ser los mismos.

Por ejemplo, para probar la hipótesis de que se ha extraído una muestra aleatoria de 100 personas de una población en la que hombres y mujeres tienen la misma frecuencia, el número observado de hombres y mujeres se compararía con las frecuencias teóricas de 50 hombres y 50 mujeres. . Si había 44 hombres en la muestra y 56 mujeres, entonces

Si la hipótesis nula es verdadera (es decir, hombres y mujeres son elegidos con igual probabilidad), el estadístico de prueba se extraerá de una distribución chi-cuadrado con un grado de libertad (porque si se conoce la frecuencia masculina, entonces la frecuencia femenina es determinado).

La consulta de la distribución chi-cuadrado para 1 grado de libertad muestra que la probabilidad de observar esta diferencia (o una diferencia más extrema) si hombres y mujeres son igualmente numerosos en la población es aproximadamente 0,23. Esta probabilidad es mayor que los criterios convencionales de significación estadística (0,01 o 0,05), por lo que normalmente no rechazaríamos la hipótesis nula de que el número de hombres en la población es el mismo que el número de mujeres (es decir, consideraríamos nuestra muestra dentro de el rango de lo que esperaríamos para una proporción de 50/50 hombres/mujeres).

Problemas

La aproximación a la distribución chi-cuadrado falla si las frecuencias esperadas son demasiado bajas. Normalmente será aceptable siempre que no más del 20% de los eventos tengan frecuencias esperadas inferiores a 5. Cuando hay sólo 1 grado de libertad, la aproximación no es fiable si las frecuencias esperadas son inferiores a 10. En este caso, se recomienda una mejor aproximación. se puede obtener reduciendo el valor absoluto de cada diferencia entre las frecuencias observadas y esperadas en 0,5 antes de elevar al cuadrado; esto se llama corrección de continuidad de Yates .

En los casos en los que se determina que el valor esperado, E, es pequeño (lo que indica una probabilidad poblacional subyacente pequeña y/o un número pequeño de observaciones), la aproximación normal de la distribución multinomial puede fallar y, en tales casos, se encuentra que Sería más apropiado utilizar la prueba G , una estadística de prueba basada en el índice de verosimilitud . Cuando el tamaño total de la muestra es pequeño, es necesario utilizar una prueba exacta apropiada, generalmente la prueba binomial o, para tablas de contingencia , la prueba exacta de Fisher . Esta prueba utiliza la distribución condicional del estadístico de prueba dados los totales marginales y, por lo tanto, supone que los márgenes se determinaron antes del estudio; alternativas como la prueba de Boschloo que no parten de este supuesto son uniformemente más poderosas .

Se puede demostrar que la prueba es una aproximación de orden bajo de la prueba. [14] Las razones anteriores para las cuestiones anteriores se vuelven evidentes cuando se investigan los términos de orden superior.

Ver también

Notas

  1. ^ Pearson, Karl (1900). "Sobre el criterio de que un sistema dado de desviaciones de lo probable en el caso de un sistema correlacionado de variables es tal que puede suponerse razonablemente que ha surgido de un muestreo aleatorio". Revista Filosófica . Serie 5. 50 (302): 157–175. doi :10.1080/14786440009463897.
  2. ^ Loukás, Orestis; Chung, Ho Ryun (2022). "Caracterización de restricciones de modelado basada en entropía". arXiv : 2206.14105 [estad.ME].
  3. ^ Loukás, Orestis; Chung, Ho Ryun (2023). "Empirismo total: aprender de los datos". arXiv : 2311.08315 [matemáticas.ST].
  4. ^ a b C David E. Bock, Paul F. Velleman, Richard D. De Veaux (2007). "Estadísticas, modelado del mundo", págs. 606-627, Pearson Addison Wesley, Boston, ISBN 0-13-187621-X 
  5. ^ "1.3.6.7.4. Valores críticos de la distribución chi-cuadrado" . Consultado el 14 de octubre de 2014 .
  6. ^ "Valores críticos de la distribución chi-cuadrado". Manual electrónico de métodos estadísticos de NIST/SEMATECH . Instituto Nacional de Estándares y Tecnología.
  7. ^ McHugh, Mary (15 de junio de 2013). "La prueba de independencia chi-cuadrado". Bioquímica Médica . 23 (2): 143-149. doi :10.11613/BM.2013.018. PMC 3900058 . PMID  23894860. 
  8. ^ Ver campo, Andy. Descubriendo estadísticas utilizando SPSS .para supuestos sobre Chi Cuadrado.
  9. ^ Efectivo, W. (1979). "Estimación de parámetros en astronomía mediante la aplicación del índice de verosimilitud". La revista astrofísica . 228 : 939. Código bibliográfico : 1979ApJ...228..939C. doi : 10.1086/156922 . ISSN  0004-637X.
  10. ^ "La estadística de efectivo y el ajuste futuro". hesperia.gsfc.nasa.gov . Consultado el 19 de octubre de 2021 .
  11. ^ "Una formulación bayesiana para análisis de datos exploratorios y pruebas de bondad de ajuste" (PDF) . Revisión estadística internacional. pag. 375.
  12. ^ Estadísticas para aplicaciones. MIT OpenCourseWare . Tema 23. Teorema de Pearson. Consultado el 21 de marzo de 2007.
  13. ^ Benhamou, Eric; Melot, Valentín (2018). "Siete pruebas de la prueba de independencia de chi-cuadrado de Pearson y su interpretación gráfica". SSRN (preimpresión): 5-6. arXiv : 1808.09171 . doi :10.2139/ssrn.3239829. S2CID  88524653. SSRN  3239829. {{cite journal}}: Citar diario requiere |journal=( ayuda )
  14. ^ Jaynes, et (2003). Teoría de la probabilidad: la lógica de la ciencia. C. Prensa Universitaria. pag. 298.ISBN _ 978-0-521-59271-0.( El enlace es a una edición fragmentaria de marzo de 1996 ).

Referencias