stringtranslate.com

Distribución chi-cuadrado

En teoría de probabilidad y estadística , la distribución chi-cuadrado (también chi-cuadrado o -distribución ) con grados de libertad es la distribución de una suma de los cuadrados de variables aleatorias normales estándar independientes . La distribución chi-cuadrado es un caso especial de la distribución gamma y es una de las distribuciones de probabilidad más utilizadas en estadística inferencial , especialmente en pruebas de hipótesis y en la construcción de intervalos de confianza . [2] [3] [4] [5] Esta distribución a veces se denomina distribución chi-cuadrado central , un caso especial de la distribución chi-cuadrado no central más general .

La distribución chi-cuadrado se utiliza en las pruebas comunes de chi-cuadrado para determinar la bondad del ajuste de una distribución observada a una teórica, la independencia de dos criterios de clasificación de datos cualitativos y para encontrar el intervalo de confianza para estimar la desviación estándar de la población. de una distribución normal a partir de una desviación estándar muestral. Muchas otras pruebas estadísticas también utilizan esta distribución, como el análisis de varianza por rangos de Friedman .

Definiciones

Si Z 1 , ..., Z k son variables aleatorias normales estándar e independientes , entonces la suma de sus cuadrados,

se distribuye según la distribución chi-cuadrado con k grados de libertad. Esto generalmente se denota como

La distribución chi-cuadrado tiene un parámetro: un entero positivo k que especifica el número de grados de libertad (el número de variables aleatorias que se suman, Z i s).

Introducción

La distribución chi-cuadrado se utiliza principalmente en pruebas de hipótesis y, en menor medida, para intervalos de confianza de la varianza poblacional cuando la distribución subyacente es normal. A diferencia de distribuciones más conocidas, como la distribución normal y la distribución exponencial , la distribución chi-cuadrado no se aplica con tanta frecuencia en el modelado directo de fenómenos naturales. Surge en las siguientes pruebas de hipótesis, entre otras:

También es un componente de la definición de la distribución t y la distribución F utilizadas en las pruebas t , el análisis de varianza y el análisis de regresión.

La razón principal por la que la distribución chi-cuadrado se utiliza ampliamente en las pruebas de hipótesis es su relación con la distribución normal. Muchas pruebas de hipótesis utilizan un estadístico de prueba, como el estadístico t en una prueba t . Para estas pruebas de hipótesis, a medida que aumenta el tamaño de la muestra, n , la distribución muestral del estadístico de prueba se acerca a la distribución normal ( teorema del límite central ). Debido a que el estadístico de prueba (como t ) tiene una distribución normal asintótica, siempre que el tamaño de la muestra sea lo suficientemente grande, la distribución utilizada para la prueba de hipótesis puede aproximarse mediante una distribución normal. Probar hipótesis utilizando una distribución normal se entiende bien y es relativamente fácil. La distribución chi-cuadrado más simple es el cuadrado de una distribución normal estándar. Entonces, siempre que se pueda usar una distribución normal para una prueba de hipótesis, se podría usar una distribución chi-cuadrado.

Supongamos que es una variable aleatoria muestreada de la distribución normal estándar, donde la media es y la varianza es : . Ahora, considere la variable aleatoria . La distribución de la variable aleatoria es un ejemplo de distribución chi-cuadrado: . El subíndice 1 indica que esta distribución chi-cuadrado particular se construye a partir de una sola distribución normal estándar. Se dice que una distribución chi-cuadrado construida elevando al cuadrado una distribución normal estándar única tiene 1 grado de libertad. Por tanto, a medida que aumenta el tamaño de la muestra para una prueba de hipótesis, la distribución del estadístico de prueba se acerca a una distribución normal. Así como los valores extremos de la distribución normal tienen baja probabilidad (y dan valores p pequeños), los valores extremos de la distribución chi-cuadrado tienen baja probabilidad.

Una razón adicional por la que la distribución chi-cuadrado se usa ampliamente es que aparece como la distribución de muestra grande de las pruebas de razón de verosimilitud generalizada (LRT). [6] Los LRT tienen varias propiedades deseables; en particular, los LRT simples comúnmente proporcionan el mayor poder para rechazar la hipótesis nula ( lema de Neyman-Pearson ) y esto conduce también a propiedades de optimización de los LRT generalizados. Sin embargo, las aproximaciones normal y chi-cuadrado sólo son válidas asintóticamente. Por esta razón, es preferible utilizar la distribución t en lugar de la aproximación normal o la aproximación chi-cuadrado para un tamaño de muestra pequeño. De manera similar, en análisis de tablas de contingencia, la aproximación de chi-cuadrado será pobre para un tamaño de muestra pequeño, y es preferible utilizar la prueba exacta de Fisher . Ramsey muestra que la prueba binomial exacta es siempre más poderosa que la aproximación normal. [7]

Lancaster muestra las conexiones entre las distribuciones binomial, normal y chi-cuadrado de la siguiente manera. [8] De Moivre y Laplace establecieron que una distribución binomial podía aproximarse mediante una distribución normal. Específicamente mostraron la normalidad asintótica de la variable aleatoria.

donde es el número observado de éxitos en las pruebas, donde la probabilidad de éxito es y .

Al elevar al cuadrado ambos lados de la ecuación se obtiene

Usando , y , esta ecuación se puede reescribir como

La expresión de la derecha tiene la forma que Karl Pearson generalizaría a la forma

dónde

= estadístico de prueba acumulativo de Pearson, que se aproxima asintóticamente a una distribución; = el número de observaciones de tipo ; = la frecuencia esperada (teórica) de tipo , afirmada por la hipótesis nula de que la fracción de tipo en la población es ; y = el número de celdas de la tabla. [ cita necesaria ]

En el caso de un resultado binomial (lanzar una moneda al aire), la distribución binomial puede aproximarse mediante una distribución normal (para valores suficientemente grandes ). Debido a que el cuadrado de una distribución normal estándar es la distribución chi-cuadrado con un grado de libertad, la probabilidad de un resultado como 1 cara en 10 intentos se puede aproximar ya sea usando la distribución normal directamente o la distribución chi-cuadrado para la diferencia normalizada al cuadrado entre el valor observado y el esperado. Sin embargo, muchos problemas involucran más de los dos resultados posibles de un binomio y, en cambio, requieren 3 o más categorías, lo que conduce a la distribución multinomial. Así como de Moivre y Laplace buscaron y encontraron la aproximación normal a la distribución binomial, Pearson buscó y encontró una aproximación normal multivariada degenerada a la distribución multinomial (los números en cada categoría suman el tamaño total de la muestra, que se considera fijo) . Pearson demostró que la distribución chi-cuadrado surgió de una aproximación normal multivariada a la distribución multinomial, teniendo en cuenta cuidadosamente la dependencia estadística (correlaciones negativas) entre el número de observaciones en diferentes categorías. [8]

Función de densidad de probabilidad

La función de densidad de probabilidad (pdf) de la distribución chi-cuadrado es

donde denota la función gamma , que tiene valores de forma cerrada para el número entero .

Para obtener derivaciones de la función de densidad de probabilidad en los casos de uno, dos y grados de libertad, consulte Pruebas relacionadas con la distribución chi-cuadrado .

Función de distribución acumulativa

Chernoff con destino a la CDF y cola (1-CDF) de una variable aleatoria chi-cuadrado con diez grados de libertad ( )

Su función de distribución acumulativa es:

donde es la función gamma incompleta inferior y es la función gamma regularizada .

En un caso especial esta función tiene la forma simple:

que se puede derivar fácilmente integrando directamente. La recurrencia de números enteros de la función gamma facilita el cálculo de otros valores pequeños, incluso .

Las tablas de la función de distribución acumulativa chi-cuadrado están ampliamente disponibles y la función está incluida en muchas hojas de cálculo y en todos los paquetes estadísticos .

Dejemos que se puedan obtener los límites de Chernoff en las colas superior e inferior del CDF. [9] Para los casos en los que (que incluyen todos los casos en los que este CDF es inferior a la mitad):

La cola con destino a los casos en que , de manera similar, es

Para obtener otra aproximación de la CDF modelada a partir del cubo de un gaussiano, consulte Distribución chi-cuadrado no central .

Propiedades

teorema de cochran

Si son variables aleatorias normales estándar independientes distribuidas idénticamente (iid), entonces donde

Una prueba directa y elemental es la siguiente: Sea un vector de variables aleatorias independientes distribuidas normalmente y su promedio. Entonces, ¿dónde está la matriz identidad y el vector de todos los unos? tiene un vector propio con valor propio y vectores propios (todos ortogonales a ) con valor propio , que se pueden elegir para que sea una matriz ortogonal. Dado que también tenemos lo que prueba el reclamo.

Aditividad

De la definición de la distribución chi-cuadrado se deduce que la suma de las variables independientes chi-cuadrado también tiene una distribución chi-cuadrado. Específicamente, si son variables chi-cuadrado independientes con , grados de libertad, respectivamente, entonces se distribuye chi-cuadrado con grados de libertad.

Muestra promedio

La media muestral de las variables de grado iid chi-cuadrado se distribuye según una distribución gamma con parámetros de forma y escala :

Asintóticamente, dado que para un parámetro de escala que va al infinito, una distribución Gamma converge hacia una distribución normal con expectativa y varianza , la media muestral converge hacia:

Tenga en cuenta que habríamos obtenido el mismo resultado invocando en su lugar el teorema del límite central , observando que para cada variable chi-cuadrado de grado la expectativa es , y su varianza (y por lo tanto la varianza de la media muestral es ).

entropía

La entropía diferencial está dada por

¿Dónde está la función Digamma ?

La distribución chi-cuadrado es la distribución de probabilidad de máxima entropía para una variable aleatoria para la cual y son fijos. Dado que chi-cuadrado pertenece a la familia de distribuciones gamma, esto se puede derivar sustituyendo valores apropiados en la Expectativa del momento logarítmico de gamma . Para obtener una derivación de principios más básicos, consulte la derivación en función generadora de momento de la estadística suficiente .

Momentos no centrales

Los momentos con respecto al cero de una distribución chi-cuadrado con grados de libertad vienen dados por [10] [11]

Acumulantes

Los cumulantes se obtienen fácilmente mediante una expansión en serie de potencias del logaritmo de la función característica:

Concentración

La distribución chi-cuadrado muestra una fuerte concentración alrededor de su media. Los límites estándar de Laurent-Massart [12] son:

Una consecuencia es que, si es un vector aleatorio gaussiano en , entonces a medida que la dimensión crece, la longitud al cuadrado del vector se concentra estrechamente alrededor con un ancho :

Propiedades asintóticas

Fórmula aproximada para la mediana (de la transformación de Wilson-Hilferty) en comparación con el cuantil numérico (arriba); y diferencia ( azul ) y diferencia relativa ( rojo ) entre el cuantil numérico y la fórmula aproximada (abajo). Para la distribución chi-cuadrado, sólo los números enteros positivos de grados de libertad (círculos) son significativos.

Según el teorema del límite central , debido a que la distribución chi-cuadrado es la suma de variables aleatorias independientes con media y varianza finitas, converge a una distribución normal para grandes . Para muchos propósitos prácticos, la distribución es lo suficientemente cercana a una distribución normal , por lo que la diferencia es ignorable. [13] Específicamente, si , entonces cuando tiende al infinito, la distribución de tiende a una distribución normal estándar. Sin embargo, la convergencia es lenta a medida que lo es la asimetría y el exceso de curtosis .

La distribución muestral de converge a la normalidad mucho más rápido que la distribución muestral de , [14] ya que la transformada logarítmica elimina gran parte de la asimetría. [15]

Otras funciones de la distribución chi-cuadrado convergen más rápidamente a una distribución normal. Algunos ejemplos son:


Distribuciones relacionadas

  • Como caso especial, si entonces tiene la distribución chi-cuadrado

Una variable chi-cuadrado con grados de libertad se define como la suma de los cuadrados de variables aleatorias normales estándar independientes .

Si es un vector aleatorio gaussiano de dimensión con vector medio y matriz de covarianza de rango , entonces está distribuido chi-cuadrado con grados de libertad.

La suma de cuadrados de variables gaussianas de varianza unitaria estadísticamente independientes que no tienen media cero produce una generalización de la distribución chi-cuadrado llamada distribución chi-cuadrado no central .

Si es un vector de variables aleatorias normales estándar iid y es una matriz idempotente simétrica con rango , entonces la forma cuadrática es chi-cuadrado distribuida con grados de libertad.

Si es una matriz de covarianza semidefinida positiva con entradas diagonales estrictamente positivas, entonces para y un vector aleatorio independiente de tal que y entonces

[15]

La distribución chi-cuadrado también está naturalmente relacionada con otras distribuciones derivadas de la gaussiana. En particular,

Generalizaciones

La distribución chi-cuadrado se obtiene como la suma de los cuadrados de k variables aleatorias gaussianas independientes, de media cero y de varianza unitaria. Se pueden obtener generalizaciones de esta distribución sumando los cuadrados de otros tipos de variables aleatorias gaussianas. A continuación se describen varias de estas distribuciones.

Combinación lineal

Si son variables aleatorias de chi cuadrado y , entonces la distribución de es un caso especial de distribución de chi cuadrado generalizada . No se conoce una expresión cerrada para esta distribución. Sin embargo, se puede aproximar de manera eficiente utilizando la propiedad de las funciones características de las variables aleatorias chi-cuadrado. [18]

Distribuciones de chi-cuadrado

Distribución chi-cuadrado no central

La distribución chi-cuadrado no central se obtiene de la suma de los cuadrados de variables aleatorias gaussianas independientes que tienen varianza unitaria y medias distintas de cero .

Distribución chi-cuadrado generalizada

La distribución chi-cuadrado generalizada se obtiene a partir de la forma cuadrática z'Az donde z es un vector gaussiano de media cero que tiene una matriz de covarianza arbitraria y A es una matriz arbitraria.

Distribuciones gamma, exponencial y relacionadas

La distribución chi-cuadrado es un caso especial de la distribución gamma , ya que utiliza la parametrización de velocidad de la distribución gamma (o utiliza la parametrización de escala de la distribución gamma) donde k es un número entero.

Debido a que la distribución exponencial también es un caso especial de la distribución gamma, también tenemos que si , entonces es una distribución exponencial .

La distribución de Erlang también es un caso especial de la distribución gamma y, por lo tanto, también tenemos que si es par , entonces Erlang se distribuye con el parámetro de forma y el parámetro de escala .

Ocurrencia y aplicaciones

La distribución chi-cuadrado tiene numerosas aplicaciones en estadística inferencial , por ejemplo en pruebas de chi-cuadrado y en la estimación de varianzas . Entra en el problema de estimar la media de una población distribuida normalmente y en el problema de estimar la pendiente de una recta de regresión a través de su papel en la distribución t de Student . Entra en todos los análisis de problemas de varianza a través de su papel en la distribución F , que es la distribución de la proporción de dos variables aleatorias chi-cuadrado independientes , cada una dividida por sus respectivos grados de libertad.

A continuación se presentan algunas de las situaciones más comunes en las que la distribución chi-cuadrado surge de una muestra con distribución gaussiana.

La distribución chi-cuadrado también se encuentra a menudo en la resonancia magnética . [19]

Métodos computacionales

Tabla de valores de χ 2 frente a valores de p

El valor - es la probabilidad de observar un estadístico de prueba al menos tan extremo en una distribución chi-cuadrado. En consecuencia, dado que la función de distribución acumulativa (CDF) para los grados de libertad (gl) apropiados da la probabilidad de haber obtenido un valor menos extremo que este punto, restar el valor CDF de 1 da el valor p . Un valor p bajo , por debajo del nivel de significancia elegido, indica significancia estadística , es decir, evidencia suficiente para rechazar la hipótesis nula. A menudo se utiliza un nivel de significancia de 0,05 como límite entre resultados significativos y no significativos.

La siguiente tabla proporciona una cantidad de valores p que coinciden con los primeros 10 grados de libertad.

Estos valores se pueden calcular evaluando la función cuantil (también conocida como "CDF inversa" o "ICDF") de la distribución chi-cuadrado; [21] por ejemplo, el ICDF χ 2 para p = 0,05 y df = 7 produce 2,1673 ≈ 2,17 como en la tabla anterior, observando que 1 – p es el valor p de la tabla.

Historia

Esta distribución fue descrita por primera vez por el geodesta y estadístico alemán Friedrich Robert Helmert en artículos de 1875-6, [22] [23] donde calculó la distribución muestral de la varianza muestral de una población normal. Así, en alemán esto se conocía tradicionalmente como Helmert'sche ("helmertiano") o "distribución Helmert".

La distribución fue redescubierta de forma independiente por el matemático inglés Karl Pearson en el contexto de la bondad de ajuste , para lo cual desarrolló su prueba chi-cuadrado de Pearson , publicada en 1900, con una tabla de valores calculada publicada en (Elderton 1902), recopilada en (Pearson 1914, págs. xxxi-xxxiii, 26-28, cuadro XII). El nombre "chi-cuadrado" deriva en última instancia de la abreviatura de Pearson para el exponente en una distribución normal multivariada con la letra griega Chi , escribiendo −½χ 2 para lo que aparecería en notación moderna como −½ x T Σ −1 x (siendo Σ el Matriz de covarianza ). [24] La idea de una familia de "distribuciones chi-cuadrado", sin embargo, no se debe a Pearson sino que surgió como un desarrollo posterior debido a Fisher en la década de 1920. [22]

Ver también

Referencias

  1. ^ MA Lijadoras. "Función característica de la distribución central chi-cuadrado" (PDF) . Archivado desde el original (PDF) el 15 de julio de 2011 . Consultado el 6 de marzo de 2009 .
  2. ^ Abramowitz, Milton ; Stegun, Irene Ann , eds. (1983) [junio de 1964]. "Capítulo 26". Manual de funciones matemáticas con fórmulas, gráficas y tablas matemáticas . Serie de Matemáticas Aplicadas. vol. 55 (Novena reimpresión con correcciones adicionales de la décima impresión original con correcciones (diciembre de 1972); primera ed.). Washington DC; Nueva York: Departamento de Comercio de los Estados Unidos, Oficina Nacional de Normas; Publicaciones de Dover. pag. 940.ISBN _ 978-0-486-61272-0. LCCN  64-60036. SEÑOR  0167642. LCCN  65-12253.
  3. ^ NIST (2006). Manual de estadísticas de ingeniería: distribución de chi cuadrado
  4. ^ abc Johnson, Países Bajos; Kotz, S.; Balakrishnan, N. (1994). "Distribuciones de Chi-Cuadrado, incluidos Chi y Rayleigh". Distribuciones univariadas continuas . vol. 1 (Segunda ed.). John Wiley e hijos. págs. 415–493. ISBN 978-0-471-58495-7.
  5. ^ Estado de ánimo, Alejandro; Graybill, Franklin A.; Boes, Duane C. (1974). Introducción a la Teoría de la Estadística (Tercera ed.). McGraw-Hill. págs. 241–246. ISBN 978-0-07-042864-5.
  6. ^ Páramos de Poniente, Peter H. (2013). Comprensión de los métodos estadísticos avanzados . Boca Ratón, FL: CRC Press. ISBN 978-1-4665-1210-8.
  7. ^ Ramsey, PH (1988). "Evaluación de la aproximación normal a la prueba binomial". Revista de Estadísticas Educativas . 13 (2): 173–82. doi :10.2307/1164752. JSTOR  1164752.
  8. ^ ab Lancaster, HO (1969), La distribución de chi-cuadrado , Wiley
  9. ^ Dasgupta, Sanjoy DA; Gupta, Anupam K. (enero de 2003). "Una prueba elemental de un teorema de Johnson y Lindenstrauss" (PDF) . Estructuras aleatorias y algoritmos . 22 (1): 60–65. doi :10.1002/rsa.10073. S2CID  10327785 . Consultado el 1 de mayo de 2012 .
  10. ^ Distribución de chi-cuadrado, de MathWorld , consultado el 11 de febrero de 2009
  11. ^ MK Simon, Distribuciones de probabilidad que involucran variables aleatorias gaussianas , Nueva York: Springer, 2002, eq. (2.35), ISBN 978-0-387-34657-1 
  12. ^ Laurent, B.; Massart, P. (1 de octubre de 2000). "Estimación adaptativa de un funcional cuadrático mediante selección de modelo". Los anales de la estadística . 28 (5). doi : 10.1214/aos/1015957395 . ISSN  0090-5364. S2CID  116945590.
  13. ^ Caja, Cazador y Cazador (1978). Estadísticas para experimentadores . Wiley. pag. 118.ISBN _ 978-0-471-09315-2.
  14. ^ Bartlett, MS; Kendall, DG (1946). "El análisis estadístico de la varianza-heterogeneidad y la transformación logarítmica". Suplemento de la Revista de la Royal Statistical Society . 8 (1): 128-138. doi :10.2307/2983618. JSTOR  2983618.
  15. ^ ab Pillai, Natesh S. (2016). "Un encuentro inesperado con Cauchy y Lévy". Anales de Estadística . 44 (5): 2089–2097. arXiv : 1505.01957 . doi :10.1214/15-aos1407. S2CID  31582370.
  16. ^ Wilson, EB; Hilferty, MM (1931). "La distribución de chi-cuadrado". Proc. Nacional. Acad. Ciencia. EE.UU . 17 (12): 684–688. Código bibliográfico : 1931PNAS...17..684W. doi : 10.1073/pnas.17.12.684 . PMC 1076144 . PMID  16577411. 
  17. ^ Bäckström, T.; Fischer, J. (enero de 2018). "Aleatorización rápida para codificación distribuida de voz y audio con baja velocidad de bits". Transacciones IEEE/ACM sobre procesamiento de audio, voz y lenguaje . 26 (1): 19–30. doi :10.1109/TASLP.2017.2757601. S2CID  19777585.
  18. ^ Bausch, J. (2013). "Sobre el cálculo eficiente de una combinación lineal de variables aleatorias de chi-cuadrado con una aplicación para contar cadenas vacías". J. Física. R: Matemáticas. Teor . 46 (50): 505202. arXiv : 1208.2691 . Código Bib : 2013JPhA...46X5202B. doi :10.1088/1751-8113/46/50/505202. S2CID  119721108.
  19. ^ den Dekker AJ, Sijbers J., (2014) "Distribuciones de datos en imágenes de resonancia magnética: una revisión", Physica Medica , [1]
  20. ^ Prueba de chi cuadrado Archivado el 18 de noviembre de 2013 en la Wayback Machine Tabla B.2. Dra. Jacqueline S. McLaughlin de la Universidad Estatal de Pensilvania. Citando a su vez: RA Fisher y F. Yates, Statistical Tables for Biological Agriculture and Medical Research, 6ª ed., Tabla IV. Se han corregido dos valores, 7,82 con 7,81 y 4,60 con 4,61
  21. ^ "Distribución de chi cuadrado | Tutorial de R". www.r-tutor.com .
  22. ^ ab Hald 1998, págs. 633–692, 27. Distribuciones muestrales en condiciones de normalidad.
  23. ^ FR Helmert , "Ueber die Wahrscheinlichkeit der Potenzsummen der Beobachtungsfehler und über einige damit im Zusammenhange stehende Fragen", Zeitschrift für Mathematik und Physik 21, 1876, págs.
  24. ^ RL Plackett, Karl Pearson y la prueba de chi cuadrado , International Statistical Review, 1983, 61 y siguientes. Véase también Jeff Miller, Primeros usos conocidos de algunas de las palabras de matemáticas.
  25. ^ Sol, Jingchao; Kong, Maiying; Pal, Subhadip (22 de junio de 2021). "La distribución seminormal modificada: propiedades y un esquema de muestreo eficiente". Comunicaciones en Estadística - Teoría y Métodos . 52 (5): 1591-1613. doi :10.1080/03610926.2021.1934700. ISSN  0361-0926. S2CID  237919587.

Otras lecturas

enlaces externos