En teoría de probabilidad y estadística , la distribución de chi-cuadrado generalizada (o distribución de chi-cuadrado generalizada ) es la distribución de una forma cuadrática de una variable multinormal (vector normal) , o una combinación lineal de diferentes variables normales y cuadrados de variables normales. De manera equivalente, también es una suma lineal de variables de chi-cuadrado no centrales independientes y una variable normal . Hay varias otras generalizaciones de este tipo para las que a veces se utiliza el mismo término; algunas de ellas son casos especiales de la familia analizada aquí, por ejemplo, la distribución gamma .
La variable chi-cuadrado generalizada se puede describir de varias maneras. Una de ellas es escribirla como una suma ponderada de variables chi-cuadrado independientes no centrales y una variable normal estándar : [1] [2]
Aquí los parámetros son los pesos , los grados de libertad y las no centralidades de los chi-cuadrados no centrales constituyentes, y los coeficientes y de la normal. Algunos casos especiales importantes de esto tienen todos los pesos del mismo signo, o tienen componentes chi-cuadrados centrales, u omiten el término normal.
Dado que una variable chi-cuadrado no central es una suma de cuadrados de variables normales con medias diferentes, la variable chi-cuadrado generalizada también se define como una suma de cuadrados de variables normales independientes, más una variable normal independiente: es decir, una cuadrática en variables normales.
Otra forma equivalente es formularlo como una forma cuadrática de un vector normal : [3] [4]
Aquí hay una matriz, es un vector y es un escalar. Estos, junto con la matriz de media y covarianza del vector normal , parametrizan la distribución.
Para el caso más general, se puede realizar una reducción hacia una forma estándar común utilizando una representación de la siguiente forma: [5]
donde D es una matriz diagonal y donde x representa un vector de variables aleatorias normales estándar no correlacionadas .
Una variable o distribución de chi-cuadrado generalizada se puede parametrizar de dos maneras. La primera es en términos de los pesos , los grados de libertad y las no centralidades de los chi-cuadrados no centrales constituyentes, y los coeficientes y del término normal añadido. La segunda parametrización es utilizando la forma cuadrática de un vector normal, donde los parámetros son la matriz , el vector , y el escalar , y la matriz de media y covarianza del vector normal.
Los parámetros de la primera expresión (en términos de chi-cuadrados no centrales, una normal y una constante) se pueden calcular en términos de los parámetros de la segunda expresión (forma cuadrática de un vector normal). [4]
Los parámetros de la segunda expresión (forma cuadrática de un vector normal) también se pueden calcular en términos de los parámetros de la primera expresión (en términos de chi-cuadrados no centrales, una normal y una constante). [6]
Existe código Matlab para convertir de un conjunto de parámetros a otro.
Las funciones de densidad de probabilidad, distribución acumulada y distribución acumulada inversa de una variable chi-cuadrado generalizada no tienen expresiones simples en forma cerrada. Pero existen varios métodos para calcularlas numéricamente: el método de Ruben, [7] el método de Imhof, [8] el método IFFT, [6] el método de rayos, [6] y la aproximación de elipse. [6]
Se han publicado algoritmos numéricos [5] [2] [8] [4] y código de computadora (Fortran y C, Matlab, R, Python, Julia) que implementan algunos de estos métodos para calcular la PDF, la CDF y la CDF inversa, y para generar números aleatorios.
La siguiente tabla muestra los mejores métodos a utilizar para calcular la CDF y la PDF para las diferentes partes de la distribución de chi-cuadrado generalizada en diferentes casos: [6]
El chi-cuadrado generalizado es la distribución de estimaciones estadísticas en los casos en que la teoría estadística habitual no se cumple, como en los ejemplos siguientes.
Si un modelo predictivo se ajusta por mínimos cuadrados , pero los residuos tienen autocorrelación o heterocedasticidad , entonces se pueden comparar modelos alternativos (en la selección de modelos ) relacionando los cambios en la suma de cuadrados con una distribución de chi-cuadrado generalizada asintóticamente válida . [3]
Si es un vector normal, su logaritmo de verosimilitud es una forma cuadrática de , y por lo tanto se distribuye como un chi-cuadrado generalizado. El cociente de logaritmo de verosimilitud que surge de una distribución normal frente a otra también es una forma cuadrática , por lo que se distribuye como un chi-cuadrado generalizado. [4]
En el análisis discriminante gaussiano, las muestras de distribuciones multinormales se separan de forma óptima mediante un clasificador cuadrático , un límite que es una función cuadrática (por ejemplo, la curva definida al establecer la razón de verosimilitud entre dos gaussianas en 1). Las tasas de error de clasificación de diferentes tipos (falsos positivos y falsos negativos) son integrales de las distribuciones normales dentro de las regiones cuadráticas definidas por este clasificador. Dado que esto es matemáticamente equivalente a integrar una forma cuadrática de un vector normal, el resultado es una integral de una variable de chi-cuadrado generalizada. [4]
La siguiente aplicación surge en el contexto del análisis de Fourier en el procesamiento de señales , la teoría de renovación en la teoría de la probabilidad y los sistemas multiantena en la comunicación inalámbrica . El factor común de estas áreas es que la suma de variables distribuidas exponencialmente es importante (o, de manera idéntica, la suma de magnitudes cuadradas de variables gaussianas complejas centradas y simétricas circulares ).
Si hay k variables aleatorias gaussianas complejas , centradas, independientes y simétricas circularmente con media 0 y varianza , entonces la variable aleatoria
tiene una distribución de chi-cuadrado generalizada de una forma particular. La diferencia con la distribución de chi-cuadrado estándar es que son complejas y pueden tener diferentes varianzas, y la diferencia con la distribución de chi-cuadrado generalizada más general es que la matriz de escala relevante A es diagonal. Si para todos los i , entonces , reducido por (es decir, multiplicado por ), tiene una distribución de chi-cuadrado , , también conocida como distribución de Erlang . Si tienen valores distintos para todos los i , entonces tiene la función de densidad de probabilidad [9]
Si hay conjuntos de varianzas repetidas entre , suponga que están divididos en M conjuntos, cada uno de los cuales representa un cierto valor de varianza. Denote como el número de repeticiones en cada grupo. Es decir, el conjunto m contiene variables que tienen varianza Representa una combinación lineal arbitraria de variables aleatorias independientes distribuidas con diferentes grados de libertad:
El pdf de es [10]
dónde
con del conjunto de todas las particiones de (con ) definidas como