stringtranslate.com

Distribución de chi-cuadrado generalizada

En teoría de probabilidad y estadística , la distribución de chi-cuadrado generalizada (o distribución de chi-cuadrado generalizada ) es la distribución de una forma cuadrática de una variable multinormal (vector normal) , o una combinación lineal de diferentes variables normales y cuadrados de variables normales. De manera equivalente, también es una suma lineal de variables de chi-cuadrado no centrales independientes y una variable normal . Hay varias otras generalizaciones de este tipo para las que a veces se utiliza el mismo término; algunas de ellas son casos especiales de la familia analizada aquí, por ejemplo, la distribución gamma .

Definición

La variable chi-cuadrado generalizada se puede describir de varias maneras. Una de ellas es escribirla como una suma ponderada de variables chi-cuadrado independientes no centrales y una variable normal estándar : [1] [2]

Aquí los parámetros son los pesos , los grados de libertad y las no centralidades de los chi-cuadrados no centrales constituyentes, y los coeficientes y de la normal. Algunos casos especiales importantes de esto tienen todos los pesos del mismo signo, o tienen componentes chi-cuadrados centrales, u omiten el término normal.

Dado que una variable chi-cuadrado no central es una suma de cuadrados de variables normales con medias diferentes, la variable chi-cuadrado generalizada también se define como una suma de cuadrados de variables normales independientes, más una variable normal independiente: es decir, una cuadrática en variables normales.

Otra forma equivalente es formularlo como una forma cuadrática de un vector normal : [3] [4]

.

Aquí hay una matriz, es un vector y es un escalar. Estos, junto con la matriz de media y covarianza del vector normal , parametrizan la distribución.

Para el caso más general, se puede realizar una reducción hacia una forma estándar común utilizando una representación de la siguiente forma: [5]

donde D es una matriz diagonal y donde x representa un vector de variables aleatorias normales estándar no correlacionadas .

Conversiones de parámetros

Una variable o distribución de chi-cuadrado generalizada se puede parametrizar de dos maneras. La primera es en términos de los pesos , los grados de libertad y las no centralidades de los chi-cuadrados no centrales constituyentes, y los coeficientes y del término normal añadido. La segunda parametrización es utilizando la forma cuadrática de un vector normal, donde los parámetros son la matriz , el vector , y el escalar , y la matriz de media y covarianza del vector normal.

Los parámetros de la primera expresión (en términos de chi-cuadrados no centrales, una normal y una constante) se pueden calcular en términos de los parámetros de la segunda expresión (forma cuadrática de un vector normal). [4]

Los parámetros de la segunda expresión (forma cuadrática de un vector normal) también se pueden calcular en términos de los parámetros de la primera expresión (en términos de chi-cuadrados no centrales, una normal y una constante). [6]

Existe código Matlab para convertir de un conjunto de parámetros a otro.

Cálculo de PDF/CDF/CDF inversa/números aleatorios

Las funciones de densidad de probabilidad, distribución acumulada y distribución acumulada inversa de una variable chi-cuadrado generalizada no tienen expresiones simples en forma cerrada. Pero existen varios métodos para calcularlas numéricamente: el método de Ruben, [7] el método de Imhof, [8] el método IFFT, [6] el método de rayos, [6] y la aproximación de elipse. [6]

Se han publicado algoritmos numéricos [5] [2] [8] [4] y código de computadora (Fortran y C, Matlab, R, Python, Julia) que implementan algunos de estos métodos para calcular la PDF, la CDF y la CDF inversa, y para generar números aleatorios.

La siguiente tabla muestra los mejores métodos a utilizar para calcular la CDF y la PDF para las diferentes partes de la distribución de chi-cuadrado generalizada en diferentes casos: [6]

Aplicaciones

El chi-cuadrado generalizado es la distribución de estimaciones estadísticas en los casos en que la teoría estadística habitual no se cumple, como en los ejemplos siguientes.

En el ajuste y selección de modelos

Si un modelo predictivo se ajusta por mínimos cuadrados , pero los residuos tienen autocorrelación o heterocedasticidad , entonces se pueden comparar modelos alternativos (en la selección de modelos ) relacionando los cambios en la suma de cuadrados con una distribución de chi-cuadrado generalizada asintóticamente válida . [3]

Clasificación de vectores normales mediante análisis discriminante gaussiano

Si es un vector normal, su log-verosimilitud es una forma cuadrática de , y por lo tanto se distribuye como un chi-cuadrado generalizado. El log-cociente de verosimilitud que surge de una distribución normal frente a otra también es una forma cuadrática , por lo que se distribuye como un chi-cuadrado generalizado. [4]

En el análisis discriminante gaussiano, las muestras de distribuciones multinormales se separan de forma óptima mediante un clasificador cuadrático , un límite que es una función cuadrática (por ejemplo, la curva definida al establecer la razón de verosimilitud entre dos gaussianas en 1). Las tasas de error de clasificación de diferentes tipos (falsos positivos y falsos negativos) son integrales de las distribuciones normales dentro de las regiones cuadráticas definidas por este clasificador. Dado que esto es matemáticamente equivalente a integrar una forma cuadrática de un vector normal, el resultado es una integral de una variable de chi-cuadrado generalizada. [4]

En el procesamiento de señales

La siguiente aplicación surge en el contexto del análisis de Fourier en el procesamiento de señales , la teoría de renovación en la teoría de la probabilidad y los sistemas multiantena en la comunicación inalámbrica . El factor común de estas áreas es que la suma de variables distribuidas exponencialmente es importante (o, de manera idéntica, la suma de magnitudes cuadradas de variables gaussianas complejas centradas y simétricas circulares ).

Si hay k variables aleatorias gaussianas complejas , centradas, independientes y simétricas circularmente con media 0 y varianza , entonces la variable aleatoria

tiene una distribución de chi-cuadrado generalizada de una forma particular. La diferencia con la distribución de chi-cuadrado estándar es que son complejas y pueden tener diferentes varianzas, y la diferencia con la distribución de chi-cuadrado generalizada más general es que la matriz de escala relevante A es diagonal. Si para todos los i , entonces , reducido por (es decir, multiplicado por ), tiene una distribución de chi-cuadrado , , también conocida como distribución de Erlang . Si tienen valores distintos para todos los i , entonces tiene la función de densidad de probabilidad [9]

Si hay conjuntos de varianzas repetidas entre , suponga que están divididos en M conjuntos, cada uno de los cuales representa un cierto valor de varianza. Denote como el número de repeticiones en cada grupo. Es decir, el conjunto m contiene variables que tienen varianza Representa una combinación lineal arbitraria de variables aleatorias independientes distribuidas con diferentes grados de libertad:

El pdf de es [10]

dónde

con del conjunto de todas las particiones de (con ) definidas como

Véase también

Referencias

  1. ^ Davies, RB (1973) Inversión numérica de una función característica. Biometrika , 60 (2), 415–417
  2. ^ ab Davies, RB (1980) "Algoritmo AS155: La distribución de una combinación lineal de χ 2 variables aleatorias", Applied Statistics , 29, 323–333
  3. ^ ab Jones, DA (1983) "Análisis estadístico de modelos empíricos ajustados por optimización", Biometrika , 70 (1), 67–88
  4. ^ abcde Das, Abhranil; Wilson S Geisler (2020). "Métodos para integrar multinormales y calcular medidas de clasificación". arXiv : 2012.14331 [stat.ML].
  5. ^ ab Sheil, J., O'Muircheartaigh, I. (1977) "Algoritmo AS106: La distribución de formas cuadráticas no negativas en variables normales", Applied Statistics , 26, 92–98
  6. ^ abcde Das, Abhranil (2024). "Nuevos métodos para calcular la distribución de chi-cuadrado generalizada". arXiv : 2404.05062 .
  7. ^ Ruben, Harold (1962). "Contenido de probabilidad de regiones bajo distribuciones normales esféricas, IV: La distribución de funciones cuadráticas homogéneas y no homogéneas de variables normales". Anales de estadística matemática : 542-570.
  8. ^ ab Imhof, JP (1961). "Cálculo de la distribución de formas cuadráticas en variables normales" (PDF) . Biometrika . 48 (3/4): 419–426. doi :10.2307/2332763. JSTOR  2332763.
  9. ^ D. Hammarwall, M. Bengtsson, B. Ottersten (2008) "Adquisición de CSI parcial para transmisión espacialmente selectiva mediante retroalimentación instantánea de la norma del canal", IEEE Transactions on Signal Processing , 56, 1188–1204
  10. ^ E. Björnson, D. Hammarwall, B. Ottersten (2009) "Explotación de la retroalimentación de la norma del canal cuantificado a través de estadísticas condicionales en sistemas MIMO arbitrariamente correlacionados", IEEE Transactions on Signal Processing , 57, 4027–4041

Enlaces externos