stringtranslate.com

Distribución chi-cuadrado generalizada

En teoría de probabilidad y estadística , la distribución chi-cuadrado generalizada (o distribución chi-cuadrado generalizada ) es la distribución de una forma cuadrática de una variable multinormal (vector normal) , o una combinación lineal de diferentes variables normales y cuadrados de variables normales. De manera equivalente, también es una suma lineal de variables chi-cuadrado no centrales independientes y una variable normal . Hay varias otras generalizaciones similares para las que a veces se utiliza el mismo término; algunos de ellos son casos especiales de la familia que se analizan aquí, por ejemplo la distribución gamma .

Definición

La variable chi-cuadrado generalizada se puede describir de múltiples formas. Una es escribirlo como una suma ponderada de variables independientes de chi-cuadrado no centrales y una variable normal estándar : [1] [2]

Aquí los parámetros son los pesos , los grados de libertad y las no centralidades de los chi-cuadrados no centrales constituyentes, y los coeficientes y de lo normal. Algunos casos especiales importantes de esto tienen todos los pesos del mismo signo, o tienen componentes centrales de chi-cuadrado, u omiten el término normal.

Dado que una variable chi-cuadrado no central es una suma de cuadrados de variables normales con diferentes medias, la variable chi-cuadrado generalizada también se define como una suma de cuadrados de variables normales independientes, más una variable normal independiente: es decir, una cuadrática en variables normales.

Otra forma equivalente es formularlo como forma cuadrática de un vector normal : [3] [4]

.

Aquí hay una matriz, es un vector y es un escalar. Estos, junto con la matriz de media y covarianza del vector normal , parametrizan la distribución. Los parámetros de la primera expresión (en términos de chi-cuadrado no central, una normal y una constante) se pueden calcular en términos de los parámetros de la última expresión (forma cuadrática de un vector normal). [4] Si (y solo si) en esta formulación es positivo-definido , entonces todos los en la primera formulación tendrán el mismo signo.

Para el caso más general, se puede realizar una reducción hacia una forma estándar común utilizando una representación de la siguiente forma: [5]

donde D es una matriz diagonal y donde x representa un vector de variables aleatorias normales estándar no correlacionadas.

Calcular los números pdf/cdf/cdf inverso/aleatorios

Las funciones de densidad de probabilidad, distribución acumulativa y distribución acumulativa inversa de una variable chi-cuadrado generalizada no tienen expresiones simples de forma cerrada. Sin embargo, se han publicado algoritmos numéricos [5] [2] [6] [4] y código informático (Fortran y C, Matlab, R, Python, Julia) para evaluar algunos de ellos y generar muestras aleatorias.

Aplicaciones

El chi-cuadrado generalizado es la distribución de estimaciones estadísticas en los casos en que la teoría estadística habitual no se cumple, como en los ejemplos siguientes.

En ajuste y selección de modelos.

Si un modelo predictivo se ajusta mediante mínimos cuadrados , pero los residuos tienen autocorrelación o heterocedasticidad , entonces se pueden comparar modelos alternativos (en la selección de modelos ) relacionando los cambios en la suma de cuadrados con una distribución chi-cuadrado generalizada asintóticamente válida . [3]

Clasificación de vectores normales mediante análisis discriminante gaussiano

Si es un vector normal, su logaritmo de verosimilitud es una forma cuadrática de y, por tanto, se distribuye como una chi-cuadrado generalizada. El índice de probabilidad logarítmica que surge de una distribución normal versus otra también es una forma cuadrática , distribuida como una chi-cuadrado generalizada. [4]

En el análisis discriminante gaussiano, las muestras de distribuciones multinormales se separan de manera óptima mediante el uso de un clasificador cuadrático , un límite que es una función cuadrática (por ejemplo, la curva definida estableciendo la relación de probabilidad entre dos gaussianos en 1). Las tasas de error de clasificación de diferentes tipos (falsos positivos y falsos negativos) son integrales de las distribuciones normales dentro de las regiones cuadráticas definidas por este clasificador. Dado que esto es matemáticamente equivalente a integrar una forma cuadrática de un vector normal, el resultado es una integral de una variable de chi-cuadrado generalizada. [4]

En el procesamiento de señales

La siguiente aplicación surge en el contexto del análisis de Fourier en el procesamiento de señales , la teoría de la renovación en la teoría de la probabilidad y los sistemas multiantena en la comunicación inalámbrica . El factor común de estas áreas es que la suma de variables distribuidas exponencialmente es importante (o de manera idéntica, la suma de magnitudes al cuadrado de variables gaussianas complejas centradas circularmente simétricas ).

Si son k variables aleatorias gaussianas complejas independientes , circularmente simétricas y centradas con media 0 y varianza , entonces la variable aleatoria

tiene una distribución chi-cuadrado generalizada de una forma particular. La diferencia con la distribución chi-cuadrado estándar es que es compleja y puede tener diferentes varianzas, y la diferencia con la distribución chi-cuadrado generalizada más general es que la matriz de escala A relevante es diagonal. Si para todo i , entonces , reducido por (es decir, multiplicado por ), tiene una distribución chi-cuadrado , también conocida como distribución de Erlang . Si tiene valores distintos para todos i , entonces tiene el pdf [7]

Si hay conjuntos de varianzas repetidas entre , suponga que están divididos en M conjuntos, cada uno de los cuales representa un cierto valor de varianza. Denotemos como el número de repeticiones en cada grupo. Es decir, el m -ésimo conjunto contiene variables que tienen varianza. Representa una combinación lineal arbitraria de variables aleatorias distribuidas independientes con diferentes grados de libertad:

El pdf de es [8]

dónde

con del conjunto de todas las particiones de (con ) definidas como

Ver también

Referencias

  1. ^ Davies, RB (1973) Inversión numérica de una función característica. Biometrika , 60 (2), 415–417
  2. ^ ab Davies, RB (1980) "Algoritmo AS155: la distribución de una combinación lineal de χ 2 variables aleatorias", Estadística Aplicada , 29, 323–333
  3. ^ ab Jones, DA (1983) "Análisis estadístico de modelos empíricos ajustados por optimización", Biometrika , 70 (1), 67–88
  4. ^ abcdeDas , Abhranil; Wilson S Geisler (2020). "Métodos para integrar multinormales y calcular medidas de clasificación". arXiv : 2012.14331 [estad.ML].
  5. ^ ab Sheil, J., O'Muircheartaigh, I. (1977) "Algoritmo AS106: la distribución de formas cuadráticas no negativas en variables normales", Estadística Aplicada , 26, 92–98
  6. ^ Imhof, JP (1961). "Calcular la distribución de formas cuadráticas en variables normales" (PDF) . Biometrika . 48 (3/4): 419–426. doi :10.2307/2332763. JSTOR  2332763.
  7. ^ D. Hammarwall, M. Bengtsson, B. Ottersten (2008) "Adquisición de CSI parcial para transmisión espacial selectiva mediante retroalimentación instantánea de normas de canal", IEEE Transactions on Signal Processing , 56, 1188-1204
  8. ^ E. Björnson, D. Hammarwall, B. Ottersten (2009) "Explotación de la retroalimentación de normas de canales cuantificados a través de estadísticas condicionales en sistemas MIMO correlacionados arbitrariamente", IEEE Transactions on Signal Processing , 57, 4027–4041

enlaces externos