distancia Hellinger

En probabilidad y estadística , la distancia de Hellinger (estrechamente relacionada, aunque diferente, con la distancia de Bhattacharyya ) se utiliza para cuantificar la similitud entre dos distribuciones de probabilidad . Es un tipo de f -divergencia . La distancia de Hellinger se define en términos de la integral de Hellinger , que fue introducida por Ernst Hellinger en 1909. ^[1]^[2]

A veces se le llama distancia de Jeffreys. ^[3]^[4]

Definición

Teoría de la medida

Para definir la distancia de Hellinger en términos de teoría de la medida , denotemos por y dos medidas de probabilidad en un espacio de medidas que sean absolutamente continuas con respecto a una medida auxiliar . Esta medida siempre existe, p. ej . El cuadrado de la distancia Hellinger entre y se define como la cantidad $P$ $Q$ ${\mathcal {X}}$ ${\displaystyle\lambda}$ $\lambda =(P+Q)$ $P$ $Q$

H^{2}(P,Q)={\frac {1}{2}}\displaystyle \int _{\mathcal {X}}\left({\sqrt {p(x)}}-{\sqrt {q(x)}}\right)^{2}\lambda (dx).

Aquí, y , es decir, y son los derivados de Radón-Nikodym de P y Q respectivamente con respecto a . Esta definición no depende de , es decir, la distancia de Hellinger entre P y Q no cambia si se reemplaza con una medida de probabilidad diferente con respecto a la cual tanto P como Q son absolutamente continuos. Para la compacidad, la fórmula anterior a menudo se escribe como $P(dx)=p(x)\lambda (dx)$ $Q(dx)=q(x)\lambda (dx)$ $p$ $q$ $\lambda$ $\lambda$ $\lambda$

H^{2}(P,Q)={\frac {1}{2}}\int _{\mathcal {X}}\left({\sqrt {P(dx)}}-{\sqrt {Q(dx)}}\right)^{2}.

Teoría de la probabilidad utilizando la medida de Lebesgue

Para definir la distancia de Hellinger en términos de teoría de probabilidad elemental, tomamos λ como la medida de Lebesgue , de modo que dP / dλ y dQ / d λ son simplemente funciones de densidad de probabilidad . Si denotamos las densidades como f y g , respectivamente, la distancia de Hellinger al cuadrado se puede expresar como una integral de cálculo estándar.

H^{2}(f,g)={\frac {1}{2}}\int \left({\sqrt {f(x)}}-{\sqrt {g(x)}}\right)^{2}\,dx=1-\int {\sqrt {f(x)g(x)}}\,dx,

donde la segunda forma se puede obtener expandiendo el cuadrado y utilizando el hecho de que la integral de una densidad de probabilidad sobre su dominio es igual a 1.

La distancia de Hellinger H ( P , Q ) satisface la propiedad (derivada de la desigualdad de Cauchy-Schwarz )

0\leq H(P,Q)\leq 1.

Distribuciones discretas

Para dos distribuciones de probabilidad discretas y , su distancia de Hellinger se define como $P=(p_{1},\ldots ,p_{k})$ $Q=(q_{1},\ldots ,q_{k})$

H(P,Q)={\frac {1}{\sqrt {2}}}\;{\sqrt {\sum _{i=1}^{k}({\sqrt {p_{i}}}-{\sqrt {q_{i}}})^{2}}},

que está directamente relacionado con la norma euclidiana de la diferencia de los vectores de raíz cuadrada, es decir

H(P,Q)={\frac {1}{\sqrt {2}}}\;{\bigl \|}{\sqrt {P}}-{\sqrt {Q}}{\bigr \|}_{2}.

También, $1-H^{2}(P,Q)=\sum _{i=1}^{k}{\sqrt {p_{i}q_{i}}}.$

Propiedades

La distancia de Hellinger forma una métrica acotada en el espacio de distribuciones de probabilidad sobre un espacio de probabilidad dado .

La distancia máxima 1 se logra cuando P asigna probabilidad cero a cada conjunto al que Q asigna una probabilidad positiva, y viceversa.

A veces se omite el factor delante de la integral, en cuyo caso la distancia de Hellinger oscila entre cero y la raíz cuadrada de dos. $1/2$

La distancia de Hellinger está relacionada con el coeficiente de Bhattacharyya , ya que puede definirse como $BC(P,Q)$

H(P,Q)={\sqrt {1-BC(P,Q)}}.

Las distancias de Hellinger se utilizan en la teoría de la estadística secuencial y asintótica . ^[5]^[6]

La distancia de Hellinger al cuadrado entre dos distribuciones normales y es: $P\sim {\mathcal {N}}(\mu _{1},\sigma _{1}^{2})$ $Q\sim {\mathcal {N}}(\mu _{2},\sigma _{2}^{2})$

H^{2}(P,Q)=1-{\sqrt {\frac {2\sigma _{1}\sigma _{2}}{\sigma _{1}^{2}+\sigma _{2}^{2}}}}\,e^{-{\frac {1}{4}}{\frac {(\mu _{1}-\mu _{2})^{2}}{\sigma _{1}^{2}+\sigma _{2}^{2}}}}.

La distancia de Hellinger al cuadrado entre dos distribuciones normales multivariadas es ^[7] $P\sim {\mathcal {N}}(\mu _{1},\Sigma _{1})$ $Q\sim {\mathcal {N}}(\mu _{2},\Sigma _{2})$

H^{2}(P,Q)=1-{\frac {\det(\Sigma _{1})^{1/4}\det(\Sigma _{2})^{1/4}}{\det \left({\frac {\Sigma _{1}+\Sigma _{2}}{2}}\right)^{1/2}}}\exp \left\{-{\frac {1}{8}}(\mu _{1}-\mu _{2})^{T}\left({\frac {\Sigma _{1}+\Sigma _{2}}{2}}\right)^{-1}(\mu _{1}-\mu _{2})\right\}

La distancia de Hellinger al cuadrado entre dos distribuciones exponenciales y es: $P\sim \mathrm {Exp} (\alpha )$ $Q\sim \mathrm {Exp} (\beta )$

H^{2}(P,Q)=1-{\frac {2{\sqrt {\alpha \beta }}}{\alpha +\beta }}.

La distancia de Hellinger al cuadrado entre dos distribuciones de Weibull y (donde es un parámetro de forma común y son los parámetros de escala respectivamente): $P\sim \mathrm {W} (k,\alpha )$ $Q\sim \mathrm {W} (k,\beta )$ $k$ $\alpha \,,\beta$

H^{2}(P,Q)=1-{\frac {2(\alpha \beta )^{k/2}}{\alpha ^{k}+\beta ^{k}}}.

La distancia de Hellinger al cuadrado entre dos distribuciones de Poisson con parámetros de tasa y , de modo que y , es: $\alpha$ $\beta$ $P\sim \mathrm {Poisson} (\alpha )$ $Q\sim \mathrm {Poisson} (\beta )$

H^{2}(P,Q)=1-e^{-{\frac {1}{2}}({\sqrt {\alpha }}-{\sqrt {\beta }})^{2}}.

La distancia de Hellinger al cuadrado entre dos distribuciones beta y es: $P\sim {\text{Beta}}(a_{1},b_{1})$ $Q\sim {\text{Beta}}(a_{2},b_{2})$

H^{2}(P,Q)=1-{\frac {B\left({\frac {a_{1}+a_{2}}{2}},{\frac {b_{1}+b_{2}}{2}}\right)}{\sqrt {B(a_{1},b_{1})B(a_{2},b_{2})}}}

¿Dónde está la función beta ? $B$

La distancia Hellinger al cuadrado entre dos distribuciones gamma es : $P\sim {\text{Gamma}}(a_{1},b_{1})$ $Q\sim {\text{Gamma}}(a_{2},b_{2})$

H^{2}(P,Q)=1-\Gamma \left({\scriptstyle {\frac {a_{1}+a_{2}}{2}}}\right)\left({\frac {b_{1}+b_{2}}{2}}\right)^{-(a_{1}+a_{2})/2}{\sqrt {\frac {b_{1}^{a_{1}}b_{2}^{a_{2}}}{\Gamma (a_{1})\Gamma (a_{2})}}}

¿Dónde está la función gamma ? $\Gamma$

Conexión con distancia de variación total.

La distancia de Hellinger y la distancia de variación total (o distancia estadística) se relacionan de la siguiente manera: ^[8] $H(P,Q)$ $\delta (P,Q)$

H^{2}(P,Q)\leq \delta (P,Q)\leq {\sqrt {2}}H(P,Q)\,.

Las constantes en esta desigualdad pueden cambiar según la renormalización que elija ( o ). $1/2$ $1/{\sqrt {2}}$

Estas desigualdades se derivan inmediatamente de las desigualdades entre la norma 1 y la norma 2 .

Ver también

Notas

^ Nikulin, MS (2001) [1994], "Distancia de Hellinger", Enciclopedia de Matemáticas , EMS Press
^ Hellinger, Ernst (1909), "Neue Begründung der Theorie quadratischer Formen von unendlichvielen Veränderlichen", Journal für die reine und angewandte Mathematik (en alemán), 1909 (136): 210–271, doi :10.1515/crll.1909.136.210 , JFM 40.0393.01, S2CID 121150138
^ "Distancia de Jeffreys - Enciclopedia de Matemáticas". encyclopediaofmath.org . Consultado el 24 de mayo de 2022 .
^ Jeffreys, Harold (24 de septiembre de 1946). "Una forma invariante para la probabilidad a priori en problemas de estimación". Actas de la Royal Society de Londres. Serie A. Ciencias Matemáticas y Físicas . 186 (1007): 453–461. Código bibliográfico : 1946RSPSA.186..453J. doi : 10.1098/rspa.1946.0056 . ISSN 0080-4630. PMID 20998741. S2CID 19490929.
^ Torgerson, Erik (1991). "Comparación de experimentos estadísticos". Enciclopedia de Matemáticas . vol. 36. Prensa de la Universidad de Cambridge.
^ Liese, Friedrich; Miescke, Klaus-J. (2008). Teoría de la decisión estadística: estimación, prueba y selección . Saltador. ISBN 978-0-387-73193-3.
^ Pardo, L. (2006). Inferencia estadística basada en medidas de divergencia . Nueva York: Chapman y Hall/CRC. pag. 51.ISBN 1-58488-600-5.
^ Harsha, Prahladh (23 de septiembre de 2011). "Apuntes de conferencias sobre la complejidad de la comunicación" (PDF) .

Referencias

Yang, Grace Lo ; Le Cam, Lucien M. (2000). Asintótica en estadística: algunos conceptos básicos . Berlín: Springer. ISBN 0-387-95036-2.
Vaart, AW van der (19 de junio de 2000). Estadística Asintótica (Serie Cambridge en Matemática Estadística y Probabilística) . Cambridge, Reino Unido: Cambridge University Press. ISBN 0-521-78450-6.
Pollard, David E. (2002). Una guía del usuario para medir la probabilidad teórica . Cambridge, Reino Unido: Cambridge University Press. ISBN 0-521-00289-3.