Métrica utilizada en probabilidad y estadística.
En probabilidad y estadística , la distancia de Hellinger (estrechamente relacionada, aunque diferente, con la distancia de Bhattacharyya ) se utiliza para cuantificar la similitud entre dos distribuciones de probabilidad . Es un tipo de f -divergencia . La distancia de Hellinger se define en términos de la integral de Hellinger , que fue introducida por Ernst Hellinger en 1909. [1] [2]
A veces se le llama distancia de Jeffreys. [3] [4]
Definición
Teoría de la medida
Para definir la distancia de Hellinger en términos de teoría de la medida , denotemos por y dos medidas de probabilidad en un espacio de medidas que sean absolutamente continuas con respecto a una medida auxiliar . Esta medida siempre existe, p. ej . El cuadrado de la distancia Hellinger entre y se define como la cantidad![{\displaystyle P}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle Q}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\mathcal {X}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle\lambda}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \lambda =(P+Q)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle P}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle Q}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle H^{2}(P,Q)={\frac {1}{2}}\displaystyle \int _{\mathcal {X}}\left({\sqrt {p(x)}}- {\sqrt {q(x)}}\right)^{2}\lambda (dx).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Aquí, y , es decir, y son los derivados de Radón-Nikodym de P y Q respectivamente con respecto a . Esta definición no depende de , es decir, la distancia de Hellinger entre P y Q no cambia si se reemplaza con una medida de probabilidad diferente con respecto a la cual tanto P como Q son absolutamente continuos. Para la compacidad, la fórmula anterior a menudo se escribe como![{\displaystyle P(dx)=p(x)\lambda (dx)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle Q(dx)=q(x)\lambda (dx)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle p}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle q}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle\lambda}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle\lambda}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle\lambda}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle H^{2}(P,Q)={\frac {1}{2}}\int _{\mathcal {X}}\left({\sqrt {P(dx)}}-{\ raíz cuadrada {Q(dx)}}\right)^{2}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Teoría de la probabilidad utilizando la medida de Lebesgue
Para definir la distancia de Hellinger en términos de teoría de probabilidad elemental, tomamos λ como la medida de Lebesgue , de modo que dP / dλ y dQ / d λ son simplemente funciones de densidad de probabilidad . Si denotamos las densidades como f y g , respectivamente, la distancia de Hellinger al cuadrado se puede expresar como una integral de cálculo estándar.
![{\displaystyle H^{2}(f,g)={\frac {1}{2}}\int \left({\sqrt {f(x)}}-{\sqrt {g(x)}} \right)^{2}\,dx=1-\int {\sqrt {f(x)g(x)}}\,dx,}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
donde la segunda forma se puede obtener expandiendo el cuadrado y utilizando el hecho de que la integral de una densidad de probabilidad sobre su dominio es igual a 1.
La distancia de Hellinger H ( P , Q ) satisface la propiedad (derivada de la desigualdad de Cauchy-Schwarz )
![{\displaystyle 0\leq H(P,Q)\leq 1.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Distribuciones discretas
Para dos distribuciones de probabilidad discretas y , su distancia de Hellinger se define como![{\displaystyle P=(p_{1},\ldots,p_{k})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle Q=(q_{1},\ldots,q_{k})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle H(P,Q)={\frac {1}{\sqrt {2}}}\;{\sqrt {\sum _{i=1}^{k}({\sqrt {p_{i }}}-{\sqrt {q_{i}}})^{2}}},}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
que está directamente relacionado con la norma euclidiana de la diferencia de los vectores de raíz cuadrada, es decir
![{\displaystyle H(P,Q)={\frac {1}{\sqrt {2}}}\;{\bigl \|}{\sqrt {P}}-{\sqrt {Q}}{\bigr \|}_{2}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
También,![{\displaystyle 1-H^{2}(P,Q)=\sum _{i=1}^{k}{\sqrt {p_{i}q_{i}}}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Propiedades
La distancia de Hellinger forma una métrica acotada en el espacio de distribuciones de probabilidad sobre un espacio de probabilidad dado .
La distancia máxima 1 se logra cuando P asigna probabilidad cero a cada conjunto al que Q asigna una probabilidad positiva, y viceversa.
A veces se omite el factor delante de la integral, en cuyo caso la distancia de Hellinger oscila entre cero y la raíz cuadrada de dos.![{\displaystyle 1/2}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
La distancia de Hellinger está relacionada con el coeficiente de Bhattacharyya , ya que puede definirse como![{\displaystyle BC(P,Q)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle H(P,Q)={\sqrt {1-BC(P,Q)}}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Las distancias de Hellinger se utilizan en la teoría de la estadística secuencial y asintótica . [5] [6]
La distancia de Hellinger al cuadrado entre dos distribuciones normales y es:![{\displaystyle P\sim {\mathcal {N}}(\mu _{1},\sigma _{1}^{2})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle Q\sim {\mathcal {N}}(\mu _{2},\sigma _{2}^{2})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle H^{2}(P,Q)=1-{\sqrt {\frac {2\sigma _{1}\sigma _{2}}{\sigma _{1}^{2}+\ sigma _{2}^{2}}}}\,e^{-{\frac {1}{4}}{\frac {(\mu _{1}-\mu _{2})^{2 }}{\sigma _{1}^{2}+\sigma _{2}^{2}}}}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
La distancia de Hellinger al cuadrado entre dos distribuciones normales multivariadas es [7]![{\displaystyle P\sim {\mathcal {N}}(\mu _{1},\Sigma _{1})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle Q\sim {\mathcal {N}}(\mu _{2},\Sigma _{2})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle H^{2}(P,Q)=1-{\frac {\det(\Sigma _{1})^{1/4}\det(\Sigma _{2})^{1/ 4}}{\det \left({\frac {\Sigma _{1}+\Sigma _{2}}{2}}\right)^{1/2}}}\exp \left\{-{ \frac {1}{8}}(\mu _{1}-\mu _{2})^{T}\left({\frac {\Sigma _{1}+\Sigma _{2}}{ 2}}\right)^{-1}(\mu _{1}-\mu _{2})\right\}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
La distancia de Hellinger al cuadrado entre dos distribuciones exponenciales y es:![{\displaystyle P\sim \mathrm {Exp} (\alpha)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle Q\sim \mathrm {Exp} (\beta)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle H^{2}(P,Q)=1-{\frac {2{\sqrt {\alpha \beta }}}{\alpha +\beta }}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
La distancia de Hellinger al cuadrado entre dos distribuciones de Weibull y (donde es un parámetro de forma común y son los parámetros de escala respectivamente):![{\displaystyle P\sim \mathrm {W} (k,\alpha)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle Q\sim \mathrm {W} (k,\beta)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle k}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \alpha \,,\beta }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle H^{2}(P,Q)=1-{\frac {2(\alpha \beta )^{k/2}}{\alpha ^{k}+\beta ^{k}}} .}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
La distancia de Hellinger al cuadrado entre dos distribuciones de Poisson con parámetros de tasa y , de modo que y , es:![{\displaystyle \alpha }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle\beta}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle P\sim \mathrm {Poisson} (\alpha)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle Q\sim \mathrm {Poisson} (\beta)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle H^{2}(P,Q)=1-e^{-{\frac {1}{2}}({\sqrt {\alpha }}-{\sqrt {\beta }})^ {2}}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
La distancia de Hellinger al cuadrado entre dos distribuciones beta y es:![{\displaystyle P\sim {\text{Beta}}(a_{1},b_{1})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle Q\sim {\text{Beta}}(a_{2},b_{2})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle H^{2}(P,Q)=1-{\frac {B\left({\frac {a_{1}+a_{2}}{2}},{\frac {b_{1) }+b_{2}}{2}}\right)}{\sqrt {B(a_{1},b_{1})B(a_{2},b_{2})}}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
¿Dónde está la función beta ?![{\displaystyle B}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
La distancia Hellinger al cuadrado entre dos distribuciones gamma es :![{\displaystyle P\sim {\text{Gamma}}(a_{1},b_{1})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle Q\sim {\text{Gamma}}(a_{2},b_{2})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle H^{2}(P,Q)=1-\Gamma \left({\scriptstyle {\frac {a_{1}+a_{2}}{2}}}\right)\left({ \frac {b_{1}+b_{2}}{2}}\right)^{-(a_{1}+a_{2})/2}{\sqrt {\frac {b_{1}^{ a_{1}}b_{2}^{a_{2}}}{\Gamma (a_{1})\Gamma (a_{2})}}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
¿Dónde está la función gamma ?![{\displaystyle \Gamma}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Conexión con distancia de variación total.
La distancia de Hellinger y la distancia de variación total (o distancia estadística) se relacionan de la siguiente manera: [8]![{\displaystyle H(P,Q)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \delta (P,Q)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle H^{2}(P,Q)\leq \delta (P,Q)\leq {\sqrt {2}}H(P,Q)\,.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Las constantes en esta desigualdad pueden cambiar según la renormalización que elija ( o ).![{\displaystyle 1/2}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle 1/{\sqrt {2}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Estas desigualdades se derivan inmediatamente de las desigualdades entre la norma 1 y la norma 2 .
Ver también
Notas
- ^ Nikulin, MS (2001) [1994], "Distancia de Hellinger", Enciclopedia de Matemáticas , EMS Press
- ^ Hellinger, Ernst (1909), "Neue Begründung der Theorie quadratischer Formen von unendlichvielen Veränderlichen", Journal für die reine und angewandte Mathematik (en alemán), 1909 (136): 210–271, doi :10.1515/crll.1909.136.210 , JFM 40.0393.01, S2CID 121150138
- ^ "Distancia de Jeffreys - Enciclopedia de Matemáticas". encyclopediaofmath.org . Consultado el 24 de mayo de 2022 .
- ^ Jeffreys, Harold (24 de septiembre de 1946). "Una forma invariante para la probabilidad a priori en problemas de estimación". Actas de la Royal Society de Londres. Serie A. Ciencias Matemáticas y Físicas . 186 (1007): 453–461. Código bibliográfico : 1946RSPSA.186..453J. doi : 10.1098/rspa.1946.0056 . ISSN 0080-4630. PMID 20998741. S2CID 19490929.
- ^ Torgerson, Erik (1991). "Comparación de experimentos estadísticos". Enciclopedia de Matemáticas . vol. 36. Prensa de la Universidad de Cambridge.
- ^ Liese, Friedrich; Miescke, Klaus-J. (2008). Teoría de la decisión estadística: estimación, prueba y selección . Saltador. ISBN 978-0-387-73193-3.
- ^ Pardo, L. (2006). Inferencia estadística basada en medidas de divergencia . Nueva York: Chapman y Hall/CRC. pag. 51.ISBN 1-58488-600-5.
- ^ Harsha, Prahladh (23 de septiembre de 2011). "Apuntes de conferencias sobre la complejidad de la comunicación" (PDF) .
Referencias
- Yang, Grace Lo ; Le Cam, Lucien M. (2000). Asintótica en estadística: algunos conceptos básicos . Berlín: Springer. ISBN 0-387-95036-2.
- Vaart, AW van der (19 de junio de 2000). Estadística Asintótica (Serie Cambridge en Matemática Estadística y Probabilística) . Cambridge, Reino Unido: Cambridge University Press. ISBN 0-521-78450-6.
- Pollard, David E. (2002). Una guía del usuario para medir la probabilidad teórica . Cambridge, Reino Unido: Cambridge University Press. ISBN 0-521-00289-3.