Distancia de variación total de las medidas de probabilidad.

En teoría de la probabilidad , la distancia de variación total es una medida de distancia para distribuciones de probabilidad. Es un ejemplo de métrica de distancia estadística y, a veces, se denomina distancia estadística , diferencia estadística o distancia variacional .

Definición

Considere un espacio medible y medidas de probabilidad definidas en . La distancia de variación total entre y se define como: ^[1] $(\Omega,{\mathcal {F}})$ $P$ $Q$ $(\Omega,{\mathcal {F}})$ $P$ $Q$

\delta (P,Q)=\sup _{A\in {\mathcal {F}}}\left|P(A)-Q(A)\right|.

Ésta es la diferencia absoluta más grande entre las probabilidades que las dos distribuciones de probabilidad asignan al mismo evento.

Propiedades

La distancia de variación total es una divergencia f y una métrica de probabilidad integral .

Relación con otras distancias

La distancia de variación total está relacionada con la divergencia de Kullback-Leibler mediante la desigualdad de Pinsker :

\delta (P,Q)\leq {\sqrt {{\frac {1}{2}}D_{\mathrm {KL} }(P\parallel Q)}}.

También se tiene la siguiente desigualdad, debida a Bretagnolle y Huber ^[2] (ver también Tsybakov ^[3] ), que tiene la ventaja de proporcionar un límite no vacío incluso cuando : $D_{\mathrm {KL} }(P\parallel Q)>2$

\delta (P,Q)\leq {\sqrt {1-e^{-D_{\mathrm {KL} }(P\parallel Q)}}}.

La distancia de variación total es la mitad de la distancia L 1 entre las funciones de probabilidad: en dominios discretos esta es la distancia entre funciones de masa de probabilidad ^[4] . La relación también se cumple de manera más general: ^[5] cuando las distribuciones tienen funciones de densidad de probabilidad estándar p y q , o la distancia análoga entre derivados de Radón-Nikodym con cualquier medida dominante común . Este resultado se puede demostrar observando que el supremo en la definición se logra exactamente en el conjunto donde una distribución domina a la otra. ^[6] $\delta (P,Q)={\frac {1}{2}}\sum _{x}|P(x)-Q(x)|$ $\delta (P,Q)={\frac {1}{2}}\int |p(x)-q(x)|\mathrm {d} x$

La distancia de variación total está relacionada con la distancia de Hellinger de la siguiente manera: ^[7] $H(P,Q)$

H^{2}(P,Q)\leq \delta (P,Q)\leq {\sqrt {2}}H(P,Q).

Estas desigualdades se derivan inmediatamente de las desigualdades entre la norma 1 y la norma 2 .

Conexión con la teoría del transporte.

La distancia de variación total (o la mitad de la norma) surge como el costo de transporte óptimo, cuando la función de costos es , es decir, $c(x,y)={\mathbf {1} }_{x\neq y}$

{\frac {1}{2}}\|PQ\|_{1}=\delta (P,Q)=\inf\{\mathbb {P} (X\neq Y):{\text {Ley}}(X)=P,{\text{Ley}}(Y)=Q\}=\inf _{\pi }\operatorname {E} _{\pi }[{\mathbf {1} } _{x\neq y}],

donde la expectativa se toma con respecto a la medida de probabilidad sobre el espacio donde vive, y el mínimo se toma sobre todos ellos con marginales y , respectivamente. ^[8] $\pi$ $(x,y)$ $\pi$ $P$ $Q$

Ver también

Referencias

^ Chatterjee, Sourav. «Distancias entre medidas de probabilidad» (PDF) . UC Berkeley. Archivado desde el original (PDF) el 8 de julio de 2008 . Consultado el 21 de junio de 2013 .
^ Bretagnolle, J.; Huber, C, Estimation des densités: risque minimax , Séminaire de Probabilités, XII (Univ. Estrasburgo, Estrasburgo, 1976/1977), págs. 342–363, Lecture Notes in Math., 649, Springer, Berlín, 1978, Lema 2.1 (Francés).
^ Tsybakov, Alexandre B., Introducción a la estimación no paramétrica , revisado y ampliado a partir del original francés de 2004. Traducido por Vladimir Zaiats. Serie Springer en Estadística. Springer, Nueva York, 2009. xii+214 págs. ISBN 978-0-387-79051-0 , Ecuación 2.25.
^ David A. Levin, Yuval Peres, Elizabeth L. Wilmer, Cadenas de Markov y tiempos de mezcla , 2do. Rdo. ed. (AMS, 2017), Proposición 4.2, p. 48.
^ Tsybakov, Aleksandr B. (2009). Introducción a la estimación no paramétrica (versión revisada y ampliada del libro francés ed.). Nueva York, Nueva York: Springer. Lema 2.1. ISBN 978-0-387-79051-0.
^ Devroye, Luc; Györfi, Laszlo; Lugosi, Gabor (4 de abril de 1996). Una teoría probabilística del reconocimiento de patrones (edición corregida). Nueva York: Springer. ISBN 978-0-387-94618-4.
^ Harsha, Prahladh (23 de septiembre de 2011). "Apuntes de conferencias sobre la complejidad de la comunicación" (PDF) .
^ Villani, Cédric (2009). Transporte Óptimo, Antiguo y Nuevo. Grundlehren der mathematischen Wissenschaften. vol. 338. Springer-Verlag Berlín Heidelberg. pag. 10. doi :10.1007/978-3-540-71050-9. ISBN 978-3-540-71049-3.