stringtranslate.com

Distancia de variación total de las medidas de probabilidad

La distancia de variación total es la mitad del área absoluta entre las dos curvas: la mitad del área sombreada arriba.

En teoría de la probabilidad , la distancia de variación total es una medida de distancia para distribuciones de probabilidad. Es un ejemplo de una métrica de distancia estadística y a veces se la denomina distancia estadística , diferencia estadística o distancia variacional .

Definición

Consideremos un espacio medible y medidas de probabilidad y definidas en . La distancia de variación total entre y se define como [1]

Esta es la mayor diferencia absoluta entre las probabilidades que las dos distribuciones de probabilidad asignan al mismo evento.

Propiedades

La distancia de variación total es una f -divergencia y una métrica de probabilidad integral .

Relación con otras distancias

La distancia de variación total está relacionada con la divergencia de Kullback-Leibler mediante la desigualdad de Pinsker :

También se tiene la siguiente desigualdad, debida a Bretagnolle y Huber [2] (ver también [3] ), que tiene la ventaja de proporcionar un límite no vacío incluso cuando

La distancia de variación total es la mitad de la distancia L 1 entre las funciones de probabilidad: en dominios discretos, esta es la distancia entre las funciones de masa de probabilidad [4]

y cuando las distribuciones tienen funciones de densidad de probabilidad estándar p y q , [5]

(o la distancia análoga entre las derivadas de Radon-Nikodym con cualquier medida dominante común ). Este resultado se puede demostrar notando que el supremo en la definición se logra exactamente en el conjunto donde una distribución domina a la otra. [6]

La distancia de variación total está relacionada con la distancia de Hellinger de la siguiente manera: [7]

Estas desigualdades se derivan inmediatamente de las desigualdades entre la norma 1 y la norma 2 .

Conexión ateoría del transporte

La distancia de variación total (o la mitad de la norma) surge como el costo de transporte óptimo, cuando la función de costo es , es decir,

donde la expectativa se toma con respecto a la medida de probabilidad en el espacio donde vive, y el ínfimo se toma sobre todos aquellos con marginales y , respectivamente. [8]

Véase también

Referencias

  1. ^ Chatterjee, Sourav. "Distancias entre medidas de probabilidad" (PDF) . UC Berkeley. Archivado desde el original (PDF) el 8 de julio de 2008. Consultado el 21 de junio de 2013 .
  2. ^ Bretagnolle, J.; Huber, C, Estimation des densités: risque minimax , Séminaire de Probabilités, XII (Univ. Estrasburgo, Estrasburgo, 1976/1977), págs. 342–363, Lecture Notes in Math., 649, Springer, Berlín, 1978, Lema 2.1 (Francés).
  3. ^ Tsybakov, Alexandre B., Introducción a la estimación no paramétrica , Revisado y ampliado a partir del original en francés de 2004. Traducido por Vladimir Zaiats. Springer Series in Statistics. Springer, Nueva York, 2009. xii+214 pp. ISBN 978-0-387-79051-0 , Ecuación 2.25. 
  4. ^ David A. Levin, Yuval Peres, Elizabeth L. Wilmer, Cadenas de Markov y tiempos de mezcla , 2.ª ed. rev. (AMS, 2017), Proposición 4.2, pág. 48.
  5. ^ Tsybakov, Aleksandr B. (2009). Introducción a la estimación no paramétrica (versión revisada y ampliada del libro francés ed.). Nueva York, NY: Springer. Lema 2.1. ISBN 978-0-387-79051-0.
  6. ^ Devroye, Luc; Györfi, Laszlo; Lugosi, Gabor (4 de abril de 1996). Una teoría probabilística del reconocimiento de patrones (edición corregida). Nueva York: Springer. ISBN 978-0-387-94618-4.
  7. ^ Harsha, Prahladh (23 de septiembre de 2011). "Apuntes de clase sobre la complejidad de la comunicación" (PDF) .
  8. ^ Villani, Cédric (2009). Transporte Óptimo, Antiguo y Nuevo. Grundlehren der mathematischen Wissenschaften. vol. 338. Springer-Verlag Berlín Heidelberg. pag. 10. doi :10.1007/978-3-540-71050-9. ISBN 978-3-540-71049-3.