stringtranslate.com

Distancia de variación total de las medidas de probabilidad.

La distancia de variación total es la mitad del área absoluta entre las dos curvas: la mitad del área sombreada arriba.

En teoría de la probabilidad , la distancia de variación total es una medida de distancia para distribuciones de probabilidad. Es un ejemplo de métrica de distancia estadística y, a veces, se denomina distancia estadística , diferencia estadística o distancia variacional .

Definición

Considere un espacio medible y medidas de probabilidad definidas en . La distancia de variación total entre y se define como: [1]

Ésta es la diferencia absoluta más grande entre las probabilidades que las dos distribuciones de probabilidad asignan al mismo evento.

Propiedades

La distancia de variación total es una divergencia f y una métrica de probabilidad integral .

Relación con otras distancias

La distancia de variación total está relacionada con la divergencia de Kullback-Leibler mediante la desigualdad de Pinsker :

También se tiene la siguiente desigualdad, debida a Bretagnolle y Huber [2] (ver también Tsybakov [3] ), que tiene la ventaja de proporcionar un límite no vacío incluso cuando :

La distancia de variación total es la mitad de la distancia L 1 entre las funciones de probabilidad: en dominios discretos esta es la distancia entre funciones de masa de probabilidad [4] . La relación también se cumple de manera más general: [5] cuando las distribuciones tienen funciones de densidad de probabilidad estándar p y q , o la distancia análoga entre derivados de Radón-Nikodym con cualquier medida dominante común . Este resultado se puede demostrar observando que el supremo en la definición se logra exactamente en el conjunto donde una distribución domina a la otra. [6]

La distancia de variación total está relacionada con la distancia de Hellinger de la siguiente manera: [7]

Estas desigualdades se derivan inmediatamente de las desigualdades entre la norma 1 y la norma 2 .

Conexión con la teoría del transporte.

La distancia de variación total (o la mitad de la norma) surge como el costo de transporte óptimo, cuando la función de costos es , es decir,

donde la expectativa se toma con respecto a la medida de probabilidad sobre el espacio donde vive, y el mínimo se toma sobre todos ellos con marginales y , respectivamente. [8]

Ver también

Referencias

  1. ^ Chatterjee, Sourav. «Distancias entre medidas de probabilidad» (PDF) . UC Berkeley. Archivado desde el original (PDF) el 8 de julio de 2008 . Consultado el 21 de junio de 2013 .
  2. ^ Bretagnolle, J.; Huber, C, Estimation des densités: risque minimax , Séminaire de Probabilités, XII (Univ. Estrasburgo, Estrasburgo, 1976/1977), págs. 342–363, Lecture Notes in Math., 649, Springer, Berlín, 1978, Lema 2.1 (Francés).
  3. ^ Tsybakov, Alexandre B., Introducción a la estimación no paramétrica , revisado y ampliado a partir del original francés de 2004. Traducido por Vladimir Zaiats. Serie Springer en Estadística. Springer, Nueva York, 2009. xii+214 págs. ISBN 978-0-387-79051-0 , Ecuación 2.25. 
  4. ^ David A. Levin, Yuval Peres, Elizabeth L. Wilmer, Cadenas de Markov y tiempos de mezcla , 2do. Rdo. ed. (AMS, 2017), Proposición 4.2, p. 48.
  5. ^ Tsybakov, Aleksandr B. (2009). Introducción a la estimación no paramétrica (versión revisada y ampliada del libro francés ed.). Nueva York, Nueva York: Springer. Lema 2.1. ISBN 978-0-387-79051-0.
  6. ^ Devroye, Luc; Györfi, Laszlo; Lugosi, Gabor (4 de abril de 1996). Una teoría probabilística del reconocimiento de patrones (edición corregida). Nueva York: Springer. ISBN 978-0-387-94618-4.
  7. ^ Harsha, Prahladh (23 de septiembre de 2011). "Apuntes de conferencias sobre la complejidad de la comunicación" (PDF) .
  8. ^ Villani, Cédric (2009). Transporte Óptimo, Antiguo y Nuevo. Grundlehren der mathematischen Wissenschaften. vol. 338. Springer-Verlag Berlín Heidelberg. pag. 10. doi :10.1007/978-3-540-71050-9. ISBN 978-3-540-71049-3.