Distancia de variación total de las medidas de probabilidad.
Concepto en teoría de la probabilidad.
En teoría de la probabilidad , la distancia de variación total es una medida de distancia para distribuciones de probabilidad. Es un ejemplo de métrica de distancia estadística y, a veces, se denomina distancia estadística , diferencia estadística o distancia variacional .
También se tiene la siguiente desigualdad, debida a Bretagnolle y Huber [2] (ver también Tsybakov [3] ), que tiene la ventaja de proporcionar un límite no vacío incluso cuando :
La distancia de variación total es la mitad de la distancia L 1 entre las funciones de probabilidad: en dominios discretos esta es la distancia entre funciones de masa de probabilidad [4] . La relación también se cumple de manera más general: [5] cuando las distribuciones tienen funciones de densidad de probabilidad estándar p y q , o la distancia análoga entre derivados de Radón-Nikodym con cualquier medida dominante común . Este resultado se puede demostrar observando que el supremo en la definición se logra exactamente en el conjunto donde una distribución domina a la otra. [6]
La distancia de variación total está relacionada con la distancia de Hellinger de la siguiente manera: [7]
Estas desigualdades se derivan inmediatamente de las desigualdades entre la norma 1 y la norma 2 .
Conexión con la teoría del transporte.
La distancia de variación total (o la mitad de la norma) surge como el costo de transporte óptimo, cuando la función de costos es , es decir,
donde la expectativa se toma con respecto a la medida de probabilidad sobre el espacio donde vive, y el mínimo se toma sobre todos ellos con marginales y , respectivamente. [8]
^ Chatterjee, Sourav. «Distancias entre medidas de probabilidad» (PDF) . UC Berkeley. Archivado desde el original (PDF) el 8 de julio de 2008 . Consultado el 21 de junio de 2013 .
^ Bretagnolle, J.; Huber, C, Estimation des densités: risque minimax , Séminaire de Probabilités, XII (Univ. Estrasburgo, Estrasburgo, 1976/1977), págs. 342–363, Lecture Notes in Math., 649, Springer, Berlín, 1978, Lema 2.1 (Francés).
^
Tsybakov, Alexandre B., Introducción a la estimación no paramétrica , revisado y ampliado a partir del original francés de 2004. Traducido por Vladimir Zaiats. Serie Springer en Estadística. Springer, Nueva York, 2009. xii+214 págs. ISBN 978-0-387-79051-0 , Ecuación 2.25.
^ Tsybakov, Aleksandr B. (2009). Introducción a la estimación no paramétrica (versión revisada y ampliada del libro francés ed.). Nueva York, Nueva York: Springer. Lema 2.1. ISBN978-0-387-79051-0.
^ Devroye, Luc; Györfi, Laszlo; Lugosi, Gabor (4 de abril de 1996). Una teoría probabilística del reconocimiento de patrones (edición corregida). Nueva York: Springer. ISBN978-0-387-94618-4.
^ Harsha, Prahladh (23 de septiembre de 2011). "Apuntes de conferencias sobre la complejidad de la comunicación" (PDF) .
^ Villani, Cédric (2009). Transporte Óptimo, Antiguo y Nuevo. Grundlehren der mathematischen Wissenschaften. vol. 338. Springer-Verlag Berlín Heidelberg. pag. 10. doi :10.1007/978-3-540-71050-9. ISBN978-3-540-71049-3.