stringtranslate.com

Desigualdad de Pinsker

En teoría de la información , la desigualdad de Pinsker , llamada así por su inventor Mark Semenovich Pinsker , es una desigualdad que limita la distancia de variación total (o distancia estadística) en términos de la divergencia de Kullback-Leibler . La desigualdad es estricta hasta factores constantes. [1]

Declaración formal

La desigualdad de Pinsker establece que, si y son dos distribuciones de probabilidad en un espacio medible , entonces

dónde

es la distancia de variación total (o distancia estadística) entre y y

es la divergencia de Kullback–Leibler en nats . Cuando el espacio muestral es un conjunto finito, la divergencia de Kullback–Leibler está dada por

Nótese que en términos de la norma de variación total de la medida con signo , la desigualdad de Pinsker difiere de la dada anteriormente en un factor de dos:

Una prueba de la desigualdad de Pinsker utiliza la desigualdad de partición para f -divergencias .

Versión alternativa

Nótese que la expresión de la desigualdad de Pinsker depende de qué base de logaritmo se utiliza en la definición de divergencia KL. se define utilizando (logaritmo en base ), mientras que se define típicamente con (logaritmo en base 2). Entonces,

Dados los comentarios anteriores, existe una declaración alternativa de la desigualdad de Pinsker en alguna literatura que relaciona la divergencia de información con la distancia de variación:

es decir,

En el cual

es la distancia de variación (no normalizada) entre dos funciones de densidad de probabilidad y en el mismo alfabeto . [2]

Esta forma de la desigualdad de Pinsker muestra que "convergencia en divergencia" es una noción más fuerte que "convergencia en distancia de variación".

John Pollard muestra una prueba sencilla al dejar :

Aquí el lema de Titu también se conoce como desigualdad de Sedrakyan .

Obsérvese que el límite inferior de la desigualdad de Pinsker es nulo para cualquier distribución donde , ya que la distancia de variación total es como máximo . Para tales distribuciones, se puede utilizar un límite alternativo, debido a Bretagnolle y Huber [3] (véase también Tsybakov [4] ):

Historia

Pinsker fue el primero en demostrar la desigualdad con una constante mayor. La desigualdad en la forma anterior fue demostrada independientemente por Kullback , Csiszár y Kemperman . [5]

Problema inverso

No puede cumplirse una inversa precisa de la desigualdad: para cada , existen distribuciones con pero . Un ejemplo sencillo lo da el espacio de dos puntos con y . [6]

Sin embargo, una desigualdad inversa se cumple en espacios finitos con una constante que depende de . [7] Más específicamente, se puede demostrar que con la definición que tenemos para cualquier medida que sea absolutamente continua a

En consecuencia, si tiene soporte completo (es decir, para todos ), entonces

Referencias

  1. ^ Csiszár, Imre; Körner, János (2011). Teoría de la información: teoremas de codificación para sistemas discretos sin memoria. Prensa de la Universidad de Cambridge. pag. 44.ISBN​ 9781139499989.
  2. ^ Raymond W., Yeung (2008). Teoría de la información y codificación de redes . Hong Kong: Springer. pág. 26. ISBN. 978-0-387-79233-0.
  3. ^ Bretagnolle, J.; Huber, C, Estimation des densités: risque minimax , Séminaire de Probabilités, XII (Univ. Estrasburgo, Estrasburgo, 1976/1977), págs. 342–363, Lecture Notes in Math., 649, Springer, Berlín, 1978, Lema 2.1 (Francés).
  4. ^ Tsybakov, Alexandre B., Introducción a la estimación no paramétrica , Revisado y ampliado a partir del original en francés de 2004. Traducido por Vladimir Zaiats. Springer Series in Statistics. Springer, Nueva York, 2009. xii+214 pp. ISBN 978-0-387-79051-0 , Ecuación 2.25. 
  5. ^ Tsybakov, Alexandre (2009). Introducción a la estimación no paramétrica . Springer. pág. 132. ISBN. 9780387790527.
  6. ^ La divergencia se vuelve infinita siempre que una de las dos distribuciones asigna probabilidad cero a un evento mientras que la otra le asigna una probabilidad distinta de cero (sin importar cuán pequeña sea); véase, por ejemplo, Basu, Mitra; Ho, Tin Kam (2006). Complejidad de datos en el reconocimiento de patrones. Springer. p. 161. ISBN. 9781846281723..
  7. ^ Véase el Lema 4.1 en Götze, Friedrich; Sambale, Holger; Sinulis, Arthur (2019). "Concentración de orden superior para funciones de variables aleatorias débilmente dependientes". Revista electrónica de probabilidad . 24 . arXiv : 1801.06348 . doi :10.1214/19-EJP338. S2CID  52200238.

Lectura adicional