stringtranslate.com

Divergencia Kullback-Leibler

En estadística matemática , la divergencia de Kullback-Leibler ( KL ) (también llamada entropía relativa y divergencia I [1] ), denotada , es un tipo de distancia estadística : una medida de cómo una distribución de probabilidad P es diferente de una segunda referencia. distribución de probabilidad Q . [2] [3] Una interpretación simple de la divergencia KL de P de Q es el exceso de sorpresa esperado al usar Q como modelo en lugar de P cuando la distribución real es P. Si bien es una medida de cuán diferentes son dos distribuciones y, en cierto sentido, es una "distancia", en realidad no es una métrica , que es el tipo de distancia más familiar y formal. En particular, no es simétrica en las dos distribuciones (a diferencia de la variación de la información ) y no satisface la desigualdad triangular . En cambio, en términos de geometría de la información , es un tipo de divergencia , [4] una generalización de la distancia al cuadrado , y para ciertas clases de distribuciones (en particular, una familia exponencial ), satisface un teorema de Pitágoras generalizado (que se aplica a distancias al cuadrado) . [5]

Una entropía relativa de 0 indica que las dos distribuciones en cuestión son idénticas. La entropía relativa es una función no negativa de dos distribuciones o medidas. Tiene diversas aplicaciones, tanto teóricas, como caracterizar la entropía relativa (Shannon) en sistemas de información, la aleatoriedad en series de tiempo continuas y la ganancia de información al comparar modelos estadísticos de inferencia ; y prácticos, como estadística aplicada, mecánica de fluidos , neurociencia y bioinformática .

Introducción y contexto

Considere dos distribuciones de probabilidad P y Q. Generalmente, P representa los datos, las observaciones o una distribución de probabilidad medida. La distribución Q representa en cambio una teoría, un modelo, una descripción o una aproximación de P. Luego , la divergencia de Kullback-Leibler se interpreta como la diferencia promedio del número de bits necesarios para codificar muestras de P utilizando un código optimizado para Q en lugar de uno optimizado para P. Tenga en cuenta que los roles de P y Q se pueden invertir en algunas situaciones en las que es más fácil de calcular, como con los cálculos del algoritmo de maximización de expectativas (EM) y del límite inferior de evidencia (ELBO) .

Etimología

La entropía relativa fue introducida por Solomon Kullback y Richard Leibler en Kullback & Leibler (1951) como "la información media para la discriminación entre y por observación de ", [6] donde se comparan dos medidas de probabilidad , y son las hipótesis de que se está comparando dos medidas de probabilidad. seleccionando de la medida (respectivamente). Denotaron esto por y definieron la "'divergencia' entre y " como la cantidad simetrizada , que ya había sido definida y utilizada por Harold Jeffreys en 1948. [7] En Kullback (1959), la forma simetrizada se denomina nuevamente la "divergencia" y las entropías relativas en cada dirección se denominan "divergencias dirigidas" entre dos distribuciones; [8] Kullback prefirió el término información sobre discriminación . [9] El término "divergencia" contrasta con una distancia (métrica), ya que la divergencia simetrizada no satisface la desigualdad del triángulo. [10] En Kullback (1959, págs. 6–7, §1.3 Divergencia) se dan numerosas referencias a usos anteriores de la divergencia simetrizada y a otras distancias estadísticas . La "divergencia dirigida" asimétrica se conoce como divergencia Kullback-Leibler, mientras que la "divergencia" simetrizada ahora se conoce como divergencia de Jeffreys .

Definición

Para distribuciones de probabilidad discretas P y Q definidas en el mismo espacio muestral , la entropía relativa de Q a P se define [11] como

que es equivalente a

En otras palabras, es la expectativa de la diferencia logarítmica entre las probabilidades P y Q , donde la expectativa se toma usando las probabilidades P.

La entropía relativa sólo se define de esta manera si, para todo x , implica ( continuidad absoluta ). De lo contrario, a menudo se define como , [1] pero el valor es posible incluso en todas partes, [12] [13] siempre que sea infinito en extensión. Comentarios análogos se aplican a los casos de medidas continuas y generales definidos a continuación.

Siempre que sea cero la contribución del término correspondiente se interpreta como cero porque

Para las distribuciones P y Q de una variable aleatoria continua , la entropía relativa se define como la integral [14]

donde p y q denotan las densidades de probabilidad de P y Q.

De manera más general, si P y Q son medidas de probabilidad en un espacio mensurable y P es absolutamente continua con respecto a Q , entonces la entropía relativa de Q a P se define como

¿Dónde está la derivada Radon-Nikodym de P con respecto a Q , es decir, la única función Q definida en casi todas partes r tal que existe porque P es absolutamente continua con respecto a Q ? También asumimos que existe la expresión del lado derecho. De manera equivalente (según la regla de la cadena ), esto se puede escribir como

que es la entropía de P relativa a Q. Continuando en este caso, si hay alguna medida para la cual existen densidades p y q con y (lo que significa que P y Q son ambos absolutamente continuos con respecto a ), entonces la entropía relativa de Q a P está dada como

Tenga en cuenta que siempre existe una medida para la cual se pueden definir densidades, ya que se puede tomar, aunque en la práctica generalmente será una que en el contexto sea una medida de conteo para distribuciones discretas, o una medida de Lebesgue o una variante conveniente de la misma, como la medida gaussiana o la medida uniforme en la esfera , medida de Haar en un grupo de Lie , etc. para distribuciones continuas. Los logaritmos en estas fórmulas generalmente se llevan a base 2 si la información se mide en unidades de bits , o a base e si la información se mide en nats . La mayoría de las fórmulas que involucran entropía relativa se mantienen independientemente de la base del logaritmo.

Existen varias convenciones para referirse a palabras. A menudo se hace referencia a esto como la divergencia entre P y Q , pero esto no logra transmitir la asimetría fundamental en la relación. A veces , como en este artículo, puede describirse como la divergencia de P de Q o como la divergencia de Q a P. Esto refleja la asimetría en la inferencia bayesiana , que comienza desde una Q anterior y se actualiza a la P posterior . Otra forma común de referirse es como la entropía relativa de P con respecto a Q o la ganancia de información de P sobre Q.

Ejemplo básico

Kullback [3] da el siguiente ejemplo (Tabla 2.1, Ejemplo 2.1). Sean P y Q las distribuciones que se muestran en la tabla y la figura. P es la distribución en el lado izquierdo de la figura, una distribución binomial con y . Q es la distribución en el lado derecho de la figura, una distribución uniforme discreta con los tres resultados posibles 0 ,1 ,2 (es decir ), cada uno con probabilidad .

Dos distribuciones para ilustrar la entropía relativa.

Las entropías relativas y se calculan de la siguiente manera. Este ejemplo utiliza el registro natural con base e , designado ln para obtener resultados en nats (ver unidades de información ):

Interpretaciones

Estadísticas

En el campo de la estadística, el lema de Neyman-Pearson establece que la forma más poderosa de distinguir entre las dos distribuciones P y Q basándose en una observación Y (extraída de una de ellas) es a través del logaritmo de la razón de sus probabilidades: . La divergencia KL es el valor esperado de esta estadística si Y realmente se extrae de P. Kullback motivó la estadística como una relación de probabilidad logarítmica esperada. [15]

Codificación

En el contexto de la teoría de la codificación , se puede construir midiendo el número esperado de bits adicionales necesarios para codificar muestras de P utilizando un código optimizado para Q en lugar del código optimizado para P.

Inferencia

En el contexto del aprendizaje automático , a menudo se le llama ganancia de información lograda si se usara P en lugar de Q que se usa actualmente. Por analogía con la teoría de la información, se denomina entropía relativa de P con respecto a Q.

Expresado en el lenguaje de la inferencia bayesiana , es una medida de la información obtenida al revisar las creencias de uno desde la distribución de probabilidad anterior Q a la distribución de probabilidad posterior P. En otras palabras, es la cantidad de información que se pierde cuando se utiliza Q para aproximar P. [dieciséis]

Geometría de la información

En las aplicaciones, P normalmente representa la distribución "verdadera" de datos, observaciones o una distribución teórica calculada con precisión, mientras que Q normalmente representa una teoría, modelo, descripción o aproximación de P. Para encontrar una distribución Q que sea la más cercana a P , podemos minimizar la divergencia KL y calcular una proyección de información .

Si bien es una distancia estadística , no es una métrica , el tipo de distancia más familiar, sino que es una divergencia . [4] Mientras que las métricas son simétricas y generalizan la distancia lineal , satisfaciendo la desigualdad del triángulo , las divergencias son asimétricas y generalizan la distancia al cuadrado , satisfaciendo en algunos casos un teorema de Pitágoras generalizado . En general no es igual , y la asimetría es una parte importante de la geometría. [4] La forma infinitesimal de entropía relativa, específicamente su hessiana , da un tensor métrico que es igual a la métrica de información de Fisher ; ver § Métrica de información de Fisher. La entropía relativa satisface un teorema de Pitágoras generalizado para familias exponenciales (interpretadas geométricamente como variedades dualmente planas ), y esto permite minimizar la entropía relativa por medios geométricos, por ejemplo mediante proyección de información y estimación de máxima verosimilitud . [5]

La entropía relativa es la divergencia de Bregman generada por la entropía negativa, pero también tiene la forma de una divergencia f . Para probabilidades sobre un alfabeto finito , es único por ser miembro de ambas clases de divergencias estadísticas .

Finanzas (teoría de juegos)

Consideremos un inversor que optimiza el crecimiento en un juego limpio con resultados mutuamente excluyentes (por ejemplo, una “carrera de caballos” en la que las probabilidades oficiales suman uno). La tasa de rendimiento esperada por dicho inversor es igual a la entropía relativa entre las probabilidades que cree el inversor y las probabilidades oficiales. [17] Éste es un caso especial de una conexión mucho más general entre los rendimientos financieros y las medidas de divergencia. [18]

Los riesgos financieros están conectados a través de la geometría de la información. [19] Las opiniones de los inversores, la opinión predominante en el mercado y los escenarios de riesgo forman triángulos en la correspondiente variedad de distribuciones de probabilidad. La forma de los triángulos determina los riesgos financieros clave (tanto cualitativa como cuantitativamente). Por ejemplo, los triángulos obtusos en los que las opiniones de los inversores y los escenarios de riesgo aparecen en "lados opuestos" en relación con el mercado describen riesgos negativos, los triángulos agudos describen una exposición positiva y la situación en ángulo recto en el medio corresponde a riesgo cero.

Motivación

Ilustración de la entropía relativa de dos distribuciones normales . La asimetría típica es claramente visible.

En teoría de la información, el teorema de Kraft-McMillan establece que cualquier esquema de codificación directamente decodificable para codificar un mensaje para identificar un valor de un conjunto de posibilidades X puede verse como una representación de una distribución de probabilidad implícita sobre X , donde es la longitud del código. por en pedazos. Por lo tanto, la entropía relativa puede interpretarse como la longitud adicional esperada del mensaje por dato que debe comunicarse si se usa un código que es óptimo para una distribución Q dada (incorrecta) , en comparación con el uso de un código basado en la distribución verdadera P : es el exceso de entropía.

donde es la entropía cruzada de P y Q , y es la entropía de P (que es la misma que la entropía cruzada de P consigo mismo).

La entropía relativa puede considerarse geométricamente como una distancia estadística , una medida de qué tan lejos está la distribución Q de la distribución P. Geométricamente es una divergencia : una forma asimétrica y generalizada de distancia al cuadrado. La entropía cruzada es en sí misma una medida de este tipo (formalmente una función de pérdida ), pero no puede considerarse como una distancia, ya que no es cero. Esto se puede solucionar restando para que coincida más con nuestra noción de distancia, como pérdida excesiva . La función resultante es asimétrica y, si bien se puede simetrizar (ver § Divergencia simetrizada), la forma asimétrica es más útil. Consulte § Interpretaciones para obtener más información sobre la interpretación geométrica.

La entropía relativa se relaciona con la " función de tasa " en la teoría de las grandes desviaciones . [20] [21]

Arthur Hobson demostró que la entropía relativa es la única medida de diferencia entre distribuciones de probabilidad que satisface algunas propiedades deseadas, que son la extensión canónica de las que aparecen en una caracterización de entropía comúnmente utilizada . [22] En consecuencia, la información mutua es la única medida de dependencia mutua que obedece a ciertas condiciones relacionadas, ya que puede definirse en términos de la divergencia Kullback-Leibler .

Propiedades

En particular, si y , entonces , en casi todas partes . La entropía establece así un valor mínimo para la entropía cruzada , el número esperado de bits necesarios cuando se utiliza un código basado en Q en lugar de P ; y la divergencia Kullback-Leibler, por lo tanto, representa el número esperado de bits adicionales que deben transmitirse para identificar un valor x extraído de X , si se utiliza un código correspondiente a la distribución de probabilidad Q , en lugar de la distribución "verdadera " P.

[Prueba]

Denota y observa que . La primera derivada de puede derivarse y evaluarse de la siguiente manera

Se pueden derivar y evaluar más derivados de la siguiente manera
Por lo tanto, resolviendo mediante la expansión de Taylor de aproximadamente evaluado con rendimientos
como es una condición suficiente para la convergencia de la serie según el siguiente argumento de convergencia absoluta
como también es condición necesaria para la convergencia de la serie mediante la siguiente prueba por contradicción. Supongamos que con una medida estrictamente mayor que . Entonces se deduce que deben existir algunos valores , , y tales que y con medida . La prueba de suficiencia anterior demostró que el componente de medida de la serie donde está acotado, por lo que sólo debemos preocuparnos por el comportamiento del componente de medida de la serie donde . El valor absoluto del término ésimo de este componente de la serie está entonces acotado inferior por , que no está acotado como , por lo que la serie diverge.


Fórmula de dualidad para la inferencia variacional.

El siguiente resultado, debido a Donsker y Varadhan, [25] se conoce como fórmula variacional de Donsker y Varadhan .

Teorema [Fórmula de dualidad para la inferencia variacional]  -  Seacampoapropiadoy dos medidas de probabilidad P y Q , que formulan dos espacios de probabilidad y, con. (indica que Q es absolutamente continua con respecto a P .) Sea h una variable aleatoria integrable de valor realen. Entonces se cumple la siguiente igualdad

Además, el supremo del lado derecho se alcanza si y sólo si se cumple

casi seguramente con respecto a la medida de probabilidad P , donde denota la derivada radón-Nikodym de Q con respecto a P .

Prueba

Para una prueba breve asumiendo integrabilidad de con respecto a P , tengamos P -densidad , es decir, entonces

Por lo tanto,

de donde se sigue la última desigualdad , para la cual la igualdad ocurre si y solo si . La conclusión sigue.

Para una prueba alternativa utilizando la teoría de la medida , consulte. [26]

Ejemplos

Distribuciones normales multivariadas

Supongamos que tenemos dos distribuciones normales multivariadas , con medias y con matrices de covarianza (no singulares). Si las dos distribuciones tienen la misma dimensión, k , entonces la entropía relativa entre las distribuciones es la siguiente: [27]

El logaritmo en el último término debe tomarse en base e, ya que todos los términos, excepto el último, son logaritmos en base e de expresiones que son factores de la función de densidad o que surgen de forma natural. Por tanto, la ecuación da un resultado medido en nats . Al dividir toda la expresión anterior por se obtiene la divergencia en bits .

En una implementación numérica, es útil expresar el resultado en términos de descomposiciones de Cholesky tales que y . Luego con M e y soluciones a los sistemas lineales triangulares , y ,

Un caso especial, y una cantidad común en la inferencia variacional , es la entropía relativa entre una distribución normal multivariada diagonal y una distribución normal estándar (con media cero y varianza unitaria):

Para dos distribuciones normales univariadas p y q lo anterior se simplifica a [28]

En el caso de distribuciones normales cocéntricas con , esto se simplifica [29] a:

Distribuciones uniformes

Considere dos distribuciones uniformes, con el apoyo de encerrado dentro de ( ). Entonces la ganancia de información es:

Intuitivamente, [29] la ganancia de información a una distribución uniforme k veces más estrecha contiene bits. Esto se relaciona con el uso de bits en informática, donde se necesitarían bits para identificar un elemento de un flujo de k longitud.

Relación con las métricas

Si bien la entropía relativa es una distancia estadística , no es una métrica en el espacio de distribuciones de probabilidad, sino que es una divergencia . [4] Mientras que las métricas son simétricas y generalizan la distancia lineal , satisfaciendo la desigualdad del triángulo , las divergencias son asimétricas en general y generalizan la distancia al cuadrado , satisfaciendo en algunos casos un teorema de Pitágoras generalizado . En general no es igual , y si bien esto se puede simetrizar (ver § Divergencia simetrizada), la asimetría es una parte importante de la geometría. [4]

Genera una topología en el espacio de distribuciones de probabilidad . Más concretamente, si es una secuencia de distribuciones tal que

,

entonces se dice que

.

La desigualdad de Pinsker implica que

,

donde este último representa la convergencia habitual en la variación total .

Métrica de información de Fisher

La entropía relativa está directamente relacionada con la métrica de información de Fisher . Esto se puede hacer explícito de la siguiente manera. Supongamos que las distribuciones de probabilidad P y Q están parametrizadas por algún parámetro (posiblemente multidimensional) . Consideremos entonces dos valores cercanos de y de modo que el parámetro difiera sólo una pequeña cantidad del valor del parámetro . Específicamente, hasta el primer orden se tiene (usando la convención de suma de Einstein )

con un pequeño cambio en la dirección j y la correspondiente tasa de cambio en la distribución de probabilidad. Dado que la entropía relativa tiene un mínimo absoluto de 0 para , es decir , cambia sólo al segundo orden en los parámetros pequeños . Más formalmente, como para cualquier mínimo, las primeras derivadas de la divergencia desaparecen

y por la expansión de Taylor se tiene hasta segundo orden

donde la matriz hessiana de la divergencia

debe ser semidefinido positivo . Dejando variar (y eliminando el subíndice 0), el hessiano define una métrica de Riemann (posiblemente degenerada) en el espacio de parámetros θ , llamada métrica de información de Fisher.

Teorema de la métrica de información de Fisher

Cuando se cumplan las siguientes condiciones de regularidad:

existir,

donde ξ es independiente de ρ

entonces:

Variación de información

Otra métrica de la teoría de la información es la variación de la información , que es aproximadamente una simetrización de la entropía condicional . Es una métrica sobre el conjunto de particiones de un espacio de probabilidad discreto .

Relación con otras cantidades de la teoría de la información.

Muchas de las otras cantidades de la teoría de la información pueden interpretarse como aplicaciones de entropía relativa a casos específicos.

Autoinformación

La autoinformación , también conocida como contenido de información de una señal, variable aleatoria o evento, se define como el logaritmo negativo de la probabilidad de que ocurra un resultado dado.

Cuando se aplica a una variable aleatoria discreta , la autoinformación se puede representar como [ cita necesaria ]

es la entropía relativa de la distribución de probabilidad de un delta de Kronecker que representa la certeza de que , es decir, el número de bits adicionales que deben transmitirse para identificar i si sólo la distribución de probabilidad está disponible para el receptor, no el hecho de que .

Información mutua

La información mutua ,

es la entropía relativa de la distribución de probabilidad conjunta del producto de las dos distribuciones de probabilidad marginal , es decir, el número esperado de bits adicionales que deben transmitirse para identificar X e Y si se codifican utilizando sólo sus distribuciones marginales en lugar de la distribución conjunta. De manera equivalente, si se conoce la probabilidad conjunta , es el número esperado de bits adicionales que deben enviarse en promedio para identificar Y si el receptor aún no conoce el valor de X.

Entropía de Shannon

La entropía de Shannon ,

es el número de bits que tendrían que transmitirse para identificar X entre N posibilidades igualmente probables, menos la entropía relativa de la distribución uniforme en las variables aleatorias de X , , de la distribución verdadera , es decir, menos el número esperado de bits guardados, que habría tenido que enviarse si el valor de X estuviera codificado según la distribución uniforme en lugar de la distribución verdadera . Esta definición de entropía de Shannon forma la base de la generalización alternativa de ET Jaynes a las distribuciones continuas, la densidad límite de puntos discretos (a diferencia de la entropía diferencial habitual ), que define la entropía continua como

que equivale a:

Entropía condicional

La entropía condicional [30] ,

es el número de bits que tendrían que transmitirse para identificar X entre N posibilidades igualmente probables, menos la entropía relativa de la distribución del producto de la distribución conjunta verdadera , es decir, menos el número esperado de bits guardados que habrían tenido que enviarse si el valor de X se codificó de acuerdo con la distribución uniforme en lugar de la distribución condicional de X dado Y.

Entropía cruzada

Cuando tenemos un conjunto de eventos posibles, provenientes de la distribución p , podemos codificarlos (con una compresión de datos sin pérdidas ) usando codificación de entropía . Esto comprime los datos reemplazando cada símbolo de entrada de longitud fija con un código único, de longitud variable y sin prefijos (por ejemplo: los eventos (A, B, C) con probabilidades p = (1/2, 1/4, 1/4) se puede codificar como los bits (0, 10, 11)). Si conocemos la distribución p de antemano, podemos diseñar una codificación que sea óptima (por ejemplo, usando la codificación de Huffman ). Lo que significa que los mensajes que codificamos tendrán la longitud más corta en promedio (asumiendo que los eventos codificados se muestrean a partir de p ), lo que será igual a la entropía de Shannon de p (denotada como ). Sin embargo, si utilizamos una distribución de probabilidad diferente ( q ) al crear el esquema de codificación de entropía, entonces se utilizará una mayor cantidad de bits (en promedio) para identificar un evento entre un conjunto de posibilidades. Este nuevo número (más grande) se mide por la entropía cruzada entre p y q .

La entropía cruzada entre dos distribuciones de probabilidad ( p y q ) mide el número promedio de bits necesarios para identificar un evento entre un conjunto de posibilidades, si se utiliza un esquema de codificación basado en una distribución de probabilidad q determinada , en lugar de la distribución "verdadera". pag . La entropía cruzada para dos distribuciones p y q en el mismo espacio de probabilidad se define de la siguiente manera.

Para obtener una derivación explícita de esto, consulte la sección Motivación anterior.

En este escenario, las entropías relativas (kl-divergencia) se pueden interpretar como la cantidad adicional de bits, en promedio, que se necesitan (más allá de ) para codificar los eventos debido al uso de q para construir el esquema de codificación en lugar de p .

actualización bayesiana

En la estadística bayesiana , la entropía relativa se puede utilizar como medida de la ganancia de información al pasar de una distribución anterior a una distribución posterior : . Si se descubre algún hecho nuevo , se puede utilizar para actualizar la distribución posterior de X a una nueva distribución posterior utilizando el teorema de Bayes :

Esta distribución tiene una nueva entropía :

que puede ser menor o mayor que la entropía original . Sin embargo, desde el punto de vista de la nueva distribución de probabilidad se puede estimar que de haber utilizado el código original basado en en lugar de un nuevo código basado en se habría añadido un número esperado de bits:

a la longitud del mensaje. Por lo tanto, esto representa la cantidad de información útil, o ganancia de información, sobre X , que se ha aprendido al descubrir .

Si posteriormente llega otro dato , la distribución de probabilidad de x se puede actualizar aún más, para dar una nueva mejor estimación . Si uno vuelve a investigar la ganancia de información por usar en lugar de , resulta que puede ser mayor o menor que lo estimado previamente:

puede ser ≤ o > que

y entonces la ganancia de información combinada no obedece a la desigualdad del triángulo:

puede ser <, = o > que

Todo lo que se puede decir es que en promedio , al promediar usando , las dos partes promediarán.

Diseño experimental bayesiano

Un objetivo común en el diseño experimental bayesiano es maximizar la entropía relativa esperada entre el anterior y el posterior. [31] Cuando las distribuciones posteriores se aproximan a distribuciones gaussianas, un diseño que maximiza la entropía relativa esperada se denomina Bayes d-óptimo .

Información sobre discriminación

La entropía relativa también se puede interpretar como la información de discriminación esperada para más : la información media por muestra para discriminar a favor de una hipótesis contra una hipótesis , cuando la hipótesis es verdadera. [32] Otro nombre para esta cantidad, que le dio IJ Good , es el peso esperado de la evidencia para el exceso que se espera de cada muestra.

El peso esperado de la evidencia para over no es el mismo que la ganancia de información esperada por muestra sobre la distribución de probabilidad de las hipótesis.

Cualquiera de las dos cantidades puede usarse como función de utilidad en el diseño experimental bayesiano, para elegir la siguiente pregunta óptima a investigar, pero en general conducirán a estrategias experimentales bastante diferentes.

En la escala de entropía de la ganancia de información hay muy poca diferencia entre certeza cercana y certeza absoluta: codificar según una certeza casi requiere apenas más bits que codificar según una certeza absoluta. Por otro lado, en la escala logit implícita en el peso de la evidencia, la diferencia entre los dos es enorme –quizás infinita–; esto podría reflejar la diferencia entre estar casi seguro (en un nivel probabilístico) de que, digamos, la hipótesis de Riemann es correcta, en comparación con estar seguro de que es correcta porque se tiene una prueba matemática. Estas dos escalas diferentes de función de pérdida para la incertidumbre son útiles , según qué tan bien refleje cada una las circunstancias particulares del problema en cuestión.

Principio de información mínima de discriminación.

La idea de la entropía relativa como información de discriminación llevó a Kullback a proponer el Principio deInformación de discriminación mínima (MDIse debe elegiruna nueva distribuciónfposible; para que los nuevos datos produzcan la menor ganancia de informaciónposible.

Por ejemplo, si uno tuviera una distribución previa sobre x y a , y posteriormente supiera que la verdadera distribución de a era , entonces la entropía relativa entre la nueva distribución conjunta para x y a , y la distribución anterior anterior sería:

es decir, la suma de la entropía relativa de la distribución anterior para a de la distribución actualizada , más el valor esperado (usando la distribución de probabilidad ) de la entropía relativa de la distribución condicional anterior de la nueva distribución condicional . (Tenga en cuenta que a menudo el valor esperado posterior se denomina entropía relativa condicional (o divergencia condicional de Kullback-Leibler ) y se denota por [3] [30] ). Esto se minimiza si se encuentra sobre todo el soporte de ; y observamos que este resultado incorpora el teorema de Bayes, si la nueva distribución es de hecho una función δ que representa la certeza de que a tiene un valor particular.

El MDI puede verse como una extensión del Principio de Razón Insuficiente de Laplace y del Principio de Máxima Entropía de ET Jaynes . En particular, es la extensión natural del principio de máxima entropía de distribuciones discretas a continuas, para la cual la entropía de Shannon deja de ser tan útil (ver entropía diferencial ), pero la entropía relativa sigue siendo igual de relevante.

En la literatura de ingeniería, el MDI a veces se denomina Principio de entropía cruzada mínima (MCE) o Minxent para abreviar. Minimizar la entropía relativa de m a p con respecto a m es equivalente a minimizar la entropía cruzada de p y m , ya que

lo cual es apropiado si se intenta elegir una aproximación adecuada a p . Sin embargo, muchas veces ésta no es la tarea que uno intenta lograr. En cambio, con la misma frecuencia m es una medida de referencia previa fija, yp lo que se intenta optimizar minimizando sujeto a alguna restricción. Esto ha generado cierta ambigüedad en la literatura, y algunos autores intentaron resolver la inconsistencia redefiniendo la entropía cruzada como ser , en lugar de [ cita necesaria ] .

Relación con el trabajo disponible

Gráfico de presión versus volumen del trabajo disponible de un mol de gas argón en relación con el ambiente, calculado como multiplicado por la divergencia Kullback-Leibler

Las sorpresas [33] se suman donde las probabilidades se multiplican. La sorpresa para un evento de probabilidad p se define como . Si k es entonces la sorpresa está en nats, bits, o de modo que, por ejemplo, hay N bits de sorpresa por sacar todas las "caras" en un lanzamiento de N monedas.

Los estados de mejor estimación (por ejemplo, para los átomos en un gas) se infieren maximizando la sorpresa promedio S ( entropía ) para un conjunto dado de parámetros de control (como la presión P o el volumen V ). Esta maximización de entropía restringida , tanto clásicamente [34] como mecánica cuántica, [35] minimiza la disponibilidad de Gibbs en unidades de entropía [36] donde Z es una función de multiplicidad o partición restringida .

Cuando la temperatura T es fija, la energía libre ( ) también se minimiza. Así, si y el número de moléculas N son constantes, la energía libre de Helmholtz (donde U es energía y S es entropía) se minimiza a medida que un sistema se "equilibra". Si T y P se mantienen constantes (digamos durante los procesos en su cuerpo), la energía libre de Gibbs se minimiza. El cambio de energía libre en estas condiciones es una medida del trabajo disponible que podría realizarse en el proceso. Por tanto, el trabajo disponible para un gas ideal a temperatura y presión constantes es donde y (ver también desigualdad de Gibbs ).

De manera más general, [37] el trabajo disponible en relación con algún ambiente se obtiene multiplicando la temperatura ambiente por la entropía relativa o sorpresa neta definida como el valor promedio de dónde está la probabilidad de un estado dado en condiciones ambientales. Por ejemplo, el trabajo disponible para equilibrar un gas ideal monoatómico con los valores ambientales de y es, por lo tanto , donde la entropía relativa

Los contornos resultantes de entropía relativa constante, que se muestran a la derecha para un mol de argón a temperatura y presión estándar, por ejemplo, ponen límites a la conversión de calor a frío como en el aire acondicionado accionado por llama o en el dispositivo sin alimentación para convertir el calor en ebullición. agua a agua helada que se analiza aquí. [38] Así, la entropía relativa mide la disponibilidad termodinámica en bits.

Teoría de la información cuántica

Para las matrices de densidad P y Q en un espacio de Hilbert , la entropía relativa cuántica de Q a P se define como

En la ciencia de la información cuántica, el mínimo de todos los estados separables Q también se puede utilizar como medida de entrelazamiento en el estado P.

Relación entre modelos y realidad

Así como la entropía relativa de "lo real a partir del ambiente" mide la disponibilidad termodinámica, la entropía relativa de la "realidad a partir de un modelo" también es útil incluso si las únicas pistas que tenemos sobre la realidad son algunas mediciones experimentales. En el primer caso, la entropía relativa describe la distancia al equilibrio o (cuando se multiplica por la temperatura ambiente) la cantidad de trabajo disponible , mientras que en el segundo caso te habla de las sorpresas que la realidad tiene bajo la manga o, en otras palabras, cuánto cuesta el modelo. todavía tiene que aprender .

Aunque esta herramienta para evaluar modelos frente a sistemas accesibles experimentalmente puede aplicarse en cualquier campo, su aplicación para seleccionar un modelo estadístico mediante el criterio de información de Akaike está particularmente bien descrita en artículos [39] y en un libro [40] de Burnham y Anderson. En pocas palabras, la entropía relativa de la realidad de un modelo puede estimarse, dentro de un término aditivo constante, en función de las desviaciones observadas entre los datos y las predicciones del modelo (como la desviación cuadrática media ). Las estimaciones de dicha divergencia para modelos que comparten el mismo término aditivo pueden, a su vez, usarse para seleccionar entre modelos.

Cuando se intenta ajustar modelos parametrizados a los datos, existen varios estimadores que intentan minimizar la entropía relativa, como los estimadores de máxima verosimilitud y máximo espaciado . [ cita necesaria ]

Divergencia simetrizada

Kullback y Leibler (1951) también consideraron la función simetrizada: [6]

a la que se referían como "divergencia", aunque hoy la "divergencia KL" se refiere a la función asimétrica (ver § Etimología para la evolución del término). Esta función es simétrica y no negativa, y ya había sido definida y utilizada por Harold Jeffreys en 1948; [7] En consecuencia, se denomina divergencia de Jeffreys .

Esta cantidad se ha utilizado a veces para la selección de características en problemas de clasificación , donde P y Q son las PDF condicionales de una característica en dos clases diferentes. En las industrias bancaria y financiera, esta cantidad se conoce como índice de estabilidad de la población ( PSI ) y se utiliza para evaluar los cambios distributivos en las características del modelo a lo largo del tiempo.

Se da una alternativa a través de la divergencia,

que puede interpretarse como la ganancia de información esperada sobre X al descubrir de qué distribución de probabilidad se extrae X , P o Q , si actualmente tienen probabilidades y respectivamente. [ se necesita aclaración ] [ se necesita cita ]

El valor da la divergencia de Jensen-Shannon , definida por

donde M es el promedio de las dos distribuciones,

También podemos interpretarlo como la capacidad de un canal de información ruidoso con dos entradas que dan las distribuciones de salida P y Q. La divergencia de Jensen-Shannon, como todas las f -divergencias, es localmente proporcional a la métrica de información de Fisher . Es similar a la métrica de Hellinger (en el sentido de que induce la misma conexión afín en una variedad estadística ).

Además, la divergencia de Jensen-Shannon se puede generalizar utilizando mezclas M estadísticas abstractas basadas en una media abstracta M. [41] [42]

Relación con otras medidas de probabilidad-distancia

Hay muchas otras medidas importantes de distancia de probabilidad . Algunos de ellos están particularmente relacionados con la entropía relativa. Por ejemplo:

Otras medidas notables de distancia incluyen la distancia de Hellinger , la intersección de histogramas , la estadística de chi-cuadrado , la distancia en forma cuadrática , la distancia de coincidencia , la distancia de Kolmogorov-Smirnov y la distancia del motor de tierra . [45]

Diferenciación de datos

Así como la entropía absoluta sirve como base teórica para la compresión de datos , la entropía relativa sirve como base teórica para la diferenciación de datos : la entropía absoluta de un conjunto de datos en este sentido son los datos necesarios para reconstruirlo (tamaño mínimo comprimido), mientras que la entropía relativa de un conjunto de datos de destino, dado un conjunto de datos de origen, son los datos necesarios para reconstruir el objetivo dada la fuente (tamaño mínimo de un parche ).

Ver también

Referencias

  1. ^ ab Csiszar, I (febrero de 1975). "Geometría I-divergencia de distribuciones de probabilidad y problemas de minimización". Ana. Probablemente . 3 (1): 146-158. doi : 10.1214/aop/1176996454 .
  2. ^ Kullback, S .; Leibler, RA (1951). "Sobre la información y la suficiencia". Anales de estadística matemática . 22 (1): 79–86. doi : 10.1214/aoms/1177729694 . JSTOR  2236703. SEÑOR  0039968.
  3. ^ abc Kullback 1959.
  4. ^ abcde Amari 2016, pag. 11.
  5. ^ ab Amari 2016, pag. 28.
  6. ^ ab Kullback y Leibler 1951, pág. 80.
  7. ^ ab Jeffreys 1948, pág. 158.
  8. ^ Kullback 1959, pag. 7.
  9. ^ Kullback, S. (1987). "Carta al editor: la distancia Kullback-Leibler". El estadístico estadounidense . 41 (4): 340–341. doi :10.1080/00031305.1987.10475510. JSTOR  2684769.
  10. ^ Kullback 1959, pag. 6.
  11. ^ MacKay, David JC (2003). Teoría de la información, inferencia y algoritmos de aprendizaje (1ª ed.). Prensa de la Universidad de Cambridge. pag. 34.ISBN 9780521642989- a través de libros de Google.
  12. ^ "¿Cuál es el valor máximo de la divergencia Kullback-Leibler (KL)?". Aprendizaje automático. Intercambio de pila de estadísticas (stats.stackexchange.com) . Validado cruzadamente.
  13. ^ "¿En qué situaciones la integral es igual al infinito?". Integración. Intercambio de pila de matemáticas (math.stackexchange.com) .
  14. ^ Bishop, Christopher M. Reconocimiento de patrones y aprendizaje automático. pag. 55. OCLC  1334664824.
  15. ^ Kullback 1959, pag. 5.
  16. ^ Burnham, KP; Anderson, DR (2002). Selección de modelos e inferencia multimodelo (2ª ed.). Saltador. pag. 51.ISBN 9780387953649.
  17. ^ Kelly, JL Jr. (1956). "Una nueva interpretación de la tasa de información". Sistema de campana. Tecnología. J.2 (4): 917–926. doi :10.1002/j.1538-7305.1956.tb03809.x.
  18. ^ Soklakov, AN (2020). "Economía del desacuerdo: intuición financiera para la divergencia de Rényi". Entropía . 22 (8): 860. arXiv : 1811.08308 . Código Bib : 2020Entrp..22..860S. doi : 10.3390/e22080860 . PMC 7517462 . PMID  33286632. 
  19. ^ Soklakov, AN (2023). "Geometría de la Información de Riesgos y Rentabilidades". Riesgo . Junio ​​. SSRN  4134885.
  20. ^ Sanov, IN (1957). "Sobre la probabilidad de grandes desviaciones de magnitudes aleatorias". Estera. Sbornik . 42 (84): 11–44.
  21. ^ Novak SY (2011), Métodos de valor extremo con aplicaciones a las finanzas , cap. 14.5 ( Chapman y Hall ). ISBN 978-1-4398-3574-6
  22. ^ Hobson, Arturo (1971). Conceptos en mecánica estadística . Nueva York: Gordon y Breach. ISBN 978-0677032405.
  23. ^ Bonnici, V. (2020). "Divergencia de Kullback-Leibler entre distribuciones cuánticas y su límite superior". arXiv : 2008.05932 [cs.LG].
  24. ^ Ver la sección "entropía diferencial - 4" en video conferencia sobre Entropía relativa de Sergio Verdú NIPS 2009
  25. ^ Donsker, Monroe D.; Varadhan, SR Srinivasa (1983). "Evaluación asintótica de determinadas expectativas del proceso de Markov a largo plazo. IV". Comunicaciones sobre Matemática Pura y Aplicada . 36 (2): 183–212. doi :10.1002/cpa.3160360204.
  26. ^ Lee, Se Yoon (2021). "Muestreador de Gibbs e inferencia variacional de ascenso de coordenadas: una revisión de la teoría de conjuntos". Comunicaciones en Estadística - Teoría y Métodos . 51 (6): 1549-1568. arXiv : 2008.01006 . doi :10.1080/03610926.2021.1921214. S2CID  220935477.
  27. ^ Duchi J. "Derivaciones para optimización y álgebra lineal" (PDF) . pag. 13.
  28. ^ Belov, Dmitry I.; Armstrong, Ronald D. (15 de abril de 2011). "Distribuciones de la divergencia Kullback-Leibler con aplicaciones". Revista británica de psicología matemática y estadística . 64 (2): 291–309. doi :10.1348/000711010x522227. ISSN  0007-1102. PMID  21492134.
  29. ^ ab Buchner, Johannes (29 de abril de 2022). Una intuición para los físicos: obtención de información a partir de experimentos. OCLC  1363563215.
  30. ^ ab Portada, Thomas M.; Thomas, Joy A. (1991), Elementos de la teoría de la información , John Wiley & Sons , p. 22
  31. ^ Chaloner, K.; Verdinelli, I. (1995). "Diseño experimental bayesiano: una revisión". Ciencia estadística . 10 (3): 273–304. doi : 10.1214/ss/1177009939 . hdl : 11299/199630 .
  32. ^ Prensa, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007). "Sección 14.7.2. Distancia Kullback-Leibler". Recetas numéricas: el arte de la informática científica (3ª ed.). Prensa de la Universidad de Cambridge. ISBN 978-0-521-88068-8.
  33. ^ Tribus, Myron (1959). Termostática y termodinámica: una introducción a la energía, la información y los estados de la materia, con aplicaciones de ingeniería. Van Nostrand.
  34. ^ Jaynes, et (1957). «Teoría de la información y mecánica estadística» (PDF) . Revisión física . 106 (4): 620–630. Código bibliográfico : 1957PhRv..106..620J. doi : 10.1103/physrev.106.620. S2CID  17870175.
  35. ^ Jaynes, et (1957). «Teoría de la información y mecánica estadística II» (PDF) . Revisión física . 108 (2): 171-190. Código bibliográfico : 1957PhRv..108..171J. doi : 10.1103/physrev.108.171.
  36. ^ Gibbs, Josías Willard (1871). Un método de representación geométrica de las propiedades termodinámicas de sustancias mediante superficies. La Academia.nota al pie de la página 52.
  37. ^ Tribus, M.; McIrvine, CE (1971). "Energía e información". Científico americano . 224 (3): 179–186. Código bibliográfico : 1971SciAm.225c.179T. doi : 10.1038/scientificamerican0971-179.
  38. ^ Fraundorf, P. (2007). "Raíces térmicas de la complejidad basada en correlaciones". Complejidad . 13 (3): 18–26. arXiv : 1103.2481 . Código Bib : 2008Cmplx..13c..18F. doi :10.1002/cplx.20195. S2CID  20794688. Archivado desde el original el 13 de agosto de 2011.
  39. ^ Burnham, KP; Anderson, DR (2001). "La información de Kullback-Leibler como base para una inferencia sólida en estudios ecológicos". Investigación de vida silvestre . 28 (2): 111-119. doi : 10.1071/WR99107 .
  40. ^ Burnham, Kenneth P. (diciembre de 2010). Selección de modelos e inferencia multimodelo: un enfoque práctico de teoría de la información. Saltador. ISBN 978-1-4419-2973-0. OCLC  878132909.
  41. ^ Nielsen, Frank (2019). "Sobre la simetrización de distancias de Jensen-Shannon basándose en medios abstractos". Entropía . 21 (5): 485. arXiv : 1904.04017 . Código Bib : 2019Entrp..21..485N. doi : 10.3390/e21050485 . PMC 7514974 . PMID  33267199. 
  42. ^ Nielsen, Frank (2020). "Sobre una generalización de la divergencia Jensen-Shannon y el centroide Jensen-Shannon". Entropía . 22 (2): 221. arXiv : 1912.00610 . Código Bib : 2020Entrp..22..221N. doi : 10.3390/e22020221 . PMC 7516653 . PMID  33285995. 
  43. ^ Bretagnolle, J.; Huber, C. (1978), "Estimation des densités : Risque minimax", Séminaire de Probabilités XII, Lecture Notes in Mathematics (en francés), vol. 649, Berlín, Heidelberg: Springer Berlin Heidelberg, págs. 342–363, doi :10.1007/bfb0064610, ISBN 978-3-540-08761-8, S2CID  122597694 , consultado el 14 de febrero de 2023Lema 2.1
  44. ^ B.), Tsybakov, AB (Alexandre (2010). Introducción a la estimación no paramétrica. Springer. ISBN 978-1-4419-2709-5. OCLC  757859245.{{cite book}}: CS1 maint: multiple names: authors list (link)Ecuación 2.25.
  45. ^ Rubner, Y.; Tomasi, C.; Guibas, LJ (2000). "La distancia del transportador como métrica para la recuperación de imágenes". Revista Internacional de Visión por Computadora . 40 (2): 99-121. doi :10.1023/A:1026543900054. S2CID  14106275.

enlaces externos