En estadística matemática , la divergencia de Kullback–Leibler ( KL ) (también llamada entropía relativa y divergencia I [1] ), denotada como , es un tipo de distancia estadística : una medida de cómo una distribución de probabilidad de referencia P es diferente de una segunda distribución de probabilidad Q. [2] [3] Matemáticamente , se define como
Una interpretación simple de la divergencia KL de P a partir de Q es la sorpresa excesiva esperada al usar Q como modelo en lugar de P cuando la distribución real es P. Si bien es una medida de cuán diferentes son dos distribuciones y, en cierto sentido, es una "distancia", en realidad no es una métrica , que es el tipo de distancia más familiar y formal. En particular, no es simétrica en las dos distribuciones (en contraste con la variación de la información ), y no satisface la desigualdad triangular . En cambio, en términos de geometría de la información , es un tipo de divergencia , [4] una generalización de la distancia al cuadrado , y para ciertas clases de distribuciones (en particular una familia exponencial ), satisface un teorema de Pitágoras generalizado (que se aplica a las distancias al cuadrado). [5]
La entropía relativa es siempre un número real no negativo, con valor 0 si y solo si las dos distribuciones en cuestión son idénticas. Tiene diversas aplicaciones, tanto teóricas, como la caracterización de la entropía relativa (de Shannon) en sistemas de información, la aleatoriedad en series temporales continuas y la ganancia de información al comparar modelos estadísticos de inferencia ; como prácticas, como la estadística aplicada, la mecánica de fluidos , la neurociencia , la bioinformática y el aprendizaje automático .
Consideremos dos distribuciones de probabilidad P y Q . Por lo general, P representa los datos, las observaciones o una distribución de probabilidad medida. La distribución Q representa en cambio una teoría, un modelo, una descripción o una aproximación de P . La divergencia de Kullback-Leibler se interpreta entonces como la diferencia promedio de la cantidad de bits necesarios para codificar muestras de P utilizando un código optimizado para Q en lugar de uno optimizado para P . Tenga en cuenta que los roles de P y Q se pueden invertir en algunas situaciones en las que esto es más fácil de calcular, como con el algoritmo de expectativa-maximización (EM) y los cálculos de límite inferior de evidencia (ELBO) .
La entropía relativa fue introducida por Solomon Kullback y Richard Leibler en Kullback & Leibler (1951) como "la información media para la discriminación entre y por observación de ", [6] donde uno está comparando dos medidas de probabilidad , y son las hipótesis que uno está seleccionando de la medida (respectivamente). Lo denotaron por , y definieron la "'divergencia' entre y " como la cantidad simetrizada , que ya había sido definida y utilizada por Harold Jeffreys en 1948. [7] En Kullback (1959), la forma simetrizada se denomina nuevamente "divergencia", y las entropías relativas en cada dirección se denominan "divergencias dirigidas" entre dos distribuciones; [8] Kullback prefirió el término información de discriminación . [9] El término "divergencia" está en contraste con una distancia (métrica), ya que la divergencia simetrizada no satisface la desigualdad triangular. [10] En Kullback (1959, pp. 6-7, §1.3 Divergencia) se dan numerosas referencias a usos anteriores de la divergencia simetrizada y a otras distancias estadísticas . La "divergencia dirigida" asimétrica ha llegado a conocerse como divergencia de Kullback-Leibler, mientras que la "divergencia" simetrizada se conoce ahora como divergencia de Jeffreys .
Para distribuciones de probabilidad discretas P y Q definidas en el mismo espacio muestral , la entropía relativa de Q a P se define [11] como
que es equivalente a
En otras palabras, es la expectativa de la diferencia logarítmica entre las probabilidades P y Q , donde la expectativa se toma utilizando las probabilidades P .
La entropía relativa sólo se define de esta manera si, para todo x , implica ( continuidad absoluta ). De lo contrario, a menudo se define como , [1] pero el valor es posible incluso si en todas partes, [12] [13] siempre que sea infinito en extensión. Se aplican comentarios análogos a los casos de medida continua y general definidos a continuación.
Siempre que sea cero la contribución del término correspondiente se interpreta como cero porque
Para las distribuciones P y Q de una variable aleatoria continua , la entropía relativa se define como la integral [14]
donde p y q denotan las densidades de probabilidad de P y Q.
De manera más general, si P y Q son medidas de probabilidad en un espacio medible y P es absolutamente continua con respecto a Q , entonces la entropía relativa de Q a P se define como
donde es la derivada de Radon-Nikodym de P con respecto a Q , es decir, la única función Q casi en todas partes definida r en tal que existe porque P es absolutamente continua con respecto a Q . También asumimos que existe la expresión del lado derecho. De manera equivalente (por la regla de la cadena ), esto se puede escribir como
que es la entropía de P relativa a Q. Continuando en este caso, si es cualquier medida de para la cual existen densidades p y q con y (lo que significa que P y Q son absolutamente continuas con respecto a ), entonces la entropía relativa de Q a P se da como
Nótese que siempre existe una medida para la cual se pueden definir densidades, ya que se puede tomar aunque en la práctica normalmente será una que en el contexto como la medida de conteo para distribuciones discretas, o la medida de Lebesgue o una variante conveniente de la misma como la medida gaussiana o la medida uniforme en la esfera , la medida de Haar en un grupo de Lie , etc. para distribuciones continuas. Los logaritmos en estas fórmulas normalmente se toman en base 2 si la información se mide en unidades de bits , o en base e si la información se mide en nats . La mayoría de las fórmulas que involucran entropía relativa se mantienen independientemente de la base del logaritmo.
Existen varias convenciones para referirse a en palabras. A menudo se hace referencia a ella como la divergencia entre P y Q , pero esto no logra transmitir la asimetría fundamental en la relación. A veces, como en este artículo, puede describirse como la divergencia de P con respecto a Q o como la divergencia de Q a P . Esto refleja la asimetría en la inferencia bayesiana , que comienza a partir de una Q anterior y se actualiza a la P posterior . Otra forma común de referirse a ella es como la entropía relativa de P con respecto a Q o la ganancia de información de P sobre Q .
Kullback [3] da el siguiente ejemplo (Tabla 2.1, Ejemplo 2.1). Sean P y Q las distribuciones que se muestran en la tabla y la figura. P es la distribución del lado izquierdo de la figura, una distribución binomial con y . Q es la distribución del lado derecho de la figura, una distribución uniforme discreta con los tres resultados posibles. 0 ,1 ,2 (es decir ), cada uno con probabilidad .
Las entropías relativas se calculan de la siguiente manera. En este ejemplo se utiliza el logaritmo natural con base e , denominado ln para obtener los resultados en unidades de información (véase unidades de información ):
En el campo de la estadística, el lema de Neyman-Pearson establece que la forma más poderosa de distinguir entre las dos distribuciones P y Q en función de una observación Y (extraída de una de ellas) es a través del logaritmo del cociente de sus verosimilitudes: . La divergencia KL es el valor esperado de esta estadística si Y se extrae realmente de P . Kullback motivó la estadística como un cociente de verosimilitud logarítmica esperado. [15]
En el contexto de la teoría de codificación , se puede construir midiendo el número esperado de bits adicionales necesarios para codificar muestras de P utilizando un código optimizado para Q en lugar del código optimizado para P.
En el contexto del aprendizaje automático , se suele denominar ganancia de información obtenida si se utilizara P en lugar de Q , que es el que se utiliza actualmente. Por analogía con la teoría de la información, se denomina entropía relativa de P con respecto a Q.
Expresado en el lenguaje de la inferencia bayesiana , es una medida de la información obtenida al revisar las creencias de uno de la distribución de probabilidad previa Q a la distribución de probabilidad posterior P. En otras palabras, es la cantidad de información que se pierde cuando se utiliza Q para aproximar P. [16 ]
En las aplicaciones, P representa típicamente la distribución "real" de datos, observaciones o una distribución teórica calculada con precisión, mientras que Q representa típicamente una teoría, modelo, descripción o aproximación de P. Para encontrar una distribución Q que sea la más cercana a P , podemos minimizar la divergencia KL y calcular una proyección de información .
Si bien es una distancia estadística , no es una métrica , el tipo de distancia más conocido, sino una divergencia . [4] Mientras que las métricas son simétricas y generalizan la distancia lineal , satisfaciendo la desigualdad triangular , las divergencias son asimétricas y generalizan la distancia al cuadrado , satisfaciendo en algunos casos un teorema de Pitágoras generalizado . En general no es igual a , y la asimetría es una parte importante de la geometría. [4] La forma infinitesimal de la entropía relativa, específicamente su hessiano , da un tensor métrico que es igual a la métrica de información de Fisher ; consulte § Métrica de información de Fisher. Métrica de información de Fisher sobre la distribución de probabilidad determinada, permita determinar el gradiente natural para algoritmos de optimización geométrica de información. [17] Su versión cuántica es la métrica de estudio de Fubini. [18] La entropía relativa satisface un teorema de Pitágoras generalizado para familias exponenciales (interpretadas geométricamente como variedades dualmente planas ), y esto permite minimizar la entropía relativa por medios geométricos, por ejemplo mediante proyección de información y en estimación de máxima verosimilitud . [5]
La entropía relativa es la divergencia de Bregman generada por la entropía negativa, pero también tiene la forma de una divergencia f . Para probabilidades sobre un alfabeto finito , es única por ser miembro de ambas clases de divergencias estadísticas . La aplicación de la divergencia de Bregman se puede encontrar en el descenso especular. [19]
Consideremos un inversor que optimiza el crecimiento en un juego justo con resultados mutuamente excluyentes (por ejemplo, una “carrera de caballos” en la que las probabilidades oficiales suman uno). La tasa de retorno esperada por ese inversor es igual a la entropía relativa entre las probabilidades que cree el inversor y las probabilidades oficiales. [20] Este es un caso especial de una conexión mucho más general entre los retornos financieros y las medidas de divergencia. [21]
Los riesgos financieros están conectados a través de la geometría de la información. [22] Las opiniones de los inversores, la visión predominante del mercado y los escenarios de riesgo forman triángulos en la variedad relevante de distribuciones de probabilidad. La forma de los triángulos determina los riesgos financieros clave (tanto cualitativa como cuantitativamente). Por ejemplo, los triángulos obtusos en los que las opiniones de los inversores y los escenarios de riesgo aparecen en "lados opuestos" en relación con el mercado describen riesgos negativos, los triángulos agudos describen exposición positiva y la situación en ángulo recto en el medio corresponde a riesgo cero. Extendiendo este concepto, la entropía relativa puede utilizarse hipotéticamente para identificar el comportamiento de los inversores informados, si se toma esto como representado por la magnitud y las desviaciones de las expectativas previas de los flujos de fondos, por ejemplo [23] .
En teoría de la información, el teorema de Kraft-McMillan establece que cualquier esquema de codificación directamente decodificable para codificar un mensaje para identificar un valor de un conjunto de posibilidades X puede verse como la representación de una distribución de probabilidad implícita sobre X , donde es la longitud del código para en bits. Por lo tanto, la entropía relativa puede interpretarse como la longitud de mensaje adicional esperada por dato que debe comunicarse si se utiliza un código que es óptimo para una distribución dada (incorrecta) Q , en comparación con el uso de un código basado en la distribución verdadera P : es el exceso de entropía.
donde es la entropía cruzada de Q relativa a P y es la entropía de P (que es la misma que la entropía cruzada de P consigo mismo).
La entropía relativa puede considerarse geométricamente como una distancia estadística , una medida de qué tan lejos está la distribución Q de la distribución P. Geométricamente es una divergencia : una forma asimétrica y generalizada de la distancia al cuadrado. La entropía cruzada es en sí misma una medida de este tipo (formalmente una función de pérdida ), pero no puede considerarse como una distancia, ya que no es cero. Esto se puede arreglar restando para que concuerde más con nuestra noción de distancia, como la pérdida en exceso . La función resultante es asimétrica y, si bien se puede simetrizar (ver § Divergencia simetrizada), la forma asimétrica es más útil. Ver § Interpretaciones para más información sobre la interpretación geométrica.
La entropía relativa se relaciona con la " función de velocidad " en la teoría de grandes desviaciones . [24] [25]
Arthur Hobson demostró que la entropía relativa es la única medida de diferencia entre distribuciones de probabilidad que satisface algunas propiedades deseadas, que son la extensión canónica de las que aparecen en una caracterización comúnmente utilizada de la entropía . [26] En consecuencia, la información mutua es la única medida de dependencia mutua que obedece a ciertas condiciones relacionadas, ya que puede definirse en términos de divergencia de Kullback–Leibler .
En particular, si y , entonces - casi en todas partes . La entropía establece así un valor mínimo para la entropía cruzada , el número esperado de bits necesarios cuando se utiliza un código basado en Q en lugar de P ; y la divergencia de Kullback–Leibler representa, por tanto, el número esperado de bits adicionales que deben transmitirse para identificar un valor x extraído de X , si se utiliza un código correspondiente a la distribución de probabilidad Q , en lugar de la distribución "verdadera" P .
Denote y note que . La primera derivada de puede derivarse y evaluarse como sigue Otras derivadas pueden derivarse y evaluarse como sigue Por lo tanto, despejando para mediante la expansión de Taylor de aproximadamente evaluada en produce como es una condición suficiente para la convergencia de la serie por el siguiente argumento de convergencia absoluta como es también una condición necesaria para la convergencia de la serie por la siguiente prueba por contradicción. Suponga que con medida estrictamente mayor que . Entonces se deduce que deben existir algunos valores , , y tales que y con medida . La prueba de suficiencia anterior demostró que el componente de medida de la serie donde está acotado, por lo que solo necesitamos preocuparnos por el comportamiento del componente de medida de la serie donde . El valor absoluto del término ésimo de este componente de la serie está entonces acotado inferiormente por , que es ilimitado como , por lo que la serie diverge.
El siguiente resultado, debido a Donsker y Varadhan, [29] se conoce como fórmula variacional de Donsker y Varadhan .
Teorema [Fórmula de dualidad para inferencia variacional] — Seaun conjunto dotado de uncuerpoy dos medidas de probabilidad P y Q , que formulan dos espacios de probabilidad y, con. (indica que Q es absolutamente continua con respecto a P .) Sea h una variable aleatoria integrable de valor realen. Entonces se cumple la siguiente igualdad
Además, el supremo del lado derecho se alcanza si y sólo si se cumple
casi con seguridad con respecto a la medida de probabilidad P , donde denota la derivada de Radon-Nikodym de Q con respecto a P .
Para una prueba corta que supone la integrabilidad de con respecto a P , sea P -densidad , es decir Entonces
Por lo tanto,
donde la última desigualdad se sigue de , para la cual la igualdad ocurre si y solo si . La conclusión se deduce.
Para una prueba alternativa utilizando la teoría de la medida , véase. [30]
Supongamos que tenemos dos distribuciones normales multivariadas , con medias y con matrices de covarianza (no singulares). Si las dos distribuciones tienen la misma dimensión, k , entonces la entropía relativa entre las distribuciones es la siguiente: [31]
El logaritmo del último término debe tomarse en base e, ya que todos los términos, excepto el último, son logaritmos en base e de expresiones que son factores de la función de densidad o surgen de manera natural. Por lo tanto, la ecuación da un resultado medido en nats . Dividiendo toda la expresión anterior por se obtiene la divergencia en bits .
En una implementación numérica, resulta útil expresar el resultado en términos de las descomposiciones de Cholesky tales que y . Entonces, con M e y soluciones para los sistemas lineales triangulares , y ,
Un caso especial y una cantidad común en la inferencia variacional es la entropía relativa entre una distribución normal multivariada diagonal y una distribución normal estándar (con media cero y varianza unitaria):
Para dos distribuciones normales univariadas p y q lo anterior se simplifica a [32]
En el caso de distribuciones normales cocentradas con , esto se simplifica [33] a:
Consideremos dos distribuciones uniformes, con el apoyo de encerrado dentro de ( ). Entonces la ganancia de información es:
Intuitivamente, [33] la ganancia de información en una distribución uniforme k veces más estrecha contiene bits. Esto se relaciona con el uso de bits en computación, donde serían necesarios bits para identificar un elemento de una secuencia de k longitudes.
Si bien la entropía relativa es una distancia estadística , no es una métrica en el espacio de distribuciones de probabilidad, sino que es una divergencia . [4] Si bien las métricas son simétricas y generalizan la distancia lineal , satisfaciendo la desigualdad triangular , las divergencias son asimétricas en general y generalizan la distancia al cuadrado , en algunos casos satisfaciendo un teorema de Pitágoras generalizado . En general no es igual a , y si bien esto puede simetrizarse (ver § Divergencia simetrizada), la asimetría es una parte importante de la geometría. [4]
Genera una topología en el espacio de distribuciones de probabilidad . Más concretamente, si es una secuencia de distribuciones tal que
Entonces se dice que
La desigualdad de Pinsker implica que
donde este último representa la convergencia habitual en la variación total .
La entropía relativa está directamente relacionada con la métrica de información de Fisher . Esto se puede hacer explícito de la siguiente manera. Supongamos que las distribuciones de probabilidad P y Q están parametrizadas por algún parámetro (posiblemente multidimensional) . Consideremos entonces dos valores cercanos de y de modo que el parámetro difiera solo en una pequeña cantidad del valor del parámetro . Específicamente, hasta el primer orden se tiene (usando la convención de suma de Einstein )
con un pequeño cambio de en la dirección j , y la tasa de cambio correspondiente en la distribución de probabilidad. Dado que la entropía relativa tiene un mínimo absoluto 0 para , es decir , cambia solo a segundo orden en los parámetros pequeños . Más formalmente, como para cualquier mínimo, las primeras derivadas de la divergencia se anulan
y por la expansión de Taylor se tiene hasta segundo orden
donde la matriz hessiana de la divergencia
debe ser semidefinida positiva . Si se permite variar (y se omite el subíndice 0), la hessiana define una métrica de Riemann (posiblemente degenerada) en el espacio de parámetros θ , llamada métrica de información de Fisher.
Cuando se cumplen las siguientes condiciones de regularidad:
donde ξ es independiente de ρ
entonces:
Otra métrica de la teoría de la información es la variación de la información , que es aproximadamente una simetrización de la entropía condicional . Es una métrica del conjunto de particiones de un espacio de probabilidad discreto .
MAUVE es una medida de la brecha estadística entre dos distribuciones de texto, como la diferencia entre el texto generado por un modelo y el texto escrito por humanos. Esta medida se calcula utilizando divergencias de Kullback-Leibler entre las dos distribuciones en un espacio de incrustación cuantificado de un modelo de base.
Muchas de las otras cantidades de la teoría de la información pueden interpretarse como aplicaciones de la entropía relativa a casos específicos.
La autoinformación , también conocida como el contenido de información de una señal, variable aleatoria o evento , se define como el logaritmo negativo de la probabilidad de que ocurra el resultado dado.
Cuando se aplica a una variable aleatoria discreta , la autoinformación se puede representar como [ cita requerida ]
es la entropía relativa de la distribución de probabilidad de un delta de Kronecker que representa la certeza de que — es decir, la cantidad de bits adicionales que se deben transmitir para identificar i si solo la distribución de probabilidad está disponible para el receptor, no el hecho de que .
La información mutua ,
es la entropía relativa de la distribución de probabilidad conjunta a partir del producto de las dos distribuciones de probabilidad marginal , es decir, el número esperado de bits adicionales que deben transmitirse para identificar X e Y si se codifican utilizando solo sus distribuciones marginales en lugar de la distribución conjunta. De manera equivalente, si se conoce la probabilidad conjunta, es el número esperado de bits adicionales que, en promedio, deben enviarse para identificar Y si el valor de X aún no es conocido por el receptor.
La entropía de Shannon ,
es el número de bits que tendrían que transmitirse para identificar X a partir de N posibilidades igualmente probables, menos la entropía relativa de la distribución uniforme en las variables aleatorias de X , , de la distribución verdadera — es decir , menos el número esperado de bits guardados, que tendrían que haberse enviado si el valor de X se hubiera codificado según la distribución uniforme en lugar de la distribución verdadera . Esta definición de la entropía de Shannon forma la base de la generalización alternativa de ET Jaynes a las distribuciones continuas, la densidad límite de puntos discretos (en oposición a la entropía diferencial habitual ), que define la entropía continua como
Lo cual es equivalente a:
La entropía condicional [34] ,
es el número de bits que se tendrían que transmitir para identificar X a partir de N posibilidades igualmente probables, menos la entropía relativa de la distribución del producto a partir de la distribución conjunta verdadera , es decir, menos el número esperado de bits ahorrados que se habrían tenido que enviar si el valor de X se hubiera codificado de acuerdo con la distribución uniforme en lugar de la distribución condicional de X dado Y.
Cuando tenemos un conjunto de eventos posibles, provenientes de la distribución p , podemos codificarlos (con una compresión de datos sin pérdida ) utilizando codificación de entropía . Esto comprime los datos reemplazando cada símbolo de entrada de longitud fija con un código único, de longitud variable y sin prefijo correspondiente (p. ej.: los eventos (A, B, C) con probabilidades p = (1/2, 1/4, 1/4) se pueden codificar como los bits (0, 10, 11)). Si conocemos la distribución p de antemano, podemos idear una codificación que sea óptima (p. ej.: utilizando la codificación de Huffman ). Lo que significa que los mensajes que codificamos tendrán la longitud más corta en promedio (asumiendo que los eventos codificados se muestrean de p ), que será igual a la entropía de Shannon de p (denotada como ). Sin embargo, si utilizamos una distribución de probabilidad diferente ( q ) al crear el esquema de codificación de entropía, se utilizará un número mayor de bits (en promedio) para identificar un evento de un conjunto de posibilidades. Este nuevo número (mayor) se mide por la entropía cruzada entre p y q .
La entropía cruzada entre dos distribuciones de probabilidad ( p y q ) mide la cantidad promedio de bits necesarios para identificar un evento de un conjunto de posibilidades, si se utiliza un esquema de codificación basado en una distribución de probabilidad dada q , en lugar de la distribución "real" p . La entropía cruzada para dos distribuciones p y q sobre el mismo espacio de probabilidad se define de la siguiente manera.
Para una derivación explícita de esto, consulte la sección Motivación más arriba.
En este escenario, las entropías relativas (divergencia kl) se pueden interpretar como el número adicional de bits, en promedio, que se necesitan (más allá de ) para codificar los eventos debido al uso de q para construir el esquema de codificación en lugar de p .
En las estadísticas bayesianas , la entropía relativa se puede utilizar como una medida de la ganancia de información al pasar de una distribución previa a una distribución posterior : . Si se descubre algún hecho nuevo , se puede utilizar para actualizar la distribución posterior de X a una nueva distribución posterior utilizando el teorema de Bayes :
Esta distribución tiene una nueva entropía :
que puede ser menor o mayor que la entropía original . Sin embargo, desde el punto de vista de la nueva distribución de probabilidad se puede estimar que haber utilizado el código original basado en en lugar de un nuevo código basado en habría añadido un número esperado de bits:
a la longitud del mensaje. Por lo tanto, esto representa la cantidad de información útil, o ganancia de información, sobre X , que se ha aprendido al descubrir .
Si posteriormente se incorpora otro dato, , se puede actualizar aún más la distribución de probabilidad de x para obtener una nueva estimación aproximada . Si se vuelve a investigar la ganancia de información al utilizar en lugar de , resulta que puede ser mayor o menor que la estimada previamente:
y por lo tanto la ganancia de información combinada no obedece a la desigualdad triangular:
Todo lo que se puede decir es que, en promedio , al promediar utilizando , los dos lados promediarán.
Un objetivo común en el diseño experimental bayesiano es maximizar la entropía relativa esperada entre la distribución anterior y la posterior. [35] Cuando las posteriores se aproximan a ser distribuciones gaussianas, un diseño que maximiza la entropía relativa esperada se denomina d-óptimo de Bayes .
La entropía relativa también puede interpretarse como la información de discriminación esperada para más de : la información media por muestra para discriminar a favor de una hipótesis en contra de una hipótesis , cuando la hipótesis es verdadera. [36] Otro nombre para esta cantidad, dado por IJ Good , es el peso esperado de la evidencia para más de que se espera de cada muestra.
El peso esperado de la evidencia para el sobre no es el mismo que la ganancia de información esperada por muestra acerca de la distribución de probabilidad de las hipótesis,
Cualquiera de las dos cantidades puede utilizarse como función de utilidad en el diseño experimental bayesiano, para elegir la siguiente pregunta óptima para investigar, pero en general conducirán a estrategias experimentales bastante diferentes.
En la escala de entropía de la ganancia de información hay muy poca diferencia entre la certeza casi absoluta y la certeza cercana: codificar de acuerdo con una certeza casi absoluta requiere apenas más bits que codificar de acuerdo con una certeza absoluta. Por otra parte, en la escala logit implícita en el peso de la evidencia, la diferencia entre ambas es enorme, infinita quizás; esto podría reflejar la diferencia entre estar casi seguro (a nivel probabilístico) de que, por ejemplo, la hipótesis de Riemann es correcta, en comparación con estar seguro de que es correcta porque se tiene una prueba matemática. Estas dos escalas diferentes de función de pérdida para la incertidumbre son útiles , según lo bien que cada una refleje las circunstancias particulares del problema en cuestión.
La idea de la entropía relativa como información de discriminación llevó a Kullback a proponer el Principio deInformación de Discriminación Mínima (IDMse debe elegiruna nueva distribuciónfcomo sea posible; de modo que los nuevos datos produzcan la menor ganancia de informaciónposible.
Por ejemplo, si uno tenía una distribución previa sobre x y a , y posteriormente aprendió que la distribución verdadera de a era , entonces la entropía relativa entre la nueva distribución conjunta para x y a , , y la distribución previa anterior sería:
es decir, la suma de la entropía relativa de la distribución anterior para a de la distribución actualizada , más el valor esperado (usando la distribución de probabilidad ) de la entropía relativa de la distribución condicional anterior de la nueva distribución condicional . (Tenga en cuenta que a menudo el valor esperado posterior se denomina entropía relativa condicional (o divergencia condicional de Kullback–Leibler ) y se denota por [3] [34] ) Esto se minimiza si sobre todo el soporte de ; y notamos que este resultado incorpora el teorema de Bayes, si la nueva distribución es de hecho una función δ que representa la certeza de que a tiene un valor particular.
La MDI puede considerarse una extensión del principio de razón insuficiente de Laplace y del principio de máxima entropía de E.T. Jaynes . En particular, es la extensión natural del principio de máxima entropía de distribuciones discretas a continuas, para las que la entropía de Shannon deja de ser tan útil (véase entropía diferencial ), pero la entropía relativa sigue siendo igualmente relevante.
En la literatura de ingeniería, el MDI a veces se denomina Principio de entropía cruzada mínima (MCE) o Minxent para abreviar. Minimizar la entropía relativa de m a p con respecto a m es equivalente a minimizar la entropía cruzada de p y m , ya que
lo cual es apropiado si uno está tratando de elegir una aproximación adecuada a p . Sin embargo, con la misma frecuencia esta no es la tarea que uno está tratando de lograr. En cambio, con la misma frecuencia es m la que es una medida de referencia previa fija, y p la que uno está tratando de optimizar al minimizar sujeta a alguna restricción. Esto ha llevado a cierta ambigüedad en la literatura, con algunos autores tratando de resolver la inconsistencia redefiniendo la entropía cruzada como , en lugar de [ cita requerida ] .
Las sorpresas [37] se suman cuando las probabilidades se multiplican. La sorpresa para un evento de probabilidad p se define como . Si k es , entonces la sorpresa está en nats, bits, o de modo que, por ejemplo, hay N bits de sorpresa para que caigan todas "caras" en un lanzamiento de N monedas.
Los estados de mejor estimación (por ejemplo, para átomos en un gas) se infieren maximizando la S ( entropía ) sorprendente promedio para un conjunto dado de parámetros de control (como la presión P o el volumen V ). Esta maximización de entropía restringida , tanto clásicamente [38] como mecánicamente cuántica [39] , minimiza la disponibilidad de Gibbs en unidades de entropía [40] donde Z es una multiplicidad restringida o función de partición .
Cuando la temperatura T es fija, la energía libre ( ) también se minimiza. Por lo tanto, si y el número de moléculas N son constantes, la energía libre de Helmholtz (donde U es energía y S es entropía) se minimiza a medida que un sistema se "equilibra". Si T y P se mantienen constantes (por ejemplo, durante los procesos en su cuerpo), la energía libre de Gibbs se minimiza en cambio. El cambio en la energía libre bajo estas condiciones es una medida del trabajo disponible que podría realizarse en el proceso. Por lo tanto, el trabajo disponible para un gas ideal a temperatura y presión constantes es donde y (ver también la desigualdad de Gibbs ).
De manera más general [41] el trabajo disponible en relación con un ambiente determinado se obtiene multiplicando la temperatura ambiente por la entropía relativa o la sorpresa neta definida como el valor promedio de donde es la probabilidad de un estado dado en condiciones ambientales. Por ejemplo, el trabajo disponible para equilibrar un gas ideal monoatómico a valores ambientales de y es por lo tanto , donde la entropía relativa
Los contornos resultantes de entropía relativa constante, que se muestran a la derecha para un mol de argón a temperatura y presión estándar, por ejemplo, imponen límites a la conversión de calor a frío, como en el aire acondicionado alimentado con llama o en el dispositivo sin energía para convertir agua hirviendo en agua helada analizado aquí. [42] Por lo tanto, la entropía relativa mide la disponibilidad termodinámica en bits.
Para las matrices de densidad P y Q en un espacio de Hilbert , la entropía relativa cuántica de Q a P se define como
En la ciencia de la información cuántica, el mínimo de todos los estados separables Q también puede usarse como medida del entrelazamiento en el estado P.
Así como la entropía relativa de la "realidad a partir del ambiente" mide la disponibilidad termodinámica, la entropía relativa de la "realidad a partir de un modelo" también es útil incluso si las únicas pistas que tenemos sobre la realidad son algunas mediciones experimentales. En el primer caso, la entropía relativa describe la distancia al equilibrio o (cuando se multiplica por la temperatura ambiente) la cantidad de trabajo disponible , mientras que en el segundo caso nos informa sobre las sorpresas que la realidad tiene bajo la manga o, en otras palabras, cuánto tiene que aprender aún el modelo .
Aunque esta herramienta para evaluar modelos contra sistemas que son accesibles experimentalmente puede aplicarse en cualquier campo, su aplicación para seleccionar un modelo estadístico a través del criterio de información de Akaike está particularmente bien descrita en artículos [43] y un libro [44] de Burnham y Anderson. En pocas palabras, la entropía relativa de la realidad de un modelo puede estimarse, dentro de un término aditivo constante, mediante una función de las desviaciones observadas entre los datos y las predicciones del modelo (como la desviación cuadrática media ). Las estimaciones de dicha divergencia para modelos que comparten el mismo término aditivo pueden a su vez usarse para seleccionar entre modelos.
Al intentar ajustar modelos parametrizados a los datos, existen varios estimadores que intentan minimizar la entropía relativa, como los estimadores de máxima verosimilitud y de máximo espaciado . [ cita requerida ]
Kullback y Leibler (1951) también consideraron la función simetrizada: [6]
a la que se referían como "divergencia", aunque hoy la "divergencia KL" se refiere a la función asimétrica (véase § Etimología para la evolución del término). Esta función es simétrica y no negativa, y ya había sido definida y utilizada por Harold Jeffreys en 1948; [7] por lo tanto se la llama divergencia de Jeffreys .
Esta cantidad se ha utilizado a veces para la selección de características en problemas de clasificación , donde P y Q son las funciones de densidad de probabilidad condicionales de una característica en dos clases diferentes. En las industrias bancarias y financieras, esta cantidad se conoce como índice de estabilidad de la población ( PSI ) y se utiliza para evaluar los cambios distributivos en las características del modelo a lo largo del tiempo.
Una alternativa se da a través de la -divergencia,
que puede interpretarse como la ganancia de información esperada sobre X al descubrir de qué distribución de probabilidad se extrae X , P o Q , si actualmente tienen probabilidades y respectivamente. [ aclaración necesaria ] [ cita necesaria ]
El valor da la divergencia de Jensen-Shannon , definida por
donde M es el promedio de las dos distribuciones,
También podemos interpretarla como la capacidad de un canal de información ruidoso con dos entradas que dan como resultado las distribuciones de salida P y Q. La divergencia de Jensen-Shannon, como todas las divergencias f , es localmente proporcional a la métrica de información de Fisher . Es similar a la métrica de Hellinger (en el sentido de que induce la misma conexión afín en una variedad estadística ).
Además, la divergencia de Jensen-Shannon se puede generalizar utilizando mezclas estadísticas abstractas M que se basan en una media abstracta M. [45] [46]
Existen muchas otras medidas importantes de la distancia de probabilidad . Algunas de ellas están particularmente relacionadas con la entropía relativa. Por ejemplo:
Otras medidas de distancia notables incluyen la distancia de Hellinger , la intersección del histograma , la estadística de Chi-cuadrado , la distancia de forma cuadrática , la distancia de coincidencia , la distancia de Kolmogorov-Smirnov y la distancia de la excavadora . [49]
Así como la entropía absoluta sirve como base teórica para la compresión de datos , la entropía relativa sirve como base teórica para la diferenciación de datos : la entropía absoluta de un conjunto de datos en este sentido son los datos necesarios para reconstruirlo (tamaño comprimido mínimo), mientras que la entropía relativa de un conjunto de datos de destino, dado un conjunto de datos de origen, son los datos necesarios para reconstruir el destino dada la fuente (tamaño mínimo de un parche ).
{{cite book}}
: CS1 maint: multiple names: authors list (link)Ecuación 2.25.