Divergencia de Kullback-Leibler

La medida Q generalmente representa una teoría, modelo, descripción o aproximación de P. Aunque a menudo se considera como una métrica o distancia, la divergencia KL no lo es en realidad — por ejemplo, no es simétrica: la divergencia KL de P a Q no necesariamente es la misma KL de Q a P. La divergencia KL es un caso especial de una clase más amplia de divergencias llamadas divergencias f. Fue originalmente introducida por Solomon Kullback y Richard Leibler en 1951 como la divergencia direccionada entre dos distribuciones.

Para distribuciones de probabilidad P y Q de una variable aleatoria discreta su divergencia KL se define como En palabras, es el promedio ponderado de la diferencia logarítmica entre las probabilidades P y Q, donde el promedio se toma usando las probabilidades P. La divergencia KL solamente se define si P y Q suman 1 y si

aparece en la fórmula, se interpreta como cero.

Para distribuciones P y Q de una variable aleatoria continua, la divergencia KL se define como la integral:[4]​ donde p y q representan las densidades de P y Q.

Más generalmente, si P y Q son medidas de probabilidad sobre un conjunto X, y Q es absolutamente continua con respecto a P, entonces la divergencia Kullback–Leibler de P a Q se define como donde

es la derivada de Radon-Nikodym de Q con respecto a P, y dado que la expresión al lado derecho existe.

De la misma manera, si P es absolutamente continua con respecto a Q, entonces lo cual se conoce como la entropía de P relativa a Q.

existe, entonces la divergencia Kullback–Leibler de P a Q está dada por Los logaritmos en estas fórmulas se toman como en base 2 si la información se mide en unidades de bits, o en base e si la información se mide en nats.

La mayoría de fórmulas relacionadas con la divergencia KL se mantienen independiente de la base logarítmica.

Nos referiremos a la divergencia de P a Q, aunque algunos autores la llaman la divergencia "de Q a P" y otros la divergencia "entre P y Q" (aunque note que no es simétrica).

que maximiza la función que puede aproximarse (cuando n es grande) por Restando dicha expresión del término constante se obtiene que es la divergencia de Kullback-Leibler entre

y la distribución verdadera determinada por f. Es decir, maximizar la función de verosimilitud es (aproximadamente) equivalente a encontrar el parámetro

que minimiza la divergencia de Kullback-Leibler entre la distribución real y la familia de distribuciones parametrizadas por dicho parámetro.

Ilustración de la entropía relativa para dos distribuciones normales. La típica asimetría es claramente visible.