stringtranslate.com

Divergencia (estadística)

En geometría de la información , una divergencia es un tipo de distancia estadística : una función binaria que establece la separación de una distribución de probabilidad a otra en una variedad estadística .

La divergencia más simple es la distancia euclidiana al cuadrado (SED), y las divergencias pueden considerarse como generalizaciones de la SED. La otra divergencia más importante es la entropía relativa (también llamada divergencia de Kullback-Leibler ), que es fundamental para la teoría de la información . Existen muchas otras divergencias específicas y clases de divergencias, en particular las divergencias f y las divergencias de Bregman (véase § Ejemplos).

Definición

Dada una variedad diferenciable [a] de dimensión , una divergencia en es una función que satisface: [1] [2]

  1. para todos (no negatividad),
  2. si y sólo si (positividad),
  3. En cada punto , es una forma cuadrática positiva definida para desplazamientos infinitesimales desde .

En aplicaciones de estadística, la variedad es típicamente el espacio de parámetros de una familia paramétrica de distribuciones de probabilidad .

La condición 3 significa que define un producto interno en el espacio tangente para cada . Como está en , esto define una métrica de Riemann en .

Localmente en , podemos construir un gráfico de coordenadas local con coordenadas , entonces la divergencia es donde es una matriz de tamaño . Es la métrica de Riemann en el punto expresada en coordenadas .

El análisis dimensional de la condición 3 muestra que la divergencia tiene la dimensión del cuadrado de la distancia. [3]

La divergencia dual se define como

Cuando deseamos contrastar con , nos referimos a la divergencia primaria .

Dada cualquier divergencia , su versión simetrizada se obtiene promediándola con su divergencia dual: [3]

Diferencia con otros conceptos similares

A diferencia de las métricas , no se requiere que las divergencias sean simétricas, y la asimetría es importante en las aplicaciones. [3] En consecuencia, a menudo se hace referencia asimétricamente a la divergencia "de q de p " o "de p a q ", en lugar de "entre p y q ". En segundo lugar, las divergencias generalizan la distancia al cuadrado , no la distancia lineal, y por lo tanto no satisfacen la desigualdad triangular , pero algunas divergencias (como la divergencia de Bregman ) sí satisfacen generalizaciones del teorema de Pitágoras .

En estadística general y probabilidad, "divergencia" se refiere generalmente a cualquier tipo de función , donde hay distribuciones de probabilidad u otros objetos bajo consideración, de modo que se satisfacen las condiciones 1 y 2. La condición 3 es necesaria para la "divergencia" tal como se utiliza en la geometría de la información.

A modo de ejemplo, la distancia de variación total , una divergencia estadística comúnmente utilizada, no satisface la condición 3.

Notación

La notación de divergencias varía significativamente entre campos, aunque existen algunas convenciones.

Las divergencias se suelen indicar con una «D» mayúscula, como en , para distinguirlas de las distancias métricas, que se indican con una «d» minúscula. Cuando se utilizan múltiples divergencias, se suelen distinguir con subíndices, como en el caso de la divergencia de Kullback-Leibler (divergencia KL).

A menudo se utiliza un separador diferente entre parámetros, en particular para enfatizar la asimetría. En teoría de la información , se utiliza comúnmente una barra doble: ; esto es similar, pero distinto, a la notación para probabilidad condicional , , y enfatiza la interpretación de la divergencia como una medida relativa, como en la entropía relativa ; esta notación es común para la divergencia KL. Se pueden utilizar dos puntos en su lugar, [b] como ; esto enfatiza la información relativa que respalda las dos distribuciones.

La notación de los parámetros también varía. Las mayúsculas interpretan los parámetros como distribuciones de probabilidad, mientras que las minúsculas los interpretan geométricamente como puntos en un espacio y los interpretan como medidas.

Propiedades geométricas

Se pueden derivar muchas propiedades de las divergencias si restringimos S a una variedad estadística, lo que significa que se puede parametrizar con un sistema de coordenadas de dimensión finita θ , de modo que para una distribución pS podemos escribir p = p ( θ ) .

Para un par de puntos p , qS con coordenadas θ p y θ q , denotemos las derivadas parciales de D ( p , q ) como

Ahora restringimos estas funciones a una diagonal p = q , y denotamos [4]

Por definición, la función D ( p , q ) se minimiza en p = q , y por lo tanto

donde la matriz g ( D ) es semidefinida positiva y define una métrica riemanniana única en la variedad S .

La divergencia D (·, ·) también define una única conexión afín libre de torsión( D ) con coeficientes

y el dual de esta conexión ∇* es generado por la divergencia dual D *.

Por lo tanto, una divergencia D (·, ·) genera en una variedad estadística una estructura dualista única ( g ( D ) , ∇ ( D ) , ∇ ( D *) ). Lo inverso también es cierto: cada estructura dualista libre de torsión en una variedad estadística se induce a partir de alguna función de divergencia definida globalmente (que, sin embargo, no necesita ser única). [5]

Por ejemplo, cuando D es una f-divergencia [6] para alguna función ƒ(·), entonces genera la métrica g ( D f ) = c·g y la conexión ( D f ) = ∇ ( α ) , donde g es la métrica de información canónica de Fisher , ∇ ( α ) es la α-conexión, c = ƒ′′(1) , y α = 3 + 2ƒ′′′(1)/ƒ′′(1) .

Ejemplos

Las dos divergencias más importantes son la entropía relativa ( divergencia de Kullback-Leibler , divergencia KL), que es fundamental para la teoría de la información y la estadística, y la distancia euclidiana al cuadrado (SED). Minimizar estas dos divergencias es la principal forma de resolver los problemas lineales inversos , a través del principio de máxima entropía y mínimos cuadrados , en particular en la regresión logística y la regresión lineal . [7]

Las dos clases más importantes de divergencias son las divergencias f y las divergencias de Bregman ; sin embargo, en la literatura también se encuentran otros tipos de funciones de divergencia. La única divergencia para probabilidades sobre un alfabeto finito que es tanto una divergencia f como una divergencia de Bregman es la divergencia de Kullback-Leibler. [8] La divergencia euclidiana al cuadrado es una divergencia de Bregman (que corresponde a la función ⁠ ⁠ ) pero no una divergencia f .

divergencias f

Dada una función convexa tal que , la f -divergencia generada por se define como

.

Divergencias de Bregman

Las divergencias de Bregman corresponden a funciones convexas en conjuntos convexos. Dada una función estrictamente convexa , continuamente diferenciable F en un conjunto convexo , conocida como generador de Bregman , la divergencia de Bregman mide la convexidad de: el error de la aproximación lineal de F a partir de q como una aproximación del valor en p :

La divergencia dual de una divergencia de Bregman es la divergencia generada por el conjugado convexo F * del generador de Bregman de la divergencia original. Por ejemplo, para la distancia euclidiana al cuadrado, el generador es ⁠ ⁠ , mientras que para la entropía relativa el generador es la entropía negativa ⁠ ⁠ .

Historia

El uso del término "divergencia" (tanto a qué funciones se refiere como a qué distancias estadísticas se denominan) ha variado significativamente con el tiempo, pero hacia el año 2000 se había establecido su uso actual en la geometría de la información, en particular en el libro de texto Amari & Nagaoka (2000). [1]

El término "divergencia" para una distancia estadística se utilizó de manera informal en varios contextos desde c. 1910 hasta c. 1940. Su uso formal data al menos de Bhattacharyya (1943), titulado "Sobre una medida de divergencia entre dos poblaciones estadísticas definidas por sus distribuciones de probabilidad", que definió la distancia de Bhattacharyya , y Bhattacharyya (1946), titulado "Sobre una medida de divergencia entre dos poblaciones multinomiales", que definió el ángulo de Bhattacharyya . El término se popularizó por su uso para la divergencia de Kullback-Leibler en Kullback y Leibler (1951) y su uso en el libro de texto Kullback (1959). El término "divergencia" fue utilizado de manera general por Ali y Silvey (1966) para distancias estadísticas. Se dan numerosas referencias a usos anteriores de distancias estadísticas en Adhikari y Joshi (1956) y Kullback (1959, págs. 6-7, §1.3 Divergencia).

Kullback y Leibler (1951) utilizaron en realidad el término "divergencia" para referirse a la divergencia simetrizada (esta función ya había sido definida y utilizada por Harold Jeffreys en 1948 [9] ), refiriéndose a la función asimétrica como "la información media para la discriminación... por observación", [10] mientras que Kullback (1959) se refirió a la función asimétrica como la "divergencia dirigida". [11] Ali y Silvey (1966) se refirieron en general a dicha función como un "coeficiente de divergencia", y demostraron que muchas funciones existentes podrían expresarse como f -divergencias, refiriéndose a la función de Jeffreys como "medida de divergencia de Jeffreys" (hoy "divergencia de Jeffreys"), y a la función asimétrica de Kullback-Leibler (en cada dirección) como "medidas de información discriminatoria de Kullback y Leibler" (hoy "divergencia de Kullback-Leibler"). [12]

La definición de divergencia de la geometría de la información (el tema de este artículo) fue inicialmente referida con términos alternativos, incluyendo "cuasi-distancia" de Amari (1982, p. 369) y "función de contraste" de Eguchi (1985), aunque "divergencia" fue utilizada en Amari (1985) para la α -divergencia, y se ha convertido en estándar para la clase general. [1] [2]

El término "divergencia" contrasta con una distancia (métrica), ya que la divergencia simetrizada no satisface la desigualdad triangular. [13] Por ejemplo, todavía se encuentra el término "distancia de Bregman", pero ahora se prefiere "divergencia de Bregman".

Notacionalmente, Kullback y Leibler (1951) denotaron su función asimétrica como , mientras que Ali y Silvey (1966) denotan sus funciones con una 'd' minúscula como .

Véase también

Notas

  1. ^ En todo el texto, solo requerimos la clase de diferenciabilidad C 2 (continua con derivadas primera y segunda continuas), ya que solo se requieren derivadas segundas. En la práctica, las variedades estadísticas y divergencias comúnmente utilizadas son infinitamente diferenciables ("suaves").
  2. ^ Se utilizan dos puntos en Kullback y Leibler (1951, p. 80), donde la divergencia KL entre la medida y se escribe como .

Referencias

  1. ^ abc Amari y Nagaoka 2000, capítulo 3.2.
  2. ^ ab Amari 2016, pág. 10, Definición 1.1.
  3. ^ abc Amari 2016, pág. 10.
  4. ^ Eguchi (1992)
  5. ^ Matumoto (1993)
  6. ^ Nielsen, F.; Nock, R. (2013). "Sobre el Chi cuadrado y las distancias Chi de orden superior para aproximar divergencias f". IEEE Signal Processing Letters . 21 : 10–13. arXiv : 1309.3029 . doi :10.1109/LSP.2013.2288355. S2CID  4152365.
  7. ^ Csiszar 1991.
  8. ^ Jiao, Jiantao; Courtade, Thomas; No, Albert; Venkat, Kartik; Weissman, Tsachy (diciembre de 2014). "Medidas de información: el curioso caso del alfabeto binario". IEEE Transactions on Information Theory . 60 (12): 7616–7626. arXiv : 1404.6810 . doi :10.1109/TIT.2014.2360184. ISSN  0018-9448. S2CID  13108908.
  9. ^ Jeffreys 1948, pág. 158.
  10. ^ Kullback y Leibler 1951, pág. 80.
  11. ^ Kullback 1959, pág. 7.
  12. ^ Ali y Silvey 1966, pág. 139.
  13. ^ Kullback 1959, pág. 6.

Bibliografía