stringtranslate.com

Divergencia (estadísticas)

En geometría de la información , una divergencia es una especie de distancia estadística : una función binaria que establece la separación de una distribución de probabilidad a otra en una variedad estadística .

La divergencia más simple es la distancia euclidiana al cuadrado (SED), y las divergencias pueden verse como generalizaciones de la SED. La otra divergencia más importante es la entropía relativa (también llamada divergencia Kullback-Leibler ), que es fundamental para la teoría de la información . Existen muchas otras divergencias y clases de divergencias específicas, en particular f -divergencias y divergencias de Bregman (ver § Ejemplos).

Definición

Dada una variedad diferenciable [a] de dimensión , una divergencia en es una función que satisface: [1] [2]

  1. para todos (no negatividad),
  2. si y sólo si (positividad),
  3. En cada punto , hay una forma cuadrática definida positiva para desplazamientos infinitesimales desde .

En aplicaciones a la estadística, la variedad suele ser el espacio de parámetros de una familia paramétrica de distribuciones de probabilidad .

La condición 3 significa que define un producto interno en el espacio tangente para cada . Dado que está activado , esto define una métrica de Riemann .

Localmente en , podemos construir un gráfico de coordenadas local con coordenadas , entonces la divergencia es

El análisis dimensional de la condición 3 muestra que la divergencia tiene la dimensión de la distancia al cuadrado. [3]

La divergencia dual se define como

Cuando queremos contrastar , nos referimos a divergencia primaria .

Dada cualquier divergencia , su versión simetrizada se obtiene promediando con su divergencia dual: [3]

Diferencia con otros conceptos similares.

Unlike metrics, divergences are not required to be symmetric, and the asymmetry is important in applications.[3] Accordingly, one often refers asymmetrically to the divergence "of q from p" or "from p to q", rather than "between p and q". Secondly, divergences generalize squared distance, not linear distance, and thus do not satisfy the triangle inequality, but some divergences (such as the Bregman divergence) do satisfy generalizations of the Pythagorean theorem.

In general statistics and probability, "divergence" generally refers to any kind of function , where are probability distributions or other objects under consideration, such that conditions 1, 2 are satisfied. Condition 3 is required for "divergence" as used in information geometry.

As an example, the total variation distance, a commonly used statistical divergence, does not satisfy condition 3.

Notation

Notation for divergences varies significantly between fields, though there are some conventions.

Divergences are generally notated with an uppercase 'D', as in , to distinguish them from metric distances, which are notated with a lowercase 'd'. When multiple divergences are in use, they are commonly distinguished with subscripts, as in for Kullback–Leibler divergence (KL divergence).

Often a different separator between parameters is used, particularly to emphasize the asymmetry. In information theory, a double bar is commonly used: ; this is similar to, but distinct from, the notation for conditional probability, , and emphasizes interpreting the divergence as a relative measurement, as in relative entropy; this notation is common for the KL divergence. A colon may be used instead,[b] as ; this emphasizes the relative information supporting the two distributions.

The notation for parameters varies as well. Uppercase interprets the parameters as probability distributions, while lowercase or interprets them geometrically as points in a space, and or interprets them as measures.

Geometrical properties

Se pueden derivar muchas propiedades de las divergencias si restringimos S a una variedad estadística, lo que significa que se puede parametrizar con un sistema de coordenadas de dimensión finita θ , de modo que para una distribución pS podemos escribir p = p ( θ ) .

Para un par de puntos p , qS con coordenadas θ p y θ q , denotamos las derivadas parciales de D ( p , q ) como

Ahora restringimos estas funciones a una diagonal p = q y denotamos [4]

Por definición, la función D ( p , q ) se minimiza en p = q , y por lo tanto

donde la matriz g ( D ) es semidefinida positiva y define una métrica de Riemann única en la variedad S.

La divergencia D (·, ·) también define una conexión afín única sin torsión( D ) con coeficientes

y el dual a esta conexión ∇* es generado por la divergencia dual D *.

Así, una divergencia D (·, ·) genera en una variedad estadística una estructura dualista única ( g ( D ) , ∇ ( D ) , ∇ ( D *) ). Lo contrario también es cierto: cada estructura dualista libre de torsión en una variedad estadística se induce a partir de alguna función de divergencia definida globalmente (que, sin embargo, no tiene por qué ser única). [5]

Por ejemplo, cuando D es una f-divergencia [6] para alguna función ƒ(·), entonces genera la métrica g ( D f ) = c·g y la conexión ( D f ) = ∇ ( α ) , donde g es la métrica de información canónica de Fisher , ∇ ( α ) es la conexión α, c = ƒ′′(1) y α = 3 + 2ƒ′′′(1)/ƒ′′(1) .

Ejemplos

Las dos divergencias más importantes son la entropía relativa ( divergencia Kullback-Leibler , divergencia KL), que es fundamental para la teoría de la información y la estadística, y la distancia euclidiana al cuadrado (SED). Minimizar estas dos divergencias es la forma principal en que se resuelven los problemas lineales inversos , mediante el principio de máxima entropía y mínimos cuadrados , especialmente en la regresión logística y la regresión lineal . [7]

Las dos clases más importantes de divergencias son las f -divergencias y las divergencias de Bregman ; sin embargo, en la literatura también se encuentran otros tipos de funciones de divergencia. La única divergencia de probabilidades sobre un alfabeto finito que es a la vez una f -divergencia y una divergencia de Bregman es la divergencia de Kullback-Leibler. [8] La divergencia euclidiana al cuadrado es una divergencia de Bregman (correspondiente a la función ) pero no una f -divergencia.

f-divergencias

Dada una función convexa tal que , la f -divergencia generada por se define como

.

Divergencias de Bregman

Las divergencias de Bregman corresponden a funciones convexas en conjuntos convexos. Dada una función F estrictamente convexa y continuamente diferenciable en un conjunto convexo , conocido como generador de Bregman , la divergencia de Bregman mide la convexidad de: el error de la aproximación lineal de F a partir de q como una aproximación del valor en p :

La divergencia dual a una divergencia de Bregman es la divergencia generada por el conjugado convexo F * del generador de Bregman de la divergencia original. Por ejemplo, para la distancia euclidiana al cuadrado, el generador es , mientras que para la entropía relativa el generador es la entropía negativa .

Historia

El uso del término "divergencia" (tanto a qué funciones se refiere como cómo se denominan las distintas distancias estadísticas) ha variado significativamente a lo largo del tiempo, pero c. 2000 se había decidido sobre el uso actual dentro de la geometría de la información, especialmente en el libro de texto Amari y Nagaoka (2000). [1]

El término "divergencia" para una distancia estadística se utilizó informalmente en varios contextos desde c. 1910 a c. 1940. Su uso formal data al menos de Bhattacharyya (1943), titulado "Sobre una medida de divergencia entre dos poblaciones estadísticas definidas por sus distribuciones de probabilidad", que definió la distancia de Bhattacharyya , y Bhattacharyya (1946), titulado "Sobre una medida de Divergencia entre dos poblaciones multinomiales", que definió el ángulo de Bhattacharyya . El término se popularizó por su uso para la divergencia Kullback-Leibler en Kullback & Leibler (1951) y su uso en el libro de texto Kullback (1959). El término "divergencia" fue utilizado generalmente por Ali y Silvey (1966) para distancias estadísticas. En Adhikari y Joshi (1956) y Kullback (1959, págs. 6-7, §1.3 Divergencia) se dan numerosas referencias a usos anteriores de distancias estadísticas .

Kullback y Leibler (1951) en realidad utilizaron "divergencia" para referirse a la divergencia simetrizada (esta función ya había sido definida y utilizada por Harold Jeffreys en 1948 [9] ), refiriéndose a la función asimétrica como "la información media para la discriminación... .por observación", [10] mientras que Kullback (1959) se refirió a la función asimétrica como "divergencia dirigida". [11] Ali y Silvey (1966) se refirieron en general a dicha función como un "coeficiente de divergencia" y demostraron que muchas funciones existentes podían expresarse como f -divergencias, refiriéndose a la función de Jeffreys como "medida de divergencia de Jeffreys". (hoy "divergencia de Jeffreys"), y la función asimétrica de Kullback-Leibler (en cada dirección) como "medidas de información discriminatoria de Kullback y Leibler" (hoy "divergencia Kullback-Leibler"). [12]

Inicialmente se hizo referencia a la definición de divergencia en geometría de la información (el tema de este artículo) mediante términos alternativos, incluidos "cuasi-distancia" Amari (1982, p. 369) y "función de contraste" Eguchi (1985), aunque "divergencia" fue utilizado en Amari (1985) para la α -divergencia, y se ha convertido en estándar para la clase general. [1] [2]

El término "divergencia" contrasta con distancia (métrica), ya que la divergencia simetrizada no satisface la desigualdad del triángulo. [13] Por ejemplo, el término "distancia de Bregman" todavía se encuentra, pero ahora se prefiere "divergencia de Bregman".

Notacionalmente, Kullback y Leibler (1951) denotaron su función asimétrica como , mientras que Ali y Silvey (1966) denotan sus funciones con una 'd' minúscula como .

Ver también

Notas

  1. ^ En todo momento, solo requerimos la clase de diferenciabilidad C 2 (continua con primera y segunda derivadas continuas), ya que solo se requieren segundas derivadas. En la práctica, las variedades y divergencias estadísticas de uso común son infinitamente diferenciables ("suaves").
  2. ^ Se utilizan dos puntos en Kullback & Leibler (1951, p. 80), donde la divergencia KL entre medida y se escribe como .

Referencias

  1. ^ abc Amari & Nagaoka 2000, capítulo 3.2.
  2. ^ ab Amari 2016, pag. 10, Definición 1.1.
  3. ^ abc Amari 2016, pag. 10.
  4. ^ Eguchi (1992)
  5. ^ Matumoto (1993)
  6. ^ Nielsen, F.; Nock, R. (2013). "Sobre el Chi cuadrado y distancias Chi de orden superior para aproximar divergencias f". Cartas de procesamiento de señales IEEE . 21 : 10-13. arXiv : 1309.3029 . doi :10.1109/LSP.2013.2288355. S2CID  4152365.
  7. ^ Csiszar 1991.
  8. ^ Jiao, Jiantao; Corteda, Thomas; No, Alberto; Venkat, Kartik; Weissman, Tsachy (diciembre de 2014). "Medidas de información: el curioso caso del alfabeto binario". Transacciones IEEE sobre teoría de la información . 60 (12): 7616–7626. arXiv : 1404.6810 . doi :10.1109/TIT.2014.2360184. ISSN  0018-9448. S2CID  13108908.
  9. ^ Jeffreys 1948, pag. 158.
  10. ^ Kullback y Leibler 1951, pág. 80.
  11. ^ Kullback 1959, pag. 7.
  12. ^ Ali y Silvey 1966, pág. 139.
  13. ^ Kullback 1959, pag. 6.

Bibliografía