stringtranslate.com

Distancia estadística

En estadística , teoría de probabilidad y teoría de la información , una distancia estadística cuantifica la distancia entre dos objetos estadísticos, que pueden ser dos variables aleatorias , o dos distribuciones de probabilidad o muestras , o la distancia puede ser entre un punto de muestra individual y una población o una muestra más amplia de puntos.

Una distancia entre poblaciones puede interpretarse como la medición de la distancia entre dos distribuciones de probabilidad y, por lo tanto, son esencialmente medidas de distancias entre medidas de probabilidad . Cuando las medidas de distancia estadística se relacionan con las diferencias entre variables aleatorias , estas pueden tener dependencia estadística [ 1] y, por lo tanto, estas distancias no están directamente relacionadas con las medidas de distancias entre medidas de probabilidad. Nuevamente, una medida de distancia entre variables aleatorias puede relacionarse con el grado de dependencia entre ellas, en lugar de con sus valores individuales.

Muchas medidas de distancia estadísticas no son métricas y algunas no son simétricas. Algunos tipos de medidas de distancia, que generalizan la distancia al cuadrado , se denominan divergencias (estadísticas) .

Terminología

Se utilizan muchos términos para referirse a diversas nociones de distancia; a menudo, estos son confusamente similares y pueden usarse de manera inconsistente entre autores y a lo largo del tiempo, ya sea de manera vaga o con un significado técnico preciso. Además de "distancia", otros términos similares incluyen desviación, discrepancia , discriminación y divergencia , así como otros como función de contraste y métrica . Los términos de la teoría de la información incluyen entropía cruzada , entropía relativa , información de discriminación y ganancia de información .

Las distancias como métricas

Métrica

Una métrica de un conjunto X es una función (llamada función distancia o simplemente distancia ) d  : X × XR + (donde R + es el conjunto de números reales no negativos ). Para todos los x , y , z en X , se requiere que esta función satisfaga las siguientes condiciones:

  1. d ( x , y ) ≥ 0 ( no negatividad )
  2. d ( x , y ) = 0 si y sólo si   x = y     ( identidad de indiscernibles . Nótese que las condiciones 1 y 2 juntas producen una definibilidad positiva )
  3. d ( x , y ) = d ( y , x ) ( simetría )
  4. d ( x , z ) ≤ d ( x , y ) + d ( y , z ) ( subaditividad / desigualdad triangular ).

Métricas generalizadas

Muchas distancias estadísticas no son métricas , porque carecen de una o más propiedades de las métricas adecuadas. Por ejemplo, las pseudométricas violan la propiedad (2), identidad de indiscernibles; las cuasimétricas violan la propiedad (3), simetría; y las semimétricas violan la propiedad (4), la desigualdad triangular. Las distancias estadísticas que satisfacen (1) y (2) se denominan divergencias .

Estadísticamente cerca

La distancia de variación total de dos distribuciones y sobre un dominio finito (a menudo denominada diferencia estadística [2] o distancia estadística [3] en criptografía) se define como

.

Decimos que dos conjuntos de probabilidad y son estadísticamente cercanos si es una función despreciable en .

Ejemplos

Métrica

Divergencias

Véase también

Notas

  1. ^ Dodge, Y. (2003)—entrada para distancia
  2. ^ Goldreich, Oded (2001). Fundamentos de criptografía: herramientas básicas (1.ª ed.). Berlín: Cambridge University Press . pág. 106. ISBN 0-521-79172-3.
  3. ^ Reyzin, Leo. (Notas de la clase) Extractores y el lema del hash sobrante

Enlaces externos

Referencias