stringtranslate.com

Distancia estadística

En estadística , teoría de la probabilidad y teoría de la información , una distancia estadística cuantifica la distancia entre dos objetos estadísticos, que pueden ser dos variables aleatorias , o dos distribuciones de probabilidad o muestras , o la distancia puede ser entre un punto de muestra individual y una población o un muestra más amplia de puntos.

Una distancia entre poblaciones puede interpretarse como una medida de la distancia entre dos distribuciones de probabilidad y, por tanto, son esencialmente medidas de distancias entre medidas de probabilidad . Cuando las medidas de distancia estadística se relacionan con las diferencias entre variables aleatorias , estas pueden tener dependencia estadística , [1] y, por lo tanto, estas distancias no están directamente relacionadas con las medidas de distancias entre medidas de probabilidad. Nuevamente, una medida de distancia entre variables aleatorias puede relacionarse con el grado de dependencia entre ellas, más que con sus valores individuales.

Muchas medidas estadísticas de distancia no son métricas y algunas no son simétricas. Algunos tipos de medidas de distancia, que generalizan la distancia al cuadrado , se denominan divergencias (estadísticas) .

Terminología

Se utilizan muchos términos para referirse a diversas nociones de distancia; estos a menudo son similares y confusos y pueden usarse de manera inconsistente entre autores y con el tiempo, ya sea de manera vaga o con un significado técnico preciso. Además de "distancia", términos similares incluyen desviación , desviación , discrepancia , discriminación y divergencia , así como otros como función de contraste y métrica . Los términos de la teoría de la información incluyen entropía cruzada , entropía relativa , información discriminatoria y ganancia de información .

Distancias como métricas

Métrica

Una métrica en un conjunto X es una función (llamada función de distancia o simplemente distancia ) d  : X × XR + (donde R + es el conjunto de números reales no negativos ). Para todo x , y , z en X , se requiere que esta función cumpla las siguientes condiciones:

  1. d ( x , y ) ≥ 0 ( no negatividad )
  2. d ( x , y ) = 0 si y sólo si   x = y     ( identidad de indiscernibles . Tenga en cuenta que las condiciones 1 y 2 juntas producen una precisión positiva )
  3. d ( x , y ) = d ( y , x ) ( simetría )
  4. d ( x , z ) ≤ d ( x , y ) + d ( y , z ) ( subaditividad / desigualdad triangular ).

Métricas generalizadas

Muchas distancias estadísticas no son métricas porque carecen de una o más propiedades de las métricas adecuadas. Por ejemplo, las pseudométricas violan la propiedad (2), identidad de indiscernibles; los cuasimétricos violan la propiedad (3), la simetría; y las semimétricas violan la propiedad (4), la desigualdad del triángulo. Las distancias estadísticas que satisfacen (1) y (2) se denominan divergencias .

Estadísticamente cerca

La distancia de variación total de dos distribuciones y en un dominio finito (a menudo denominada diferencia estadística [2] o distancia estadística [3] en criptografía) se define como

.

Decimos que dos conjuntos de probabilidad y son estadísticamente cercanos si es una función insignificante en .

Ejemplos

Métrica

Divergencias

Ver también

Notas

  1. ^ Dodge, Y. (2003): entrada por distancia
  2. ^ Goldreich, Oded (2001). Fundamentos de la criptografía: herramientas básicas (1ª ed.). Berlín: Cambridge University Press . pag. 106.ISBN _ 0-521-79172-3.
  3. ^ Reyzin, Leo. (Notas de la conferencia) Los extractores y el lema del hachís sobrante

enlaces externos

Referencias