stringtranslate.com

Coeficiente de incertidumbre

En estadística , el coeficiente de incertidumbre , también llamado coeficiente de competencia , coeficiente de entropía o U de Theil , es una medida de asociación nominal . Fue introducido por primera vez por Henri Theil [ cita requerida ] y se basa en el concepto de entropía de la información .

Definición

Supongamos que tenemos muestras de dos variables aleatorias discretas, X e Y . Al construir la distribución conjunta, P X,Y ( xy ) , a partir de la cual podemos calcular las distribuciones condicionales , P X | Y ( x | y ) =  P X,Y ( xy )/ P Y ( y ) y P Y |X ( y | x ) =  P X,Y ( xy )/ P X ( x ) , y calculando las distintas entropías, podemos determinar el grado de asociación entre las dos variables.

La entropía de una única distribución se expresa como: [1]

mientras que la entropía condicional se da como: [1]

El coeficiente de incertidumbre [2] o competencia [3] se define como:

y nos dice: dado Y , ¿qué fracción de los bits de X podemos predecir? En este caso podemos pensar que X contiene la información total y que Y permite predecir parte de dicha información.

La expresión anterior deja claro que el coeficiente de incertidumbre es una información mutua normalizada I(X;Y) . En particular, el coeficiente de incertidumbre varía en [0, 1] cuando I(X;Y) < H(X) y tanto I(X,Y) como H(X) son positivos o nulos.

Nótese que el valor de U (¡pero no de H !) es independiente de la base del logaritmo, ya que todos los logaritmos son proporcionales.

El coeficiente de incertidumbre es útil para medir la validez de un algoritmo de clasificación estadística y tiene la ventaja sobre medidas de precisión más simples, como la precisión y la recuperación , de que no se ve afectado por las fracciones relativas de las diferentes clases, es decir, P ( x ). [4] También tiene la propiedad única de que no penalizará a un algoritmo por predecir las clases incorrectas, siempre que lo haga de manera consistente (es decir, simplemente reordene las clases). Esto es útil para evaluar algoritmos de agrupamiento , ya que las etiquetas de los grupos normalmente no tienen un orden particular. [3]

Variaciones

El coeficiente de incertidumbre no es simétrico con respecto a los roles de X e Y. Los roles pueden invertirse y, por lo tanto, una medida simétrica se define como un promedio ponderado entre los dos: [2]

Aunque normalmente se aplica a variables discretas, el coeficiente de incertidumbre se puede extender a variables continuas [1] utilizando la estimación de densidad . [ cita requerida ]

Véase también

Referencias

  1. ^ abc Claude E. Shannon; Warren Weaver (1963). La teoría matemática de la comunicación . Prensa de la Universidad de Illinois.
  2. ^ ab William H. Press; Brian P. Flannery; Saul A. Teukolsky; William T. Vetterling (1992). "14.7.4". Recetas numéricas: el arte de la computación científica (3.ª ed.). Cambridge University Press. pág. 761.
  3. ^ ab White, Jim; Steingold, Sam; Fournelle, Connie. "Métricas de rendimiento para algoritmos de detección de grupos" (PDF) . Interface 2004. {{cite journal}}: Requiere citar revista |journal=( ayuda )
  4. ^ Peter, Mills (2011). "Clasificación estadística eficiente de mediciones satelitales" (PDF) . Revista Internacional de Teledetección . 32 (21): 6109–6132. arXiv : 1202.2194 . Código Bibliográfico :2011IJRS...32.6109M. doi :10.1080/01431161.2010.507795. S2CID  88518570. Archivado desde el original (PDF) el 26 de abril de 2012.

Enlaces externos