En estadística , el coeficiente de incertidumbre , también llamado coeficiente de competencia , coeficiente de entropía o U de Theil , es una medida de asociación nominal . Fue introducido por primera vez por Henri Theil [ cita requerida ] y se basa en el concepto de entropía de la información .
Supongamos que tenemos muestras de dos variables aleatorias discretas, X e Y . Al construir la distribución conjunta, P X,Y ( x , y ) , a partir de la cual podemos calcular las distribuciones condicionales , P X | Y ( x | y ) = P X,Y ( x , y )/ P Y ( y ) y P Y |X ( y | x ) = P X,Y ( x , y )/ P X ( x ) , y calculando las distintas entropías, podemos determinar el grado de asociación entre las dos variables.
La entropía de una única distribución se expresa como: [1]
mientras que la entropía condicional se da como: [1]
El coeficiente de incertidumbre [2] o competencia [3] se define como:
y nos dice: dado Y , ¿qué fracción de los bits de X podemos predecir? En este caso podemos pensar que X contiene la información total y que Y permite predecir parte de dicha información.
La expresión anterior deja claro que el coeficiente de incertidumbre es una información mutua normalizada I(X;Y) . En particular, el coeficiente de incertidumbre varía en [0, 1] cuando I(X;Y) < H(X) y tanto I(X,Y) como H(X) son positivos o nulos.
Nótese que el valor de U (¡pero no de H !) es independiente de la base del logaritmo, ya que todos los logaritmos son proporcionales.
El coeficiente de incertidumbre es útil para medir la validez de un algoritmo de clasificación estadística y tiene la ventaja sobre medidas de precisión más simples, como la precisión y la recuperación , de que no se ve afectado por las fracciones relativas de las diferentes clases, es decir, P ( x ). [4] También tiene la propiedad única de que no penalizará a un algoritmo por predecir las clases incorrectas, siempre que lo haga de manera consistente (es decir, simplemente reordene las clases). Esto es útil para evaluar algoritmos de agrupamiento , ya que las etiquetas de los grupos normalmente no tienen un orden particular. [3]
El coeficiente de incertidumbre no es simétrico con respecto a los roles de X e Y. Los roles pueden invertirse y, por lo tanto, una medida simétrica se define como un promedio ponderado entre los dos: [2]
Aunque normalmente se aplica a variables discretas, el coeficiente de incertidumbre se puede extender a variables continuas [1] utilizando la estimación de densidad . [ cita requerida ]
{{cite journal}}
: Requiere citar revista |journal=
( ayuda )