Medida de distancia entre dos agrupaciones relacionadas con información mutua
En teoría de la probabilidad y teoría de la información , la variación de la información o distancia de información compartida es una medida de la distancia entre dos agrupaciones ( particiones de elementos ). Está estrechamente relacionada con la información mutua ; de hecho, es una expresión lineal simple que involucra la información mutua. Sin embargo, a diferencia de la información mutua, la variación de la información es una métrica verdadera , ya que obedece a la desigualdad triangular . [1] [2] [3]
Entonces la variación de información entre las dos particiones es:
.
Esto es equivalente a la distancia de información compartida entre las variables aleatorias i y j con respecto a la medida de probabilidad uniforme en definida por para .
Contenido de información explícita
Podemos reescribir esta definición en términos que resalten explícitamente el contenido de información de esta métrica.
El conjunto de todas las particiones de un conjunto forma una red compacta donde el orden parcial induce dos operaciones, el encuentro y la unión , donde el máximo es la partición con un solo bloque, es decir, todos los elementos agrupados, y el mínimo es , la partición formada por todos los elementos como singletons. El encuentro de dos particiones y es fácil de entender como aquella partición formada por todas las intersecciones de pares de un bloque de, , de y uno, , de . Entonces se sigue que y .
Definamos la entropía de una partición como
,
donde . Claramente, y . La entropía de una partición es una función monótona en la red de particiones en el sentido de que .
Entonces la distancia VI entre y está dada por
.
La diferencia es una pseudométrica, ya que no implica necesariamente que . Según la definición de , es .
Si en el diagrama de Hasse dibujamos un borde desde cada partición hasta el máximo y le asignamos un peso igual a la distancia VI entre la partición dada y , podemos interpretar la distancia VI como básicamente un promedio de las diferencias de los pesos de los bordes hasta el máximo
.
Como se definió anteriormente, se cumple que la información conjunta de dos particiones coincide con la entropía de la unión.
y también tenemos que coincide con la entropía condicional del encuentro (intersección) relativa a .
Identidades
La variación de la información satisface
,
donde es la entropía de , y es la información mutua entre y con respecto a la medida de probabilidad uniforme en . Esto se puede reescribir como
La variación de la información también puede ser limitada, ya sea en términos del número de elementos:
,
O con respecto a un número máximo de clústeres, :
Desigualdad triangular
Para verificar la desigualdad del triángulo , desarrollamos usando la identidad . Basta con demostrar que el lado derecho tiene un límite inferior
que no es menor que el lado izquierdo.
Referencias
^ Arabie, P.; Boorman, SA (1973). "Escalamiento multidimensional de medidas de distancia entre particiones". Revista de Psicología Matemática . 10 (2): 148–203. doi :10.1016/0022-2496(73)90012-6.
^ Meilă, Marina (2003). "Comparación de agrupamientos por la variación de la información". En Bernhard Schölkopf; Manfred K. Warmuth (eds.). Teoría del aprendizaje y máquinas de núcleo . 16.ª Conferencia anual sobre teoría del aprendizaje computacional y 7.º taller de núcleo. Lecture Notes in Computer Science, vol. 2777. Springer. págs. 173–187. doi :10.1007/978-3-540-45167-9_14. ISBN978-3-540-40720-1. Número de identificación del sujeto 4341039.
Lectura adicional
Meila, M. (2007). "Comparación de agrupamientos: una distancia basada en la información". Journal of Multivariate Analysis . 98 (5): 873–895. doi : 10.1016/j.jmva.2006.11.013 .
Kingsford, Carl (2009). "Information Theory Notes" (PDF) . Consultado el 22 de septiembre de 2009 .
Kraskov, Alexander; Harald Stögbauer; Ralph G. Andrzejak; Peter Grassberger (2003). "Agrupamiento jerárquico basado en información mutua". arXiv : q-bio/0311039 .
Enlaces externos
Partanalyzer incluye una implementación en C++ de VI y otras métricas e índices para analizar particiones y agrupaciones.