Índice de Fowlkes-Mallows

El índice de Fowlkes-Mallows es un método de evaluación externa que se utiliza para determinar la similitud entre dos clusterings (clusters obtenidos tras un algoritmo de clustering ), y también una métrica para medir matrices de confusión . Esta medida de similitud podría ser entre dos agrupamientos jerárquicos o entre un agrupamiento y una clasificación de referencia. Un valor más alto para el índice de Fowlkes-Mallows indica una mayor similitud entre los grupos y las clasificaciones de referencia. Fue inventado por los estadísticos de Bell Labs Edward Fowlkes y Collin Mallows en 1983. ^[1]

Preliminares

El índice de Fowlkes-Mallows , cuando se utilizan los resultados de dos algoritmos de agrupamiento para evaluar los resultados, se define como ^[2]

FM={\sqrt {PPV\cdot TPR}}={\sqrt {{\frac {TP}{TP+FP}}\cdot {\frac {TP}{TP+FN}}}}

donde es el número de verdaderos positivos , es el número de falsos positivos y es el número de falsos negativos . es la tasa positiva verdadera , también llamada sensibilidad o recuperación , y es la tasa predictiva positiva , también conocida como precisión . $TP$ $FP$ $FN$ $TPR$ $PPV$

El valor mínimo posible del índice de Fowlkes-Mallows es 0, que corresponde a la peor clasificación binaria posible, donde todos los elementos han sido clasificados erróneamente. Y el valor máximo posible del índice de Fowlkes-Mallows es 1, que corresponde a la mejor clasificación binaria posible, donde todos los elementos han sido perfectamente clasificados.

Definición

Considere dos agrupaciones jerárquicas de objetos etiquetados y . Los árboles se pueden cortar para producir grupos para cada árbol (ya sea seleccionando grupos a una altura particular del árbol o estableciendo diferentes intensidades de la agrupación jerárquica). Para cada valor de , se puede crear la siguiente tabla $n$ $A_{1}$ $A_{2}$ $A_{1}$ $A_{2}$ $k=2,\ldots ,n-1$ $k$

M=[m_{i,j}]\qquad (i=1,\ldots ,k{\text{ and }}j=1,\ldots ,k)

donde es de objetos comunes entre el ésimo grupo de y el ésimo grupo de . El índice de Fowlkes-Mallows para el valor específico de se define entonces como $m_{i,j}$ $i$ $A_{1}$ $j$ $A_{2}$ $k$

B_{k}={\frac {T_{k}}{\sqrt {P_{k}Q_{k}}}}

dónde

T_{k}=\sum _{i=1}^{k}\sum _{j=1}^{k}m_{i,j}^{2}-n

P_{k}=\sum _{i=1}^{k}(\sum _{j=1}^{k}m_{i,j})^{2}-n

Q_{k}=\sum _{j=1}^{k}(\sum _{i=1}^{k}m_{i,j})^{2}-n

$B_{k}$ Luego se puede calcular para cada valor de y la similitud entre las dos agrupaciones se puede mostrar graficando versus . Para cada uno tenemos . $k$ $B_{k}$ $k$ $k$ $0\leq B_{k}\leq 1$

El índice de Fowlkes-Mallows también se puede definir en función del número de puntos que son comunes o poco comunes en los dos agrupamientos jerárquicos. si definimos

TP

como el número de pares de puntos que están presentes en el mismo grupo tanto en como .

A_{1}

A_{2}

FP

como el número de pares de puntos que están presentes en el mismo grupo pero no en .

A_{1}

A_{2}

FN

como el número de pares de puntos que están presentes en el mismo grupo pero no en .

A_{2}

A_{1}

TN

como el número de pares de puntos que están en diferentes grupos tanto en como en .

A_{1}

A_{2}

Se puede demostrar que los cuatro cargos tienen la siguiente propiedad

TP+FP+FN+TN=n(n-1)/2

y que el índice de Fowlkes-Mallows para dos agrupaciones se puede definir como ^[3]

FM={\sqrt {PPV\cdot TPR}}={\sqrt {{\frac {TP}{TP+FP}}\cdot {\frac {TP}{TP+FN}}}}

donde es el número de verdaderos positivos , es el número de falsos positivos y es el número de falsos negativos .

TP

FP

FN

TPR

es la tasa positiva verdadera , también llamada sensibilidad o recuperación , y es la tasa predictiva positiva , también conocida como precisión .

PPV

El índice de Fowlkes-Mallows es la media geométrica de precisión y recuperación . ^[4]

Discusión

Dado que el índice es directamente proporcional al número de verdaderos positivos, un índice más alto significa una mayor similitud entre las dos agrupaciones utilizadas para determinar el índice. Una forma básica de probar la validez de este índice es comparar dos agrupaciones que no están relacionadas entre sí. Fowlkes y Mallows demostraron que al utilizar dos agrupaciones no relacionadas, el valor de este índice se acerca a cero a medida que aumenta el número total de puntos de datos elegidos para la agrupación; mientras que el valor del índice de Rand para los mismos datos se acerca rápidamente a ^[1], lo que hace que el índice de Fowlkes-Mallows sea una representación mucho más precisa para datos no relacionados. Este índice también funciona bien si se agrega ruido a un conjunto de datos existente y se compara su similitud. Fowlkes y Mallows demostraron que el valor del índice disminuye a medida que aumenta el componente del ruido. El índice también mostró similitud incluso cuando el conjunto de datos ruidoso tenía un número diferente de grupos que los del conjunto de datos original. Por lo tanto, es una herramienta confiable para medir la similitud entre dos grupos. $1$

Otras lecturas

Chicco, Davide; Jurman, Giuseppe (2023). "Una comparación estadística entre el coeficiente de correlación de Matthews (MCC), el umbral de prevalencia y el índice de Fowlkes-Mallows". Revista de Informática Biomédica . 144 (104426): 1–7. doi :10.1016/j.jbi.2023.104426. hdl : 10281/430040 . PMID 37352899. S2CID 259240662.

Ver también

Referencias

^ ab Fowlkes, EB; Mallows, CL (1 de septiembre de 1983). "Un método para comparar dos agrupaciones jerárquicas". Revista de la Asociación Estadounidense de Estadística . 78 (383): 553. doi : 10.2307/2288117.
^ Halkidi, María; Batistakis, Yannis; Vazirgiannis, Michalis (1 de enero de 2001). "Sobre técnicas de validación de agrupaciones". Revista de sistemas de información inteligentes . 17 (2/3): 107–145. doi :10.1023/A:1012801612483.
^ MEILA, M (1 de mayo de 2007). "Comparación de agrupaciones: una distancia basada en información". Revista de análisis multivariado . 98 (5): 873–895. doi : 10.1016/j.jmva.2006.11.013 .
^ Tharwat A (agosto de 2018). "Métodos de evaluación de clasificación". Computación e Informática Aplicada . doi : 10.1016/j.aci.2018.08.003 .

enlaces externos

Implementación del índice Fowlkes-Mallows Archivado el 3 de junio de 2016 en Wayback Machine en R.