stringtranslate.com

Coeficiente de correspondencia simple

El coeficiente de coincidencia simple (SMC) o coeficiente de similitud de Rand es una estadística utilizada para comparar la similitud y diversidad de conjuntos de muestras . [1] [ se necesita una mejor fuente ]

Dados dos objetos, A y B, cada uno con n atributos binarios, SMC se define como:

dónde

La distancia de coincidencia simple (SMD) , que mide la disimilitud entre conjuntos de muestras, se expresa mediante . [2] [ se necesita una mejor fuente ]

La similitud de Hamann está relacionada linealmente con la SMC: . Además, , donde es la distancia euclidiana al cuadrado entre los dos objetos (vectores binarios) y n es el número de atributos.

El SMC es muy similar al más popular índice de Jaccard . La principal diferencia es que el SMC tiene el término en su numerador y denominador, mientras que el índice de Jaccard no. Por lo tanto, el SMC cuenta tanto las presencias mutuas (cuando un atributo está presente en ambos conjuntos) como las ausencias mutuas (cuando un atributo está ausente en ambos conjuntos) como coincidencias y las compara con el número total de atributos en el universo, mientras que el índice de Jaccard solo cuenta la presencia mutua como coincidencias y la compara con el número de atributos que han sido elegidos por al menos uno de los dos conjuntos.

En el análisis de la cesta de compra, por ejemplo, la cesta de dos consumidores que deseamos comparar puede contener solo una pequeña fracción de todos los productos disponibles en la tienda, por lo que el SMC normalmente devolverá valores muy altos de similitudes incluso cuando las cestas tengan muy poca semejanza, lo que hace que el índice de Jaccard sea una medida de similitud más adecuada en ese contexto. Por ejemplo, considere un supermercado con 1000 productos y dos clientes. La cesta del primer cliente contiene sal y pimienta y la cesta del segundo contiene sal y azúcar. En este escenario, la similitud entre las dos cestas medida por el índice de Jaccard sería 1/3, pero la similitud se convierte en 0,998 utilizando el SMC.

En otros contextos, donde 0 y 1 llevan información equivalente (simetría), el SMC es una mejor medida de similitud. Por ejemplo, los vectores de variables demográficas almacenadas en variables ficticias , como el género binario, se compararían mejor con el SMC que con el índice de Jaccard, ya que el impacto del género en la similitud debería ser igual, independientemente de si masculino se define como un 0 y femenino como un 1 o al revés. Sin embargo, cuando tenemos variables ficticias simétricas, se podría replicar el comportamiento del SMC dividiendo las variables ficticias en dos atributos binarios (en este caso, masculino y femenino), transformándolos así en atributos asimétricos, lo que permite el uso del índice de Jaccard sin introducir ningún sesgo. Al usar este truco, se puede considerar que el índice de Jaccard convierte al SMC en una métrica completamente redundante. Sin embargo, el SMC sigue siendo más eficiente computacionalmente en el caso de variables ficticias simétricas, ya que no requiere agregar dimensiones adicionales.

El índice Jaccard también es más general que el SMC y puede utilizarse para comparar otros tipos de datos que no sean solo vectores de atributos binarios, como medidas de probabilidad .

Véase también

Notas

  1. ^ "Portafolio de minería de datos".
  2. ^ "Coeficiente de correspondencia simple".