stringtranslate.com

Coeficiente de coincidencia simple

El coeficiente de coincidencia simple (SMC) o coeficiente de similitud de Rand es una estadística que se utiliza para comparar la similitud y diversidad de conjuntos de muestras . [1] [ se necesita una mejor fuente ]

Dados dos objetos, A y B, cada uno con n atributos binarios, SMC se define como:

dónde

La distancia de coincidencia simple (SMD) , que mide la disimilitud entre conjuntos de muestras, viene dada por . [2] [ se necesita una mejor fuente ]

SMC está relacionado linealmente con la similitud de Hamann: . Además, donde es la distancia euclidiana al cuadrado entre los dos objetos (vectores binarios) y n es el número de atributos.

El SMC es muy similar al índice Jaccard más popular . La principal diferencia es que el SMC tiene el término en su numerador y denominador, mientras que el índice Jaccard no. Por lo tanto, el SMC cuenta tanto la presencia mutua (cuando un atributo está presente en ambos conjuntos) como la ausencia mutua (cuando un atributo está ausente en ambos conjuntos) como coincidencias y las compara con el número total de atributos en el universo, mientras que el índice Jaccard solo cuenta la presencia mutua como coincidencias y la compara con el número de atributos que han sido elegidos por al menos uno de los dos conjuntos.

En el análisis de la cesta de la compra, por ejemplo, la cesta de dos consumidores que deseamos comparar puede contener sólo una pequeña fracción de todos los productos disponibles en la tienda, por lo que el SMC normalmente arrojará valores muy altos de similitudes incluso cuando las cestas tengan valores muy altos. poca semejanza, lo que hace que el índice de Jaccard sea una medida de similitud más apropiada en ese contexto. Por ejemplo, pensemos en un supermercado con 1000 productos y dos clientes. La canasta del primer cliente contiene sal y pimienta y la canasta del segundo contiene sal y azúcar. En este escenario, la similitud entre las dos cestas medida por el índice de Jaccard sería 1/3, pero la similitud llega a 0,998 utilizando el SMC.

En otros contextos, donde 0 y 1 contienen información equivalente (simetría), el SMC es una mejor medida de similitud. Por ejemplo, los vectores de variables demográficas almacenados en variables ficticias , como el género binario, se compararían mejor con el SMC que con el índice de Jaccard, ya que el impacto del género en la similitud debería ser igual, independientemente de si lo masculino se define como 0 y hembra como 1 o al revés. Sin embargo, cuando tenemos variables ficticias simétricas, se podría replicar el comportamiento del SMC dividiendo las ficticias en dos atributos binarios (en este caso, masculino y femenino), transformándolos así en atributos asimétricos, permitiendo el uso del índice Jaccard sin introduciendo cualquier sesgo. Al utilizar este truco, se puede considerar que el índice Jaccard convierte al SMC en una métrica totalmente redundante. Sin embargo, el SMC sigue siendo más eficiente computacionalmente en el caso de variables ficticias simétricas, ya que no requiere agregar dimensiones adicionales.

El índice Jaccard también es más general que el SMC y se puede utilizar para comparar otros tipos de datos además de vectores de atributos binarios, como medidas de probabilidad .

Ver también

Notas

  1. ^ "Cartera de minería de datos".
  2. ^ "Coeficiente de coincidencia simple".