La técnica proporciona una representación gráfica sucinta de lo bien que se ha clasificado cada objeto.
[1] El valor de la silueta es una medida de cuán similar es un objeto a su propio cúmulo (cohesión) en comparación con otros cúmulos (separación).
La silueta va de -1 a +1, donde un valor alto indica que el objeto está bien emparejado con su propio cúmulo y mal emparejado con los cúmulos vecinos.
Si la mayoría de los objetos tienen un valor alto, entonces la configuración del cúmulo es apropiada.
Si muchos puntos tienen un valor bajo o negativo, entonces la configuración de cúmulos puede tener demasiados o muy pocos cúmulos.
Supongamos que los datos han sido agrupados mediante cualquier técnica, como k-means, en
y todos los demás puntos de datos en el mismo cúmulo, donde
es la distancia entre los puntos de datos
Luego definimos la diferencia media del punto
, definimos ahora para ser el más pequeño (de ahí el operador
en la fórmula) distancia media de
a todos los puntos de cualquier otro cúmulo, del cual
Se dice que el cúmulo con esta diferencia media más pequeña es el "cúmulo vecino" de
porque es el siguiente cúmulo que mejor se ajusta al punto
y El cual puede ser escrito como: De la anterior definición está claro que Además, note que la puntuación es 0 para los grupos con tamaño = 1.
Esta restricción se añade para evitar que el número de cúmulos aumente significativamente.
esté cerca de 1 requerimos que
es una medida de cuán disímil es
a su propio grupo, un pequeño valor significa que está bien emparejado.
está mal emparejado con su cúmulo vecino.
cercano a uno significa que los datos están apropiadamente agrupados.
está cerca de uno negativo, entonces por la misma lógica vemos que
sería más apropiado si se agrupara en su cúmulo vecino.
cercano a cero significa que el dato está en el borde de dos cúmulos naturales.
sobre todos los puntos de un cúmulo es una medida de cuán estrechamente agrupados están todos los puntos del cúmulo.
sobre todos los datos de todo el conjunto de datos es una medida de cuán apropiadamente los datos han sido agrupados.
Si hay demasiados o muy pocos cúmulos, como puede ocurrir cuando se utiliza una mala elección de
en el algoritmo de agrupación (por ejemplo: k-means), algunos de los cúmulos mostrarán típicamente siluetas mucho más estrechas que el resto.
También se puede aumentar la probabilidad de que la silueta se maximice en el número correcto de cúmulos al reescalar los datos utilizando ponderaciones de características que sean específicas del cúmulo.
introdujeron el término silhouette coefficient para el valor máximo del promedio