stringtranslate.com

Método del codo (agrupamiento)

Varianza explicada. El "codo" está indicado por el círculo rojo. Por lo tanto, el número de conglomerados elegidos debería ser 4.

En el análisis de conglomerados , el método del codo es una heurística que se utiliza para determinar la cantidad de conglomerados en un conjunto de datos . El método consiste en representar gráficamente la variación explicada en función de la cantidad de conglomerados y elegir el codo de la curva como la cantidad de conglomerados que se utilizarán. El mismo método se puede utilizar para elegir la cantidad de parámetros en otros modelos basados ​​en datos, como la cantidad de componentes principales para describir un conjunto de datos.

El método se remonta a la especulación de Robert L. Thorndike en 1953. [1]

Intuición

El uso del "codo" o " rodilla de una curva " como punto de corte es una heurística común en la optimización matemática para elegir un punto en el que los rendimientos decrecientes ya no justifican el costo adicional. En la agrupación, esto significa que se deben elegir varios clústeres de modo que agregar otro clúster no proporcione un modelado mucho mejor de los datos.

La intuición es que aumentar el número de clústeres mejorará naturalmente el ajuste (explicará más de la variación), ya que hay más parámetros (más clústeres) para usar, pero que en algún punto esto es sobreajuste , y el codo lo refleja. Por ejemplo, dados los datos que realmente consisten en k grupos etiquetados (por ejemplo, k puntos muestreados con ruido), la agrupación con más de k clústeres "explicará" más de la variación (ya que puede usar clústeres más pequeños y ajustados), pero esto es sobreajuste, ya que está subdividiendo los grupos etiquetados en múltiples clústeres. La idea es que los primeros clústeres agregarán mucha información (explicarán mucha variación), ya que los datos realmente consisten en esa cantidad de grupos (por lo que estos clústeres son necesarios), pero una vez que el número de clústeres excede el número real de grupos en los datos, la información agregada caerá bruscamente, porque solo está subdividiendo los grupos reales. Suponiendo que esto sucede, habrá un codo pronunciado en el gráfico de la variación explicada versus los conglomerados: aumentando rápidamente hasta k ( región de subajuste ), y luego aumentando lentamente después de k (región de sobreajuste).

Crítica

El método del codo se considera subjetivo y poco fiable. En muchas aplicaciones prácticas, la elección de un "codo" es muy ambigua, ya que el gráfico no contiene un codo pronunciado. [2] Esto puede ser válido incluso en casos en los que todos los demás métodos para determinar la cantidad de conglomerados en un conjunto de datos (como se menciona en ese artículo) coinciden en la cantidad de conglomerados.

Gráfico de la suma de errores al cuadrado (SSE) a medida que k aumenta, siguiendo una forma típica de 1/k.
Ejemplo del patrón típico de "codo" utilizado para elegir el número de clústeres que surgen incluso en datos uniformes.

Incluso en datos aleatorios uniformes (sin grupos significativos) la curva sigue aproximadamente la relación 1/k , donde k es el parámetro de número de grupos, lo que hace que los usuarios vean un "codo" para elegir por error un número "óptimo" de grupos. [3]

Debido a que los dos ejes (el número de grupos y la varianza restante) no tienen una relación semántica, varios intentos de capturar el codo por "pendiente" están mal definidos y son sensibles al rango de parámetros. [3] Aumentar el número máximo de grupos puede cambiar la ubicación del "codo" percibido, y en muchos casos se considera que las heurísticas alternativas, como el criterio de relación de varianza o el ancho promedio de la silueta, son más confiables. [3] Pero incluso con tales medidas, los resultados pueden depender mucho del preprocesamiento de los datos (selección de características y escalamiento) y los usuarios pueden llegar a resultados de agrupamiento muy diferentes en los mismos datos.

Medidas de variación

Existen varias medidas de " variación explicada " que se utilizan en el método del codo. La variación se cuantifica más comúnmente por la varianza y la razón utilizada es la razón entre la varianza entre grupos y la varianza total. Alternativamente, se utiliza la razón entre la varianza entre grupos y la varianza dentro de los grupos, que es la estadística de prueba F de ANOVA unidireccional . [4]

Véase también

Referencias

  1. ^ Robert L. Thorndike (diciembre de 1953). "¿Quién pertenece a la familia?". Psychometrika . 18 (4): 267–276. doi :10.1007/BF02289263. S2CID  120467216.
  2. ^ Véase, por ejemplo, Ketchen, Jr, David J.; Shook, Christopher L. (1996). "La aplicación del análisis de conglomerados en la investigación de gestión estratégica: un análisis y una crítica". Revista de gestión estratégica . 17 (6): 441–458. doi :10.1002/(SICI)1097-0266(199606)17:6<441::AID-SMJ819>3.0.CO;2-G.[ enlace muerto ]
  3. ^ abc Schubert, Erich (5 de julio de 2023). "Dejar de usar el criterio del codo para las k-medias y cómo elegir el número de clústeres en su lugar". Boletín de exploraciones de ACM SIGKDD . 25 (1): 36–42. arXiv : 2212.12189 . doi :10.1145/3606274.3606278. ISSN  1931-0145.
  4. ^ Véase, por ejemplo, la Figura 6 en
    • Gota, Cyril; Toft, Peter; Rostrup, Egill; Nielsen, Finn Arup; Hansen, Lars Kai (marzo de 1999). "Sobre la agrupación de series temporales de resonancia magnética funcional". NeuroImagen . 9 (3): 298–310. CiteSeerX  10.1.1.29.2679 . doi :10.1006/nimg.1998.0391. PMID  10075900. S2CID  14147564.