En el análisis de conglomerados , el método del codo es una heurística que se utiliza para determinar la cantidad de conglomerados en un conjunto de datos . El método consiste en representar gráficamente la variación explicada en función de la cantidad de conglomerados y elegir el codo de la curva como la cantidad de conglomerados que se utilizarán. El mismo método se puede utilizar para elegir la cantidad de parámetros en otros modelos basados en datos, como la cantidad de componentes principales para describir un conjunto de datos.
El método se remonta a la especulación de Robert L. Thorndike en 1953. [1]
El uso del "codo" o " rodilla de una curva " como punto de corte es una heurística común en la optimización matemática para elegir un punto en el que los rendimientos decrecientes ya no justifican el costo adicional. En la agrupación, esto significa que se deben elegir varios clústeres de modo que agregar otro clúster no proporcione un modelado mucho mejor de los datos.
La intuición es que aumentar el número de clústeres mejorará naturalmente el ajuste (explicará más de la variación), ya que hay más parámetros (más clústeres) para usar, pero que en algún punto esto es sobreajuste , y el codo lo refleja. Por ejemplo, dados los datos que realmente consisten en k grupos etiquetados (por ejemplo, k puntos muestreados con ruido), la agrupación con más de k clústeres "explicará" más de la variación (ya que puede usar clústeres más pequeños y ajustados), pero esto es sobreajuste, ya que está subdividiendo los grupos etiquetados en múltiples clústeres. La idea es que los primeros clústeres agregarán mucha información (explicarán mucha variación), ya que los datos realmente consisten en esa cantidad de grupos (por lo que estos clústeres son necesarios), pero una vez que el número de clústeres excede el número real de grupos en los datos, la información agregada caerá bruscamente, porque solo está subdividiendo los grupos reales. Suponiendo que esto sucede, habrá un codo pronunciado en el gráfico de la variación explicada versus los conglomerados: aumentando rápidamente hasta k ( región de subajuste ), y luego aumentando lentamente después de k (región de sobreajuste).
El método del codo se considera subjetivo y poco fiable. En muchas aplicaciones prácticas, la elección de un "codo" es muy ambigua, ya que el gráfico no contiene un codo pronunciado. [2] Esto puede ser válido incluso en casos en los que todos los demás métodos para determinar la cantidad de conglomerados en un conjunto de datos (como se menciona en ese artículo) coinciden en la cantidad de conglomerados.
Incluso en datos aleatorios uniformes (sin grupos significativos) la curva sigue aproximadamente la relación 1/k , donde k es el parámetro de número de grupos, lo que hace que los usuarios vean un "codo" para elegir por error un número "óptimo" de grupos. [3]
Debido a que los dos ejes (el número de grupos y la varianza restante) no tienen una relación semántica, varios intentos de capturar el codo por "pendiente" están mal definidos y son sensibles al rango de parámetros. [3] Aumentar el número máximo de grupos puede cambiar la ubicación del "codo" percibido, y en muchos casos se considera que las heurísticas alternativas, como el criterio de relación de varianza o el ancho promedio de la silueta, son más confiables. [3] Pero incluso con tales medidas, los resultados pueden depender mucho del preprocesamiento de los datos (selección de características y escalamiento) y los usuarios pueden llegar a resultados de agrupamiento muy diferentes en los mismos datos.
Existen varias medidas de " variación explicada " que se utilizan en el método del codo. La variación se cuantifica más comúnmente por la varianza y la razón utilizada es la razón entre la varianza entre grupos y la varianza total. Alternativamente, se utiliza la razón entre la varianza entre grupos y la varianza dentro de los grupos, que es la estadística de prueba F de ANOVA unidireccional . [4]