Los algoritmos de agrupamiento automático son algoritmos que pueden realizar agrupamientos sin conocimiento previo de los conjuntos de datos. A diferencia de otras técnicas de análisis de agrupamientos , los algoritmos de agrupamiento automático pueden determinar el número óptimo de agrupamientos incluso en presencia de ruido y puntos atípicos. [1] [ necesita contexto ]
Dado un conjunto de n objetos, los algoritmos basados en centroides crean k particiones basadas en una función de disimilitud, de modo que k≤n . Un problema importante en la aplicación de este tipo de algoritmo es determinar la cantidad adecuada de clústeres para datos no etiquetados. Por lo tanto, la mayor parte de la investigación en análisis de clústeres se ha centrado en la automatización del proceso.
La selección automática de k en un algoritmo de agrupamiento de k -medias , uno de los algoritmos de agrupamiento basados en centroides más utilizados, sigue siendo un problema importante en el aprendizaje automático. La solución más aceptada para este problema es el método del codo . Consiste en ejecutar el agrupamiento de k -medias en el conjunto de datos con un rango de valores, calcular la suma de los errores al cuadrado de cada uno y representarlos en un gráfico de líneas. Si el gráfico parece un brazo, el mejor valor de k estará en el "codo". [2]
Otro método que modifica el algoritmo k -means para elegir automáticamente el número óptimo de clusters es el algoritmo G -means. Fue desarrollado a partir de la hipótesis de que un subconjunto de los datos sigue una distribución gaussiana. Por lo tanto, k se incrementa hasta que los datos de cada centro k -means sean gaussianos. Este algoritmo solo requiere el nivel de significación estadística estándar como parámetro y no establece límites para la covarianza de los datos. [3]
El clustering basado en conectividad o clustering jerárquico se basa en la idea de que los objetos tienen más similitudes con otros objetos cercanos que con aquellos más alejados, por lo que los clusters generados a partir de este tipo de algoritmos serán el resultado de la distancia entre los objetos analizados.
Los modelos jerárquicos pueden ser divisivos, donde las particiones se construyen a partir de todo el conjunto de datos disponible, o aglomerantes, donde cada partición comienza con un solo objeto y se agregan objetos adicionales al conjunto. [4] Aunque la agrupación jerárquica tiene la ventaja de permitir que se use cualquier métrica válida como distancia definida, es sensible al ruido y las fluctuaciones en el conjunto de datos y es más difícil de automatizar.
Se han desarrollado métodos para mejorar y automatizar los algoritmos de agrupamiento jerárquico existentes [5], como una versión automatizada del análisis de agrupamiento jerárquico de enlace simple (HCA). Este método computarizado basa su éxito en un enfoque de reducción de valores atípicos autoconsistente seguido de la construcción de una función descriptiva que permite definir agrupamientos naturales. Los objetos descartados también pueden asignarse a estos agrupamientos. Esencialmente, no es necesario recurrir a parámetros externos para identificar agrupamientos naturales. La información obtenida del HCA, automatizada y confiable, puede resumirse en un dendrograma con el número de agrupamientos naturales y la separación correspondiente, una opción que no se encuentra en el HCA clásico. Este método incluye los dos pasos siguientes: eliminación de valores atípicos (esto se aplica en muchas aplicaciones de filtrado) y una clasificación opcional que permite expandir los agrupamientos con todo el conjunto de objetos. [6]
BIRCH (balanced iterative reduction and clustering using hierarchies) es un algoritmo utilizado para realizar agrupamiento basado en la conectividad para grandes conjuntos de datos. [7] Se considera uno de los algoritmos de agrupamiento más rápidos, pero es limitado porque requiere el número de clústeres como entrada. Por lo tanto, se han desarrollado nuevos algoritmos basados en BIRCH en los que no es necesario proporcionar el recuento de clústeres desde el principio, pero que preservan la calidad y la velocidad de los clústeres. La principal modificación es eliminar el paso final de BIRCH, donde el usuario tenía que ingresar el recuento de clústeres, y mejorar el resto del algoritmo, conocido como tree-BIRCH, optimizando un parámetro de umbral a partir de los datos. En este algoritmo resultante, el parámetro de umbral se calcula a partir del radio máximo del clúster y la distancia mínima entre clústeres, que a menudo se conocen. Este método demostró ser eficiente para conjuntos de datos de decenas de miles de clústeres. Si se va más allá de esa cantidad, se introduce un problema de división de supercúmulos. Para ello se han desarrollado otros algoritmos, como MDB-BIRCH, que reduce la división del supercúmulo con una velocidad relativamente alta. [8]
A diferencia de los métodos de partición y jerarquía, los algoritmos de agrupamiento basados en densidad pueden encontrar grupos de cualquier forma arbitraria, no solo esferas.
El algoritmo de agrupamiento basado en densidad utiliza aprendizaje automático autónomo que identifica patrones con respecto a la ubicación geográfica y la distancia a un número particular de vecinos. Se considera autónomo porque no se requiere conocimiento a priori sobre qué es un clúster. [9] Este tipo de algoritmo proporciona diferentes métodos para encontrar clústeres en los datos. El método más rápido es DBSCAN , que utiliza una distancia definida para diferenciar entre grupos densos de información y ruido más disperso. Además, HDBSCAN puede autoajustarse utilizando un rango de distancias en lugar de una especificada. Por último, el método OPTICS crea un gráfico de alcanzabilidad basado en la distancia de las características vecinas para separar el ruido de los clústeres de densidad variable.
Estos métodos aún requieren que el usuario proporcione el centro del grupo y no pueden considerarse automáticos. El algoritmo automático de agrupamiento por densidad local (ALDC) es un ejemplo de la nueva investigación centrada en el desarrollo de un agrupamiento automático basado en la densidad. El ALDC calcula la densidad local y la desviación de la distancia de cada punto, ampliando así la diferencia entre el centro potencial del grupo y otros puntos. Esta expansión permite que la máquina funcione automáticamente. La máquina identifica los centros de los grupos y asigna los puntos que quedan a su vecino más cercano de mayor densidad. [10]
En la automatización de la densidad de datos para la identificación de clusters, la investigación también se ha centrado en la generación artificial de algoritmos. Por ejemplo, los algoritmos de estimación de distribución garantizan la generación de algoritmos válidos mediante el grafo acíclico dirigido (DAG), en el que los nodos representan procedimientos (bloques de construcción) y las aristas representan posibles secuencias de ejecución entre dos nodos. Los bloques de construcción determinan el alfabeto del EDA o, en otras palabras, cualquier algoritmo generado. Los algoritmos de clusterización generados artificialmente se comparan con DBSCAN, un algoritmo manual, en resultados experimentales. [11]
{{cite conference}}
: Mantenimiento CS1: fecha y año ( enlace ){{cite journal}}
: Requiere citar revista |journal=
( ayuda ){{cite journal}}
: Requiere citar revista |journal=
( ayuda )