stringtranslate.com

Algoritmos de agrupamiento automático

Los algoritmos de agrupamiento automático son algoritmos que pueden realizar agrupamientos sin conocimiento previo de los conjuntos de datos. A diferencia de otras técnicas de análisis de agrupamientos , los algoritmos de agrupamiento automático pueden determinar el número óptimo de agrupamientos incluso en presencia de ruido y puntos atípicos. [1] [ necesita contexto ]

Basado en centroide

Dado un conjunto de n objetos, los algoritmos basados ​​en centroides crean k particiones basadas en una función de disimilitud, de modo que k≤n . Un problema importante en la aplicación de este tipo de algoritmo es determinar la cantidad adecuada de clústeres para datos no etiquetados. Por lo tanto, la mayor parte de la investigación en análisis de clústeres se ha centrado en la automatización del proceso.

La selección automática de k en un algoritmo de agrupamiento de k -medias , uno de los algoritmos de agrupamiento basados ​​en centroides más utilizados, sigue siendo un problema importante en el aprendizaje automático. La solución más aceptada para este problema es el método del codo . Consiste en ejecutar el agrupamiento de k -medias en el conjunto de datos con un rango de valores, calcular la suma de los errores al cuadrado de cada uno y representarlos en un gráfico de líneas. Si el gráfico parece un brazo, el mejor valor de k estará en el "codo". [2]

Otro método que modifica el algoritmo k -means para elegir automáticamente el número óptimo de clusters es el algoritmo G -means. Fue desarrollado a partir de la hipótesis de que un subconjunto de los datos sigue una distribución gaussiana. Por lo tanto, k se incrementa hasta que los datos de cada centro k -means sean gaussianos. Este algoritmo solo requiere el nivel de significación estadística estándar como parámetro y no establece límites para la covarianza de los datos. [3]

Basado en conectividad (agrupamiento jerárquico)

El clustering basado en conectividad o clustering jerárquico se basa en la idea de que los objetos tienen más similitudes con otros objetos cercanos que con aquellos más alejados, por lo que los clusters generados a partir de este tipo de algoritmos serán el resultado de la distancia entre los objetos analizados.

Los modelos jerárquicos pueden ser divisivos, donde las particiones se construyen a partir de todo el conjunto de datos disponible, o aglomerantes, donde cada partición comienza con un solo objeto y se agregan objetos adicionales al conjunto. [4] Aunque la agrupación jerárquica tiene la ventaja de permitir que se use cualquier métrica válida como distancia definida, es sensible al ruido y las fluctuaciones en el conjunto de datos y es más difícil de automatizar.

Se han desarrollado métodos para mejorar y automatizar los algoritmos de agrupamiento jerárquico existentes [5], como una versión automatizada del análisis de agrupamiento jerárquico de enlace simple (HCA). Este método computarizado basa su éxito en un enfoque de reducción de valores atípicos autoconsistente seguido de la construcción de una función descriptiva que permite definir agrupamientos naturales. Los objetos descartados también pueden asignarse a estos agrupamientos. Esencialmente, no es necesario recurrir a parámetros externos para identificar agrupamientos naturales. La información obtenida del HCA, automatizada y confiable, puede resumirse en un dendrograma con el número de agrupamientos naturales y la separación correspondiente, una opción que no se encuentra en el HCA clásico. Este método incluye los dos pasos siguientes: eliminación de valores atípicos (esto se aplica en muchas aplicaciones de filtrado) y una clasificación opcional que permite expandir los agrupamientos con todo el conjunto de objetos. [6]

BIRCH (balanced iterative reduction and clustering using hierarchies) es un algoritmo utilizado para realizar agrupamiento basado en la conectividad para grandes conjuntos de datos. [7] Se considera uno de los algoritmos de agrupamiento más rápidos, pero es limitado porque requiere el número de clústeres como entrada. Por lo tanto, se han desarrollado nuevos algoritmos basados ​​en BIRCH en los que no es necesario proporcionar el recuento de clústeres desde el principio, pero que preservan la calidad y la velocidad de los clústeres. La principal modificación es eliminar el paso final de BIRCH, donde el usuario tenía que ingresar el recuento de clústeres, y mejorar el resto del algoritmo, conocido como tree-BIRCH, optimizando un parámetro de umbral a partir de los datos. En este algoritmo resultante, el parámetro de umbral se calcula a partir del radio máximo del clúster y la distancia mínima entre clústeres, que a menudo se conocen. Este método demostró ser eficiente para conjuntos de datos de decenas de miles de clústeres. Si se va más allá de esa cantidad, se introduce un problema de división de supercúmulos. Para ello se han desarrollado otros algoritmos, como MDB-BIRCH, que reduce la división del supercúmulo con una velocidad relativamente alta. [8]

Basado en densidad

A diferencia de los métodos de partición y jerarquía, los algoritmos de agrupamiento basados ​​en densidad pueden encontrar grupos de cualquier forma arbitraria, no solo esferas.

El algoritmo de agrupamiento basado en densidad utiliza aprendizaje automático autónomo que identifica patrones con respecto a la ubicación geográfica y la distancia a un número particular de vecinos. Se considera autónomo porque no se requiere conocimiento a priori sobre qué es un clúster. [9] Este tipo de algoritmo proporciona diferentes métodos para encontrar clústeres en los datos. El método más rápido es DBSCAN , que utiliza una distancia definida para diferenciar entre grupos densos de información y ruido más disperso. Además, HDBSCAN puede autoajustarse utilizando un rango de distancias en lugar de una especificada. Por último, el método OPTICS crea un gráfico de alcanzabilidad basado en la distancia de las características vecinas para separar el ruido de los clústeres de densidad variable.

Estos métodos aún requieren que el usuario proporcione el centro del grupo y no pueden considerarse automáticos. El algoritmo automático de agrupamiento por densidad local (ALDC) es un ejemplo de la nueva investigación centrada en el desarrollo de un agrupamiento automático basado en la densidad. El ALDC calcula la densidad local y la desviación de la distancia de cada punto, ampliando así la diferencia entre el centro potencial del grupo y otros puntos. Esta expansión permite que la máquina funcione automáticamente. La máquina identifica los centros de los grupos y asigna los puntos que quedan a su vecino más cercano de mayor densidad. [10]

En la automatización de la densidad de datos para la identificación de clusters, la investigación también se ha centrado en la generación artificial de algoritmos. Por ejemplo, los algoritmos de estimación de distribución garantizan la generación de algoritmos válidos mediante el grafo acíclico dirigido (DAG), en el que los nodos representan procedimientos (bloques de construcción) y las aristas representan posibles secuencias de ejecución entre dos nodos. Los bloques de construcción determinan el alfabeto del EDA o, en otras palabras, cualquier algoritmo generado. Los algoritmos de clusterización generados artificialmente se comparan con DBSCAN, un algoritmo manual, en resultados experimentales. [11]

Referencias

  1. ^ Valor atípico
  2. ^ "Uso del método del codo para determinar el número óptimo de clústeres para la agrupación en k-medias". bl.ocks.org . Consultado el 12 de noviembre de 2018 .
  3. ^ Hamerly, Greg; Elkan, Charles (9 de diciembre de 2003). Sebastian Thrun; Lawrence K Saul; Bernhard H Schölkopf (eds.). Aprendiendo la k en k-medias (PDF) . Actas de la 16.ª Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural. Whistler, Columbia Británica, Canadá: MIT Press. pp. 281–288. Archivado desde el original (PDF) el 16 de octubre de 2022 . Consultado el 3 de noviembre de 2022 .{{cite conference}}: Mantenimiento CS1: fecha y año ( enlace )
  4. ^ "Introducción a la agrupación en clústeres II: algoritmos de agrupación en clústeres - GameAnalytics". GameAnalytics . 2014-05-20 . Consultado el 2018-11-06 .
  5. ^ Almeida, JAS; Barbosa, LMS; Pais, AACC; Formosinho, SJ (junio de 2007). "Mejora del análisis de conglomerados jerárquico: un nuevo método con detección de valores atípicos y agrupamiento automático" (PDF) . Quimiometría y sistemas inteligentes de laboratorio . 87 (2). Elsevier: 208–217. doi :10.1016/j.chemolab.2007.01.005. hdl :10316/5042. Archivado desde el original (PDF) el 15 de noviembre de 2018 . Consultado el 3 de noviembre de 2022 .
  6. ^ Almeida, JAS; Barbosa, LMS; Pais, AACC; Formosinho, SJ (15 de junio de 2007). "Mejora del análisis de conglomerados jerárquicos: un nuevo método con detección de valores atípicos y agrupamiento automático" (PDF) . Quimiometría y sistemas inteligentes de laboratorio . 87 (2): 208–217. doi :10.1016/j.chemolab.2007.01.005. hdl : 10316/5042 . ISSN  0169-7439.
  7. ^ Zhang, Tian; Ramakrishnan, Raghu; Livny, Miron; Zhang, Tian; Ramakrishnan, Raghu; Livny, Miron (1996-06-01). "BIRCH: un método de agrupamiento de datos eficiente para bases de datos muy grandes, BIRCH: un método de agrupamiento de datos eficiente para bases de datos muy grandes". ACM SIGMOD Record . 25 (2): 103, 103–114, 114. doi : 10.1145/235968.233324 . ISSN  0163-5808.
  8. ^ Lorbeer, Boris; Kosareva, Ana; Deva, Bersant; Softić, Dženan; Ruppel, Pedro; Küpper, Axel (1 de marzo de 2018). "Variaciones del algoritmo de agrupamiento BIRCH". Investigación de grandes datos . 11 : 44–53. doi : 10.1016/j.bdr.2017.09.002 . ISSN  2214-5796.
  9. ^ "Cómo funciona la agrupación en clústeres basada en densidad: ArcGIS Pro | ArcGIS Desktop". pro.arcgis.com . Consultado el 5 de noviembre de 2018 .
  10. ^ "Un algoritmo para el reconocimiento automático de centros de clústeres basado en agrupamiento de densidad local - Publicación de la Conferencia IEEE". doi :10.1109/CCDC.2017.7978726. S2CID  23267464. {{cite journal}}: Requiere citar revista |journal=( ayuda )
  11. ^ "AutoClustering: Un algoritmo de estimación de distribución para la generación automática de algoritmos de agrupamiento - Publicación de la conferencia IEEE". CiteSeerX 10.1.1.308.9977 . doi :10.1109/CEC.2012.6252874.  {{cite journal}}: Requiere citar revista |journal=( ayuda )