stringtranslate.com

Agrupación de enlace único

En estadística , la agrupación de vínculo único es uno de varios métodos de agrupación jerárquica . Se basa en agrupar clusters de abajo hacia arriba (clustering aglomerativo), combinando en cada paso dos clusters que contienen el par de elementos más cercano que aún no pertenecen al mismo cluster entre sí.

Este método tiende a producir grupos largos y delgados en los que los elementos cercanos del mismo grupo tienen distancias pequeñas, pero los elementos en los extremos opuestos de un grupo pueden estar mucho más lejos entre sí que dos elementos de otros grupos. Para algunas clases de datos, esto puede generar dificultades a la hora de definir clases que podrían subdividir los datos de manera útil. [1] Sin embargo, es popular en astronomía para analizar cúmulos de galaxias , que a menudo pueden involucrar largas cadenas de materia; En esta aplicación, también se lo conoce como algoritmo de amigos de amigos. [2]

Descripción general de los métodos de agrupación aglomerativa

Al comienzo del proceso de agrupamiento aglomerativo, cada elemento forma un grupo propio. Luego, los grupos se combinan secuencialmente en grupos más grandes, hasta que todos los elementos terminan estando en el mismo grupo. En cada paso, se combinan los dos grupos separados por la distancia más corta. La función utilizada para determinar la distancia entre dos conglomerados, conocida como función de enlace , es lo que diferencia los métodos de agrupamiento aglomerativo.

En la agrupación de enlace simple, la distancia entre dos grupos está determinada por un único par de elementos: aquellos dos elementos (uno en cada grupo) que están más cerca uno del otro. La más corta de estas distancias por pares que permanecen en cualquier paso hace que los dos grupos cuyos elementos están involucrados se fusionen. El método también se conoce como agrupación de vecinos más cercanos . El resultado de la agrupación se puede visualizar como un dendrograma , que muestra la secuencia en la que se fusionaron los grupos y la distancia a la que tuvo lugar cada fusión. [3]

Matemáticamente, la función de enlace – la distancia D ( X , Y ) entre los grupos X e Y – se describe mediante la expresión

donde X e Y son dos conjuntos cualesquiera de elementos considerados como clústeres, y d ( x , y ) denota la distancia entre los dos elementos x e y .

Algoritmo ingenuo

El siguiente algoritmo es un esquema aglomerativo que borra filas y columnas en una matriz de proximidad a medida que los grupos antiguos se fusionan en otros nuevos. La matriz de proximidad contiene todas las distancias . A las agrupaciones se les asignan números de secuencia y es el nivel de la agrupación -ésima. Un grupo con número de secuencia m se denota ( m ) y la proximidad entre grupos y se denota .

El algoritmo de enlace único se compone de los siguientes pasos:

  1. Comience con la agrupación disjunta que tiene nivel y número de secuencia .
  2. Encuentre el par de conglomerados más similar en la agrupación actual, digamos par , según dónde esté el mínimo sobre todos los pares de conglomerados en la agrupación actual.
  3. Incrementar el número de secuencia: . Fusione grupos en un solo grupo para formar el siguiente grupo . Establezca el nivel de esta agrupación en
  4. Actualice la matriz de proximidad, eliminando las filas y columnas correspondientes a los grupos y agregando una fila y una columna correspondientes al grupo recién formado. La proximidad entre el nuevo grupo, indicado y un grupo antiguo, se define como .
  5. Si todos los objetos están en un grupo, deténgase. De lo contrario, vaya al paso 2.

Ejemplo de trabajo

Este ejemplo de trabajo se basa en una matriz de distancia genética JC69 calculada a partir de la alineación de la secuencia de ARN ribosomal 5S de cinco bacterias: Bacillus subtilis ( ), Bacillus stearothermophilus ( ), Lactobacillus viridescens ( ), Acholeplasma modicum ( ), y Micrococcus luteus ( ). [4] [5]

Primer paso

Supongamos que tenemos cinco elementos y la siguiente matriz de distancias por pares entre ellos:

En este ejemplo, es el valor más bajo de , por lo que agrupamos los elementos a y b .

Sea u el nodo al que ahora están conectados a y b . La configuración garantiza que los elementos a y b estén equidistantes de u . Esto corresponde a la expectativa de la hipótesis de ultrametricidad . Las ramas que unen a y b con u tienen longitudes ( ver el dendrograma final )

Luego procedemos a actualizar la matriz de proximidad inicial en una nueva matriz de proximidad (ver más abajo), reducida en tamaño en una fila y una columna debido a la agrupación de a con b . Los valores en negrita corresponden a las nuevas distancias, calculadas manteniendo la distancia mínima entre cada elemento del primer grupo y cada uno de los elementos restantes:

Los valores en cursiva no se ven afectados por la actualización de la matriz ya que corresponden a distancias entre elementos que no participan en el primer grupo.

Segundo paso

Reiteramos ahora las tres acciones anteriores, partiendo de la nueva matriz de distancias  :

Aquí, y están los valores más bajos de , por lo que unimos el grupo con el elemento c y con el elemento e .

Sea v el nodo al que ahora están conectados cy e . Debido a la restricción de ultrametricidad, las ramas que unen a o b con v , y c con v , y también e con v son iguales y tienen la siguiente longitud total:

Deducimos la longitud de la rama que falta:

( ver el dendrograma final )

Luego procedemos a actualizar la matriz en una nueva matriz de distancias (ver más abajo), reducida en tamaño en dos filas y dos columnas debido a la agrupación de con c y con e  :

Último paso

La matriz final es:

Entonces nos unimos a los grupos y .

Denotemos el nodo (raíz) al que ahora están conectados. Las ramas que se unen y para luego tener longitudes:

Deducimos la longitud restante de la rama:

El dendrograma de enlace simple

Datos del dendrograma de enlace único 5S
Datos del dendrograma de enlace único 5S

El dendrograma ya está completo. Es ultramétrico porque todas las puntas ( , , , y ) están equidistantes de  :

Por tanto, el dendrograma tiene su raíz en , su nodo más profundo.

Otros vínculos

El algoritmo ingenuo para la agrupación de enlace único es esencialmente el mismo que el algoritmo de Kruskal para árboles de expansión mínima . Sin embargo, en la agrupación de enlace único, el orden en el que se forman las agrupaciones es importante, mientras que para los árboles de expansión mínima lo que importa es el conjunto de pares de puntos que forman distancias elegidas por el algoritmo.

Los esquemas de vinculación alternativos incluyen agrupación de vinculación completa , agrupación de vinculación promedio ( UPGMA y WPGMA ) y el método de Ward . En el algoritmo ingenuo para la agrupación aglomerativa, se puede implementar un esquema de vinculación diferente simplemente usando una fórmula diferente para calcular las distancias entre agrupaciones en el algoritmo. La fórmula que se debe ajustar se ha resaltado con texto en negrita en la descripción del algoritmo anterior. Sin embargo, algoritmos más eficientes como el que se describe a continuación no se generalizan a todos los esquemas de vinculación de la misma manera.

Algoritmos más rápidos

El algoritmo ingenuo para la agrupación en clústeres de enlace único es fácil de entender pero lento y con complejidad temporal . [6] En 1973, R. Sibson propuso un algoritmo con complejidad temporal y complejidad espacial (ambas óptimas) conocido como SLINK. El algoritmo de enlace representa una agrupación de un conjunto de elementos numerados mediante dos funciones. Ambas funciones se determinan encontrando el grupo más pequeño que contenga tanto un elemento  como al menos un elemento con un número mayor. La primera función, asigna el elemento al  elemento con el número más grande del grupo . La segunda función, asigna el elemento  a la distancia asociada con la creación del grupo . Almacenar estas funciones en dos matrices que asignan cada número de elemento a su valor de función requiere espacio y esta información es suficiente para determinar la agrupación en sí. Como muestra Sibson, cuando se agrega un nuevo elemento al conjunto de elementos, las funciones actualizadas que representan el nuevo agrupamiento de enlace único para el conjunto aumentado, representado de la misma manera, se pueden construir a partir del antiguo agrupamiento en el tiempo . Luego, el algoritmo SLINK recorre los elementos, uno por uno, agregándolos a la representación de la agrupación. [7] [8]

Un algoritmo alternativo, que se ejecuta en los mismos límites óptimos de tiempo y espacio, se basa en la equivalencia entre el algoritmo ingenuo y el algoritmo de Kruskal para árboles de expansión mínima. En lugar de utilizar el algoritmo de Kruskal, se puede utilizar el algoritmo de Prim , en una variación sin montones binarios que requiere tiempo y espacio para construir el árbol de expansión mínimo (pero no el agrupamiento) de los elementos y distancias dados. Luego, aplicar el algoritmo de Kruskal al gráfico disperso formado por los bordes del árbol de expansión mínima produce el agrupamiento en sí en un tiempo y espacio adicionales . [9]

Ver también

Referencias

  1. ^ Everitt B (2011). Análisis de conglomerados . Chichester, West Sussex, Reino Unido: Wiley. ISBN  9780470749913.
  2. ^ Feigelson, Eric (2012). "Clasificación en astronomía: pasado y presente". En Camino, Michael J.; Scargle, Jeffrey D.; Ali, Kamal M.; Srivastava, Ashok N. (eds.). Avances en aprendizaje automático y minería de datos para astronomía . Chapman y Hall/CRC. págs. 3–10. Código Bib : 2012amld.book....3F. doi :10.1201/b11822-7.
  3. ^ Legendre P, Legendre L (1998). Ecología Numérica . Desarrollos en modelización ambiental. vol. 20 (Segunda edición en inglés). Ámsterdam: Elsevier.
  4. ^ Erdmann VA, Wolters J (1986). "Colección de secuencias de ARN ribosomal 5S, 5.8S y 4.5S publicadas". Investigación de ácidos nucleicos . 14 Suplemento (Suplemento): r1-59. doi :10.1093/nar/14.suppl.r1. PMC 341310 . PMID  2422630. 
  5. ^ Olsen GJ (1988). "Análisis filogenético mediante ARN ribosómico". En Noller HF Jr, Moldave K (eds.). Ribosomas . Métodos en enzimología. vol. 164, págs. 793–812. doi :10.1016/s0076-6879(88)64084-5. PMID  3241556.
  6. ^ Murtagh F, Contreras P (2012). "Algoritmos para agrupación jerárquica: una descripción general". Revisiones interdisciplinarias de Wiley: minería de datos y descubrimiento de conocimientos . 2 (1). Biblioteca en línea Wiley: 86–97. doi :10.1002/widm.53.
  7. ^ Sibson R (1973). "SLINK: un algoritmo óptimamente eficiente para el método de clúster de enlace único" (PDF) . La revista informática . 16 (1). Sociedad Británica de Computación: 30–34. doi : 10.1093/comjnl/16.1.30 .
  8. ^ Gan G (2007). Agrupación de datos: teoría, algoritmos y aplicaciones . Filadelfia, Pa. Alexandria, Va: SIAM, Asociación Estadounidense de Estadística de la Sociedad de Matemáticas Industriales y Aplicadas. ISBN  9780898716238.
  9. ^ Gower JC, Ross GJ (1969). "Árboles de expansión mínima y análisis de conglomerados de enlace único". Revista de la Royal Statistical Society, Serie C. 18 (1): 54–64. doi :10.2307/2346439. JSTOR  2346439. SEÑOR  0242315..

enlaces externos