Agrupamiento jerárquico

Los resultados del agrupamiento jerárquico son usualmente presentados en un dendrograma.

, lo cual los hace demasiado lentos para grandes conjuntos de datos.

Sin embargo, para algunos casos especiales, óptimos y eficientes métodos aglomerativos (de complejidad

Por ejemplo, en un espacio 2-dimensional, la distancia entre el punto (1,0) y el origen (0,0) es siempre 1 de acuerdo a las normas usuales, pero la distancia entre el punto (1,1) y el origen (0,0) puede ser 2,

Algunas métricas comúnmente usadas para agrupamiento jerárquico son:[3]​ Para texto u otro dato no numérico, métricas como la Distancia de Hamming o la Distancia de Levenshtein son frecuentemente usadas.

Cortar el árbol a una altura determinada dará un grupo particionante de una precisión seleccionada.

En este ejemplo, cortar después de la segunda fila dará como resultado los grupos {a} {b c} {d e} {f}.

Cortar después de la tercera fila dará como resultado los grupos {a} {b c} {d e f}, el cual es un agrupamiento ‘tosco’, con un número menor de grupos mayores.

En nuestro ejemplo, tenemos seis elementos {a} {b} {c} {d} {e} y {f}.

Usualmente, queremos tomar los dos elementos más cercanos, de acuerdo a una distancia escogida.

Opcionalmente, uno solo puede construir una matriz de distancias a este nivel, donde el número en la i-ésima fila j-ésima columna es la distancia entre los i-ésimo y j-ésimo elementos.

Datos sin procesar
Datos sin procesar
Representación tradicional
Representación tradicional