Muchos algoritmos difieren significativamente en su idea de qué constituye un grupo y cómo encontrarlos eficientemente.El agrupamiento como tal no es una tarea con solución directa, sino un proceso iterativo o interactivo que implica ensayo y error.Curiosamente, durante más de diez años, K-means fue redescubierto en diversas disciplinas científicas.Hasta 1967 se registran cuatro publicaciones en disciplinas diferentes que proponen como novedoso el mismo algoritmo de agrupamiento.Desde 1963 hasta 2001 se han publicado 5 libros sobre agrupamiento considerados clásicos de su época.[6] El algoritmo más apropiado para un problema particular a menudo necesita ser escogido experimentalmente, a no ser que haya una razón matemática para preferir un modelo de grupo sobre otro.A distancias diferentes, se formarán grupos diferentes, los cuales pueden ser representados utilizando un dendrograma, el cual explica de donde proviene el nombre "agrupamiento jerárquico": estos algoritmos no solo proporcionan una partición del conjunto de datos, sino en cambio, proporcionan una jerarquía extensa de grupos que se fusionan con cada otro a ciertas distancias.El agrupamiento basado en conectividad es una familia entera de métodos que difiere en cómo las distancias están computadas.Estos métodos no producirán una única partición del conjunto de datos, sino una jerarquía donde el usuario puede escoger los grupos apropiados.Para algunos casos especiales, métodos óptimos más eficientes son conocidos (de complejidadAun así proporcionaron inspiración para muchos de los métodos más actuales como agrupamiento basado en densidad.En el agrupamiento basado en centroide, los grupos están representados por un vector central, el cual puede no necesariamente ser un miembro del conjunto de datos.Este problema de optimización es NP-duro, y por ello el objetivo común es buscar solo soluciones aproximadas.Un método aproximado bien conocido es el algoritmo de Lloyd,[10] a menudo referido como "k-means".Aun así solo encuentra un óptimo local, y generalmente se ejecuta varias veces con inicializaciones aleatorias.Además, los algoritmos prefieren grupos de aproximadamente media similar, debido a que siempre asignarán un objeto al más cercano centroide.Los grupos pueden entonces fácilmente ser definidos como los objetos que pertenecen más probablemente a la misma distribución.Mientras la fundación teórica de estos métodos es excelente, adolecen del problema clave conocido como sobreajuste u overfitting, a no ser que las restricciones estén incluidas en la complejidad del modelo.Agrupamiento basado en distribuciones produce modelos complejos para grupos que pueden capturar correlación y dependencia entre atributos.Aun así, estos algoritmos ponen una carga extra en el usuario: para muchos conjuntos de datos real, no puede haber ningún modelo matemático definido.[13] En contraste con muchos métodos más nuevos, presenta un modelo de grupo bien definido llamado "densamente alcanzable".Un grupo consiste en objetos densamente conectados (los cuales pueden formar un grupo de una forma arbitraria, en contraste a muchos otros métodos) más todos los objetos que están dentro del rango de estos.Similar a k-means, estos "atractores densos" pueden servir como representantes para el conjunto de datos, pero mean-shift puede detectar formas arbitrarias de los grupos similar a como lo hace DBSCAN.Debido al procedimiento iterativo costoso y estimación de densidad, mean-shift es normalmente más lento que DBSCAN o k-Means.En años recientes el esfuerzo considerable ha sido puesto a mejorar el rendimiento de algoritmos existentes.[20] Con la necesidad reciente de procesar datos más grandes y más grandes conjuntos (también conocidos como big data), la disposición para comerciar el significado semántico de los grupos generados ha sido incrementado.[30] Utilizando algoritmos genéticos, una gama ancha de diferentes funciones pueden ser optimizadas, incluyendo información mutua.Así, los conjuntos marcados pueden ser usados como test de referencia para la evaluación.Aun así, recientemente se ha hablado si esto es adecuado para datos reales, o solo en conjuntos de datos sintéticos con un factual "ground truth", donde las clases pueden contener estructura interna, los atributos presentes pueden no permitir la separación de los grupos o las clases pueden contener anomalías.La información mutua ajustada es una variante que tiene un sesgo reducido para números de grupo variable.