En el aprendizaje automático y la recuperación de información , la hipótesis de agrupamiento es una suposición sobre la naturaleza de los datos manejados en esos campos, que adopta diversas formas. En la recuperación de información, afirma que los documentos que se agrupan "se comportan de manera similar con respecto a la relevancia para las necesidades de información". [1] En términos de clasificación , afirma que si los puntos están en el mismo grupo, es probable que sean de la misma clase. [2] Puede haber múltiples grupos que formen una sola clase.
La hipótesis de los clústeres fue formulada por primera vez por van Rijsbergen: [3] "los documentos estrechamente relacionados tienden a ser relevantes para las mismas solicitudes". Por lo tanto, teóricamente, un motor de búsqueda podría intentar localizar solo el clúster apropiado para una consulta y luego permitir que los usuarios naveguen por este clúster. Aunque los experimentos demostraron que la hipótesis de los clústeres como tal se cumple, su explotación para la recuperación no condujo a resultados satisfactorios. [4]
El supuesto de agrupamiento se asume en muchos algoritmos de aprendizaje automático, como el algoritmo de clasificación de k -vecinos más cercanos y el algoritmo de agrupamiento de k -medias . Como aparece la palabra "probable" en la definición, no hay una frontera clara que diferencie si el supuesto se cumple o no. Por el contrario, la cantidad de adherencia de los datos a este supuesto se puede medir cuantitativamente.
El supuesto de agrupamiento es equivalente al supuesto de separación de baja densidad, que establece que el límite de decisión debe estar en una región de baja densidad. Para demostrarlo, supongamos que el límite de decisión cruza uno de los agrupamientos. En ese caso, este agrupamiento contendrá puntos de dos clases diferentes, por lo que se viola en este agrupamiento.