stringtranslate.com

Hipótesis de agrupamiento

En el aprendizaje automático y la recuperación de información , la hipótesis de agrupamiento es una suposición sobre la naturaleza de los datos manejados en esos campos, que adopta diversas formas. En la recuperación de información, afirma que los documentos que se agrupan "se comportan de manera similar con respecto a la relevancia para las necesidades de información". [1] En términos de clasificación , afirma que si los puntos están en el mismo grupo, es probable que sean de la misma clase. [2] Puede haber múltiples grupos que formen una sola clase.

Recuperación de información

La hipótesis de los clústeres fue formulada por primera vez por van Rijsbergen: [3] "los documentos estrechamente relacionados tienden a ser relevantes para las mismas solicitudes". Por lo tanto, teóricamente, un motor de búsqueda podría intentar localizar solo el clúster apropiado para una consulta y luego permitir que los usuarios naveguen por este clúster. Aunque los experimentos demostraron que la hipótesis de los clústeres como tal se cumple, su explotación para la recuperación no condujo a resultados satisfactorios. [4]

Aprendizaje automático

El supuesto de agrupamiento se asume en muchos algoritmos de aprendizaje automático, como el algoritmo de clasificación de k -vecinos más cercanos y el algoritmo de agrupamiento de k -medias . Como aparece la palabra "probable" en la definición, no hay una frontera clara que diferencie si el supuesto se cumple o no. Por el contrario, la cantidad de adherencia de los datos a este supuesto se puede medir cuantitativamente.

Propiedades

El supuesto de agrupamiento es equivalente al supuesto de separación de baja densidad, que establece que el límite de decisión debe estar en una región de baja densidad. Para demostrarlo, supongamos que el límite de decisión cruza uno de los agrupamientos. En ese caso, este agrupamiento contendrá puntos de dos clases diferentes, por lo que se viola en este agrupamiento.

Notas

  1. ^ Manning, Christopher (2008). "16. Agrupamiento plano". Introducción a la recuperación de información. Nueva York: Cambridge University Press. ISBN 0-521-86571-9.OCLC 190786122  .
  2. ^ Capilla, Olivier; Scholkopf, Bernhard; Zien, Alejandro, eds. (22 de septiembre de 2006). Aprendizaje Semi-Supervisado . La prensa del MIT. doi : 10.7551/mitpress/9780262033589.001.0001. ISBN 978-0-262-03358-9.
  3. ^ van Rijsbergen, CJ (1979). Recuperación de información (PDF) (2ª ed.). Butterworths. pag. 30 y siguientes . Consultado el 11 de marzo de 2022 .
  4. ^ Voorhees, Ellen M. (1985). La hipótesis de los clusters revisada.