La agrupación de documentos (o agrupación de textos ) es la aplicación del análisis de agrupaciones a documentos textuales. Tiene aplicaciones en la organización automática de documentos, la extracción de temas y la recuperación o filtrado rápido de información .
La agrupación de documentos implica el uso de descriptores y la extracción de descriptores. Los descriptores son conjuntos de palabras que describen el contenido dentro del clúster. La agrupación de documentos se considera generalmente un proceso centralizado. Entre los ejemplos de agrupación de documentos se incluye la agrupación de documentos web para usuarios de búsqueda.
La aplicación de la agrupación de documentos se puede clasificar en dos tipos: en línea y fuera de línea. Las aplicaciones en línea suelen estar limitadas por problemas de eficiencia en comparación con las aplicaciones fuera de línea. La agrupación de texto se puede utilizar para diferentes tareas, como agrupar documentos similares (noticias, tweets, etc.) y el análisis de comentarios de clientes/empleados, descubriendo temas implícitos significativos en todos los documentos.
En general, existen dos algoritmos comunes. El primero es el algoritmo jerárquico, que incluye el enlace único, el enlace completo, el promedio de grupo y el método de Ward. Al agregar o dividir, los documentos se pueden agrupar en una estructura jerárquica, que es adecuada para la navegación. Sin embargo, este tipo de algoritmo suele tener problemas de eficiencia. El otro algoritmo se desarrolla utilizando el algoritmo K-means y sus variantes. En general, los algoritmos jerárquicos producen información más detallada para análisis detallados, mientras que los algoritmos basados en variantes del algoritmo K-means son más eficientes y brindan información suficiente para la mayoría de los propósitos. [1] : Cap.14
Estos algoritmos pueden clasificarse además como algoritmos de agrupamiento duro o blando. El agrupamiento duro calcula una asignación dura: cada documento es miembro de exactamente un clúster. La asignación de los algoritmos de agrupamiento blando es blanda: la asignación de un documento es una distribución sobre todos los clústeres. En una asignación blanda, un documento tiene membresía fraccionaria en varios clústeres. [1] : 499 Los métodos de reducción de dimensionalidad pueden considerarse un subtipo de agrupamiento blando; para los documentos, estos incluyen la indexación semántica latente ( descomposición de valores singulares truncados en histogramas de términos) [2] y los modelos de temas .
Otros algoritmos incluyen agrupamiento basado en gráficos, agrupamiento respaldado por ontología y agrupamiento sensible al orden.
Dado un agrupamiento, puede resultar beneficioso derivar automáticamente etiquetas legibles para los grupos. Existen varios métodos para este propósito.
Un motor de búsqueda web suele devolver miles de páginas en respuesta a una consulta amplia, lo que dificulta a los usuarios navegar o identificar información relevante. Se pueden utilizar métodos de agrupamiento para agrupar automáticamente los documentos recuperados en una lista de categorías significativas.
En la práctica, la agrupación de documentos suele seguir los siguientes pasos:
1. Tokenización
La tokenización es el proceso de analizar datos de texto en unidades más pequeñas (tokens), como palabras y frases. Los métodos de tokenización más utilizados incluyen el modelo de bolsa de palabras y el modelo de N-gramas .
2. Derivación y lematización
Diferentes tokens pueden llevar a cabo información similar (por ejemplo, tokenización y tokenización). Y podemos evitar calcular información similar repetidamente al reducir todos los tokens a su forma base utilizando varios diccionarios de lematización y derivación.
3. Eliminar palabras vacías y signos de puntuación
Algunas palabras clave son menos importantes que otras. Por ejemplo, palabras comunes como "the" podrían no ser muy útiles para revelar las características esenciales de un texto. Por lo tanto, generalmente es una buena idea eliminar las palabras vacías y los signos de puntuación antes de realizar un análisis más profundo.
4. Cálculo de frecuencias de términos o tf-idf
Después de preprocesar los datos de texto, podemos proceder a generar características. Para la agrupación de documentos, una de las formas más comunes de generar características para un documento es calcular las frecuencias de los términos de todos sus tokens. Aunque no son perfectas, estas frecuencias suelen proporcionar algunas pistas sobre el tema del documento. Y a veces también es útil ponderar las frecuencias de los términos por las frecuencias inversas del documento. Consulte tf-idf para obtener información detallada.
5. Agrupamiento
Luego podemos agrupar distintos documentos en función de las características que hemos generado. Consulta la sección de algoritmos en el análisis de conglomerados para conocer los distintos tipos de métodos de agrupamiento.
6. Evaluación y visualización
Por último, los modelos de agrupamiento se pueden evaluar mediante diversas métricas. A veces resulta útil visualizar los resultados representando gráficamente los grupos en un espacio de baja dimensión (bidimensional). El escalamiento multidimensional es un posible enfoque.
Los algoritmos de agrupamiento en el análisis de texto computacional agrupan documentos en un conjunto de texto llamado subconjuntos o clústeres , donde el objetivo del algoritmo es crear clústeres coherentes internamente que sean distintos entre sí. [3] La clasificación, por otro lado, es una forma de aprendizaje supervisado donde las características de los documentos se utilizan para predecir el "tipo" de documentos.