Matriz de términos de documento

Una matriz de términos de documento es una matriz matemática que describe la frecuencia de los términos que aparecen en cada documento de una colección. En una matriz de términos de documento, las filas corresponden a los documentos de la colección y las columnas corresponden a los términos. Esta matriz es una instancia específica de una matriz de características de documento donde las "características" pueden referirse a otras propiedades de un documento además de los términos. ^[1] También es común encontrar la transposición, o matriz término-documento donde los documentos son las columnas y los términos son las filas. Son útiles en el campo del procesamiento del lenguaje natural y el análisis computacional de textos. ^[2]

Si bien el valor de las celdas suele ser el recuento bruto de un término determinado, existen varios esquemas para ponderar los recuentos brutos, como la normalización de filas (es decir, frecuencia/proporciones relativas) y tf-idf .

Los términos suelen ser palabras individuales separadas por espacios en blanco o puntuación en cada lado (también conocidos como unigramas). En tal caso, esto también se conoce como representación de "bolsa de palabras" porque se retiene el recuento de palabras individuales, pero no el orden de las palabras en el documento.

Concepto general

Al crear un conjunto de datos de términos que aparecen en un corpus de documentos , la matriz documento-término contiene filas correspondientes a los documentos y columnas correspondientes a los términos. Cada celda ij , entonces, es el número de veces que aparece la palabra j en el documento i . Como tal, cada fila es un vector de recuentos de términos que representa el contenido del documento correspondiente a esa fila. Por ejemplo, si uno tiene los siguientes dos documentos (breves):

D1 = "Me gustan las bases de datos"
D2 = "No me gustan las bases de datos",

entonces la matriz documento-término sería:

que muestra qué documentos contienen qué términos y cuántas veces aparecen. Tenga en cuenta que, a diferencia de representar un documento simplemente como una lista de recuento de tokens, la matriz de términos del documento incluye todos los términos del corpus (es decir, el vocabulario del corpus), razón por la cual hay recuentos de cero para los términos del corpus que no también ocurrir en un documento específico. Por esta razón, las matrices de términos de documentos generalmente se almacenan en un formato de matriz dispersa.

Como resultado de la distribución de tokens según la ley de potencias en casi todos los corpus (consulte la ley de Zipf ), es común ponderar los recuentos. Esto puede ser tan simple como dividir los recuentos por el número total de tokens en un documento (llamado frecuencia relativa o proporciones), dividir por la frecuencia máxima en cada documento (llamado prop max) o tomar el registro de frecuencias (llamado recuento de registros). . Si se desea ponderar las palabras más exclusivas de un documento individual en comparación con el corpus en su conjunto, es común utilizar tf-idf , que divide el término frecuencia por la frecuencia del documento del término.

Historia del concepto

La matriz documento-término surgió en los primeros años de la informatización del texto. La creciente capacidad de almacenamiento de documentos creó el problema de recuperar un documento determinado de manera eficiente. Si bien anteriormente el trabajo de clasificación e indexación se realizaba a mano, los investigadores exploraron la posibilidad de hacerlo automáticamente utilizando información de frecuencia de palabras.

Una de las primeras matrices de términos-documento publicadas fue en el artículo de Harold Borko de 1962 "La construcción de un sistema de clasificación derivado matemáticamente basado empíricamente" (página 282, véase también su artículo de 1965 ^[3] ). Borko hace referencia a dos programas de computadora, "FEAT", que significa "Frecuencia de cada término permitido", escrito por John C. Olney de System Development Corporation y el Descriptor Word Index Program, escrito por Eileen Stone también de System Development Corporation:

Una vez seleccionados los documentos que conformarían la biblioteca experimental, el siguiente paso consistió en teclear todo el cuerpo del texto antes del procesamiento por ordenador. El programa utilizado para este análisis fue FEAT (Frecuencia de cada término permitido). fue escrito por John C. Olney de System Development Corporation y está diseñado para realizar recuentos resumidos y de frecuencia de palabras individuales y de pares de palabras. El resultado de este programa es una lista alfabética, por frecuencia de aparición, de todos los tipos de palabras que aparecieron en el texto. Ciertas palabras funcionales como y, the, at, a, etc., se colocaron en una tabla de "lista de palabras prohibidas" y la frecuencia de estas palabras se registró en una lista separada... Un programa informático especial, llamado Descriptor Word Index Program, fue escrito para proporcionar esta información y preparar una matriz de términos de documento en una forma adecuada para ingresar al Programa de Análisis Factorial. El programa Descriptor Word Index fue preparado por Eileen Stone de System Development Corporation. ^[4]

Poco después, Gerard Salton publicó "Algunos modelos jerárquicos para la recuperación automática de documentos" en 1963, que también incluía una descripción visual de una matriz de términos de documento. ^[5] Salton estaba en la Universidad de Harvard en ese momento y su trabajo fue apoyado por los Laboratorios de Investigación de Cambridge de la Fuerza Aérea y Sylvania Electric Products, Inc. En este artículo, Salton presenta la matriz documento-término en comparación con una especie de término-contexto. Matriz utilizada para medir similitudes entre palabras:

Si se desea generar asociaciones de documentos o grupos de documentos en lugar de asociaciones de palabras, se pueden utilizar los mismos procedimientos con ligeras modificaciones. En lugar de comenzar con una matriz palabra-oración C ,... ahora es conveniente construir una matriz palabra-documento F, enumerando la frecuencia de aparición de la palabra W _i en el documento D _j ... Las similitudes entre documentos ahora se pueden calcular como antes. comparando pares de filas y obteniendo coeficientes de similitud basados en la frecuencia de co-ocurrencias de las palabras de contenido incluidas en el documento dado. Este procedimiento produce una matriz de similitud documento-documento que a su vez puede usarse para la generación de grupos de documentos... ^[5]

Además de Borko y Salton, en 1964, FW Lancaster publicó una revisión exhaustiva de la indexación y recuperación automatizadas. Si bien el trabajo se publicó mientras trabajaba en Herner and Company en Washington DC, el artículo se escribió mientras estaba "empleado en trabajos de investigación en Aslib, en el Proyecto Aslib Cranfield". ^[6] Lancaster le atribuye a Borko la matriz documento-término:

Harold Borko, de System Development Corporation, ha llevado esta operación un poco más allá. Se elige un grupo significativo de palabras clave del vocabulario de una colección experimental. Estos se organizan en una matriz documento/término para mostrar la frecuencia de aparición de cada término en cada documento.... Luego se calcula un coeficiente de correlación para cada par de palabras, en función de su coexistencia en el conjunto de documentos. La matriz término/término resultante... luego se analiza factorialmente y se aísla una serie de factores. Estos factores, cuando se interpretan y denominan sobre la base de los términos con cargas altas que aparecen en cada uno de los factores, se convierten en las clases de una clasificación empírica. Los términos con cargas altas en cada factor son las palabras clave o predictores de las categorías.

Elección de términos

Un punto de vista sobre la matriz es que cada fila representa un documento. En el modelo semántico vectorial , que normalmente es el que se utiliza para calcular una matriz documento-término, el objetivo es representar el tema de un documento mediante la frecuencia de términos semánticamente significativos. Los términos son unidades semánticas de los documentos. A menudo se supone, para las lenguas indoeuropeas , que los sustantivos, verbos y adjetivos son las categorías más significativas , y que las palabras de esas categorías deben mantenerse como términos. Agregar colocación como términos mejora la calidad de los vectores, especialmente cuando se calculan similitudes entre documentos.

Aplicaciones

Mejorar los resultados de búsqueda

El análisis semántico latente (LSA, que realiza una descomposición de valores singulares en la matriz de términos de documento) puede mejorar los resultados de la búsqueda al desambiguar palabras polisémicas y buscar sinónimos de la consulta. Sin embargo, la búsqueda en el espacio continuo de alta dimensión es mucho más lenta que la búsqueda en la estructura de datos trie estándar de los motores de búsqueda.

Encontrar temas

El análisis multivariado de la matriz documento-término puede revelar temas del corpus. Específicamente, se pueden utilizar el análisis semántico latente y la agrupación de datos y, más recientemente, se ha descubierto que el análisis semántico latente probabilístico con su generalización, la asignación latente de Dirichlet y la factorización matricial no negativa , funcionan bien para esta tarea.

Ver también

Modelo bolsa de palabras

Implementaciones

Gensim: marco Python de código abierto para modelado de espacio vectorial. Contiene algoritmos eficientes en memoria para construir matrices de documentos de términos a partir de texto más transformaciones comunes ( tf-idf , LSA , LDA ).

Referencias

^ "Matriz de características del documento :: Tutoriales para quanteda". tutoriales.quanteda.io . Consultado el 2 de enero de 2021 .
^ "15 formas de crear una matriz de términos de documentos en R". Dustin S. Stoltz . Consultado el 2 de enero de 2021 .
^ Borko, Harold (1965). "Un sistema de clasificación derivado analíticamente de factores para informes psicológicos". Habilidades Perceptuales y Motoras . 20 (2): 393–406. doi :10.2466/pms.1965.20.2.393. ISSN 0031-5125. PMID 14279310. S2CID 34230652.
^ Borko, Harold (1962). "La construcción de un sistema de clasificación derivado matemáticamente de base empírica". Actas de la conferencia informática conjunta de primavera del 1 al 3 de mayo de 1962 sobre AIEE-IRE '62 (primavera) . Nueva York, Nueva York, Estados Unidos: ACM Press. págs. 279–289. doi : 10.1145/1460833.1460865 . ISBN 9781450378758. S2CID 6483337.
^ ab Salton, Gerard (julio de 1963). "Algunos modelos jerárquicos para la recuperación automática de documentos". Documentación americana . 14 (3): 213–222. doi :10.1002/asi.5090140307. ISSN 0096-946X.
^ LANCASTER, FW (1 de enero de 1964). "CONTROL DE DOCUMENTOS MECANIZADO: una revisión de algunas investigaciones recientes". Procedimientos de ASLIB . 16 (4): 132-152. doi :10.1108/eb049960. ISSN 0001-253X.