Análisis semántico latente

El análisis semántico latente ( LSA ) es una técnica de procesamiento del lenguaje natural , en particular la semántica distribucional , que analiza las relaciones entre un conjunto de documentos y los términos que contienen mediante la producción de un conjunto de conceptos relacionados con los documentos y los términos. LSA supone que las palabras que tienen un significado cercano aparecerán en fragmentos de texto similares (la hipótesis distribucional ). Se construye una matriz que contiene recuentos de palabras por documento (las filas representan palabras únicas y las columnas representan cada documento) a partir de un fragmento de texto grande y se utiliza una técnica matemática llamada descomposición en valores singulares (SVD) para reducir el número de filas mientras se preserva la estructura de similitud entre columnas. Luego, los documentos se comparan por similitud de coseno entre dos columnas cualesquiera. Los valores cercanos a 1 representan documentos muy similares, mientras que los valores cercanos a 0 representan documentos muy diferentes. ^[1]

^{En 1988 [2]}Scott Deerwester , Susan Dumais , George Furnas , Richard Harshman , Thomas Landauer , Karen Lochbaum y Lynn Streeter patentaron una técnica de recuperación de información que utiliza una estructura semántica latente . En el contexto de su aplicación a la recuperación de información , a veces se la denomina indexación semántica latente ( LSI ). ^[3]

Descripción general

Animación del proceso de detección de tópicos en una matriz de documentos y palabras. Cada columna corresponde a un documento, cada fila a una palabra. Una celda almacena la ponderación de una palabra en un documento (p. ej., mediante tf-idf ), las celdas oscuras indican ponderaciones altas. LSA agrupa tanto documentos que contienen palabras similares como palabras que aparecen en un conjunto similar de documentos. Los patrones resultantes se utilizan para detectar componentes latentes. ^[4]

Matriz de ocurrencia

LSA puede utilizar una matriz de términos de documentos que describe las apariciones de términos en documentos; es una matriz dispersa cuyas filas corresponden a términos y cuyas columnas corresponden a documentos. Un ejemplo típico de la ponderación de los elementos de la matriz es tf-idf (frecuencia de términos – frecuencia inversa de documentos): el peso de un elemento de la matriz es proporcional al número de veces que aparecen los términos en cada documento, donde los términos poco frecuentes se ponderan para reflejar su importancia relativa.

Esta matriz también es común a los modelos semánticos estándar, aunque no necesariamente se expresa explícitamente como una matriz, ya que no siempre se utilizan las propiedades matemáticas de las matrices.

Bajada de rango

Después de la construcción de la matriz de ocurrencia, LSA encuentra una aproximación de bajo rango ^[5] a la matriz término-documento . Podrían existir varias razones para estas aproximaciones:

Se supone que la matriz original del documento-término es demasiado grande para los recursos computacionales; en este caso, la matriz de rango bajo aproximada se interpreta como una aproximación (un "mal mínimo y necesario").
Se supone que la matriz original de términos y documentos es ruidosa : por ejemplo, se deben eliminar los casos anecdóticos de términos. Desde este punto de vista, la matriz aproximada se interpreta como una matriz sin ruido (una matriz mejor que la original).
Se supone que la matriz término-documento original es demasiado dispersa en relación con la matriz término-documento "real". Es decir, la matriz original solo enumera las palabras que realmente se encuentran en cada documento, mientras que a nosotros nos podrían interesar todas las palabras relacionadas con cada documento (generalmente un conjunto mucho más grande debido a la sinonimia) .

La consecuencia de la reducción de rango es que algunas dimensiones se combinan y dependen de más de un término:

{(coche), (camión), (flor)} → {(1,3452 * coche + 0,2828 * camión), (flor)}

Esto mitiga el problema de identificar la sinonimia, ya que se espera que la reducción de rango fusione las dimensiones asociadas con los términos que tienen significados similares. También mitiga parcialmente el problema de la polisemia , ya que los componentes de las palabras polisémicas que apuntan en la dirección "correcta" se agregan a los componentes de las palabras que comparten un significado similar. Por el contrario, los componentes que apuntan en otras direcciones tienden a simplemente cancelarse o, en el peor de los casos, a ser más pequeños que los componentes en las direcciones correspondientes al sentido pretendido.

Derivación

Sea una matriz donde el elemento describe la ocurrencia del término en el documento (puede ser, por ejemplo, la frecuencia). Se verá así: $X$ $(i,j)$ $i$ $j$ $X$

{\begin{matrix}&{\textbf {d}}_{j}\\&\downarrow \\{\textbf {t}}_{i}^{T}\rightarrow &{\begin{bmatrix}x_{1,1}&\dots &x_{1,j}&\dots &x_{1,n}\\\vdots &\ddots &\vdots &\ddots &\vdots \\x_{i,1}&\dots &x_{i,j}&\dots &x_{i,n}\\\vdots &\ddots &\vdots &\ddots &\vdots \\x_{m,1}&\dots &x_{m,j}&\dots &x_{m,n}\\\end{bmatrix}}\end{matrix}}

Ahora una fila de esta matriz será un vector correspondiente a un término, dando su relación con cada documento:

{\textbf {t}}_{i}^{T}={\begin{bmatrix}x_{i,1}&\dots &x_{i,j}&\dots &x_{i,n}\end{bmatrix}}

Asimismo, una columna de esta matriz será un vector correspondiente a un documento, dando su relación con cada término:

{\textbf {d}}_{j}={\begin{bmatrix}x_{1,j}\\\vdots \\x_{i,j}\\\vdots \\x_{m,j}\\\end{bmatrix}}

Ahora bien, el producto escalar entre dos vectores de términos proporciona la correlación entre los términos en el conjunto de documentos. El producto matricial contiene todos estos productos escalares. El elemento (que es igual al elemento ) contiene el producto escalar ( ). Asimismo, la matriz contiene los productos escalares entre todos los vectores de documentos, lo que proporciona su correlación en los términos: . ${\textbf {t}}_{i}^{T}{\textbf {t}}_{p}$ $XX^{T}$ $(i,p)$ $(p,i)$ ${\textbf {t}}_{i}^{T}{\textbf {t}}_{p}$ $={\textbf {t}}_{p}^{T}{\textbf {t}}_{i}$ $X^{T}X$ ${\textbf {d}}_{j}^{T}{\textbf {d}}_{q}={\textbf {d}}_{q}^{T}{\textbf {d}}_{j}$

Ahora bien, según la teoría del álgebra lineal, existe una descomposición de tal que y son matrices ortogonales y es una matriz diagonal . Esto se denomina descomposición en valores singulares (SVD): $X$ $U$ $V$ $\Sigma$

{\begin{matrix}X=U\Sigma V^{T}\end{matrix}}

Los productos matriciales que nos dan las correlaciones entre términos y documentos se convierten entonces en

{\begin{matrix}XX^{T}&=&(U\Sigma V^{T})(U\Sigma V^{T})^{T}=(U\Sigma V^{T})(V^{T^{T}}\Sigma ^{T}U^{T})=U\Sigma V^{T}V\Sigma ^{T}U^{T}=U\Sigma \Sigma ^{T}U^{T}\\X^{T}X&=&(U\Sigma V^{T})^{T}(U\Sigma V^{T})=(V^{T^{T}}\Sigma ^{T}U^{T})(U\Sigma V^{T})=V\Sigma ^{T}U^{T}U\Sigma V^{T}=V\Sigma ^{T}\Sigma V^{T}\end{matrix}}

Como y son diagonales, vemos que deben contener los vectores propios de , mientras que deben ser los vectores propios de . Ambos productos tienen los mismos valores propios distintos de cero, dados por las entradas distintas de cero de , o igualmente, por las entradas distintas de cero de . Ahora la descomposición se ve así: $\Sigma \Sigma ^{T}$ $\Sigma ^{T}\Sigma$ $U$ $XX^{T}$ $V$ $X^{T}X$ $\Sigma \Sigma ^{T}$ $\Sigma ^{T}\Sigma$

{\begin{matrix}&X&&&U&&\Sigma &&V^{T}\\&({\textbf {d}}_{j})&&&&&&&({\hat {\textbf {d}}}_{j})\\&\downarrow &&&&&&&\downarrow \\({\textbf {t}}_{i}^{T})\rightarrow &{\begin{bmatrix}x_{1,1}&\dots &x_{1,j}&\dots &x_{1,n}\\\vdots &\ddots &\vdots &\ddots &\vdots \\x_{i,1}&\dots &x_{i,j}&\dots &x_{i,n}\\\vdots &\ddots &\vdots &\ddots &\vdots \\x_{m,1}&\dots &x_{m,j}&\dots &x_{m,n}\\\end{bmatrix}}&=&({\hat {\textbf {t}}}_{i}^{T})\rightarrow &{\begin{bmatrix}{\begin{bmatrix}\,\\\,\\{\textbf {u}}_{1}\\\,\\\,\end{bmatrix}}\dots {\begin{bmatrix}\,\\\,\\{\textbf {u}}_{l}\\\,\\\,\end{bmatrix}}\end{bmatrix}}&\cdot &{\begin{bmatrix}\sigma _{1}&\dots &0\\\vdots &\ddots &\vdots \\0&\dots &\sigma _{l}\\\end{bmatrix}}&\cdot &{\begin{bmatrix}{\begin{bmatrix}&&{\textbf {v}}_{1}&&\end{bmatrix}}\\\vdots \\{\begin{bmatrix}&&{\textbf {v}}_{l}&&\end{bmatrix}}\end{bmatrix}}\end{matrix}}

Los valores se denominan valores singulares y vectores singulares izquierdo y derecho. Observe que la única parte de que contribuye es la fila. Llamemos a este vector de fila . Asimismo, la única parte de que contribuye es la columna, . Estos no son vectores propios, sino que dependen de todos los vectores propios. $\sigma _{1},\dots ,\sigma _{l}$ $u_{1},\dots ,u_{l}$ $v_{1},\dots ,v_{l}$ $U$ ${\textbf {t}}_{i}$ $i{\textrm {'th}}$ ${\hat {\textrm {t}}}_{i}^{T}$ $V^{T}$ ${\textbf {d}}_{j}$ $j{\textrm {'th}}$ ${\hat {\textrm {d}}}_{j}$

Resulta que cuando seleccionas los valores singulares más grandes y sus vectores singulares correspondientes de y , obtienes la aproximación de rango a con el error más pequeño ( norma de Frobenius ). Esta aproximación tiene un error mínimo. Pero lo que es más importante, ahora podemos tratar los vectores de término y documento como un "espacio semántico". El vector de fila "término" tiene entonces entradas que lo asignan a un espacio de menor dimensión. Estas nuevas dimensiones no se relacionan con ningún concepto comprensible. Son una aproximación de menor dimensión del espacio de mayor dimensión. Del mismo modo, el vector "documento" es una aproximación en este espacio de menor dimensión. Escribimos esta aproximación como $k$ $U$ $V$ $k$ $X$ ${\hat {\textbf {t}}}_{i}^{T}$ $k$ ${\hat {\textbf {d}}}_{j}$

X_{k}=U_{k}\Sigma _{k}V_{k}^{T}

Ahora puedes hacer lo siguiente:

Vea cómo se relacionan los documentos y en el espacio de baja dimensión comparando los vectores y (normalmente por similitud de coseno ). $j$ $q$ $\Sigma _{k}\cdot {\hat {\textbf {d}}}_{j}$ $\Sigma _{k}\cdot {\hat {\textbf {d}}}_{q}$
Comparando términos y comparando los vectores y . Nótese que ahora es un vector columna. $i$ $p$ $\Sigma _{k}\cdot {\hat {\textbf {t}}}_{i}$ $\Sigma _{k}\cdot {\hat {\textbf {t}}}_{p}$ ${\hat {\textbf {t}}}$
Los documentos y las representaciones vectoriales de términos se pueden agrupar utilizando algoritmos de agrupamiento tradicionales como k-means y utilizando medidas de similitud como el coseno.
Dada una consulta, visualice esto como un mini documento y compárelo con sus documentos en el espacio de baja dimensión.

Para hacer esto último, primero debe traducir su consulta al espacio de baja dimensión. Luego, es intuitivo que debe utilizar la misma transformación que utiliza en sus documentos:

{\hat {\textbf {d}}}_{j}=\Sigma _{k}^{-1}U_{k}^{T}{\textbf {d}}_{j}

Nótese aquí que la inversa de la matriz diagonal se puede encontrar invirtiendo cada valor distinto de cero dentro de la matriz. $\Sigma _{k}$

Esto significa que si tiene un vector de consulta , debe realizar la traducción antes de compararlo con los vectores del documento en el espacio de baja dimensión. Puede hacer lo mismo con los pseudovectores de términos: $q$ ${\hat {\textbf {q}}}=\Sigma _{k}^{-1}U_{k}^{T}{\textbf {q}}$

{\textbf {t}}_{i}^{T}={\hat {\textbf {t}}}_{i}^{T}\Sigma _{k}V_{k}^{T}

{\hat {\textbf {t}}}_{i}^{T}={\textbf {t}}_{i}^{T}V_{k}^{-T}\Sigma _{k}^{-1}={\textbf {t}}_{i}^{T}V_{k}\Sigma _{k}^{-1}

{\hat {\textbf {t}}}_{i}=\Sigma _{k}^{-1}V_{k}^{T}{\textbf {t}}_{i}

Aplicaciones

El nuevo espacio de baja dimensión normalmente se puede utilizar para:

Comparar los documentos en el espacio de baja dimensión ( agrupamiento de datos , clasificación de documentos ).
Encuentre documentos similares en diferentes idiomas, después de analizar un conjunto base de documentos traducidos ( recuperación de información en varios idiomas ).
Encontrar relaciones entre términos ( sinonimia y polisemia ).
Dada una consulta de términos, traducirla al espacio de baja dimensión y encontrar documentos coincidentes ( recuperación de información ).
Encontrar la mejor similitud entre pequeños grupos de términos, de manera semántica (es decir, en un contexto de un corpus de conocimiento), como por ejemplo en el modelo de respuestas de preguntas de opción múltiple . ^[6]
Ampliar el espacio de características de los sistemas de minería de texto/aprendizaje automático ^[7]
Analizar la asociación de palabras en un corpus de texto ^[8]

La sinonimia y la polisemia son problemas fundamentales en el procesamiento del lenguaje natural :

La sinonimia es el fenómeno en el que distintas palabras describen la misma idea. Por lo tanto, una consulta en un motor de búsqueda puede no devolver un documento relevante que no contenga las palabras que aparecieron en la consulta. Por ejemplo, una búsqueda de "médicos" puede no devolver un documento que contenga la palabra " médicos ", aunque las palabras tengan el mismo significado.
La polisemia es el fenómeno en el que una misma palabra tiene múltiples significados. Por lo tanto, una búsqueda puede recuperar documentos irrelevantes que contengan las palabras deseadas con un significado incorrecto. Por ejemplo, un botánico y un informático que busquen la palabra "árbol" probablemente deseen conjuntos de documentos diferentes.

Aplicaciones comerciales

LSA se ha utilizado para ayudar a realizar búsquedas de antecedentes técnicos para patentes . ^[9]

Aplicaciones en la memoria humana

El uso del análisis semántico latente ha sido frecuente en el estudio de la memoria humana, especialmente en áreas de evocación libre y búsqueda de memoria. Existe una correlación positiva entre la similitud semántica de dos palabras (medida por LSA) y la probabilidad de que las palabras se recuerden una tras otra en tareas de evocación libre utilizando listas de estudio de sustantivos comunes aleatorios. También observaron que en estas situaciones, el tiempo entre respuestas entre palabras similares era mucho más rápido que entre palabras diferentes. Estos hallazgos se conocen como el efecto de proximidad semántica. ^[10]

Cuando los participantes cometían errores al recordar los elementos estudiados, estos errores tendían a ser elementos que estaban más relacionados semánticamente con el elemento deseado y que se encontraban en una lista estudiada previamente. Estas intrusiones en la lista anterior, como se las ha llamado, parecen competir con los elementos de la lista actual por el recuerdo. ^[11]

Otro modelo, denominado Espacios de Asociación de Palabras (WAS), también se utiliza en estudios de memoria mediante la recopilación de datos de asociación libre a partir de una serie de experimentos y que incluye medidas de relación entre palabras para más de 72.000 pares de palabras distintos. ^[12]

Implementación

La SVD se calcula típicamente utilizando métodos de matriz grande (por ejemplo, métodos de Lanczos ) pero también se puede calcular de forma incremental y con recursos muy reducidos a través de un enfoque similar a una red neuronal , que no requiere que la matriz grande de rango completo se mantenga en la memoria. ^[13] Se ha desarrollado un algoritmo SVD rápido, incremental, de baja memoria y de matriz grande. ^[14] Hay implementaciones de estos algoritmos rápidos en MATLAB ^[15] y Python ^[16] . A diferencia de la aproximación estocástica de Gorrell y Webb (2005), el algoritmo de Brand (2003) proporciona una solución exacta. En los últimos años se ha avanzado en la reducción de la complejidad computacional de la SVD; por ejemplo, al utilizar un algoritmo ARPACK paralelo para realizar una descomposición paralela de valores propios, es posible acelerar el costo computacional de la SVD y, al mismo tiempo, proporcionar una calidad de predicción comparable. ^[17]

Limitaciones

Algunas de las desventajas de LSA incluyen:

Las dimensiones resultantes pueden ser difíciles de interpretar. Por ejemplo, en

{(coche), (camión), (flor)} ↦ {(1,3452 * coche + 0,2828 * camión), (flor)}

El componente (1,3452 * coche + 0,2828 * camión) podría interpretarse como "vehículo". Sin embargo, es muy probable que los casos cercanos

{(coche), (botella), (flor)} ↦ {(1,3452 * coche + 0,2828 * botella ), (flor)}

ocurrirá. Esto conduce a resultados que pueden justificarse a nivel matemático, pero que no tienen un significado obvio inmediato en lenguaje natural. Sin embargo, el componente (1,3452 * coche + 0,2828 * botella) podría justificarse porque tanto las botellas como los coches tienen partes transparentes y opacas, están hechas por el hombre y con alta probabilidad contienen logotipos/palabras en su superficie; por lo tanto, en muchos sentidos estos dos conceptos "comparten semántica". Es decir, dentro de un lenguaje en cuestión, puede que no haya una palabra disponible para asignar y la explicabilidad se convierte en una tarea de análisis en lugar de una simple tarea de asignación de palabras/clases/conceptos.

LSA solo puede capturar parcialmente la polisemia (es decir, múltiples significados de una palabra) porque cada ocurrencia de una palabra se trata como si tuviera el mismo significado debido a que la palabra se representa como un solo punto en el espacio. Por ejemplo, la ocurrencia de "silla" en un documento que contiene "El presidente de la junta" y en un documento separado que contiene "el fabricante de sillas" se consideran iguales. El comportamiento da como resultado que la representación vectorial sea un promedio de todos los diferentes significados de la palabra en el corpus, lo que puede dificultar la comparación. ^[18] Sin embargo, el efecto a menudo se reduce debido a que las palabras tienen un sentido predominante en todo un corpus (es decir, no todos los significados son igualmente probables).
Limitaciones del modelo de bolsa de palabras (BOW), en el que un texto se representa como una colección desordenada de palabras. Para abordar algunas de las limitaciones del modelo de bolsa de palabras (BOW), se puede utilizar un diccionario multigrama para encontrar asociaciones directas e indirectas, así como coocurrencias de orden superior entre términos. ^[19]
El modelo probabilístico de LSA no coincide con los datos observados: LSA supone que las palabras y los documentos forman un modelo gaussiano conjunto ( hipótesis ergódica ), mientras que se ha observado una distribución de Poisson . Por lo tanto, una alternativa más nueva es el análisis semántico latente probabilístico , basado en un modelo multinomial , que se informa que da mejores resultados que el LSA estándar. ^[20]

Métodos alternativos

Hashing semántico

En el hash semántico ^[21], los documentos se asignan a direcciones de memoria por medio de una red neuronal de tal manera que los documentos semánticamente similares se ubican en direcciones cercanas. La red neuronal profunda esencialmente construye un modelo gráfico de los vectores de recuento de palabras obtenidos de un gran conjunto de documentos. Los documentos similares a un documento de consulta se pueden encontrar simplemente accediendo a todas las direcciones que difieren solo en unos pocos bits de la dirección del documento de consulta. Esta forma de extender la eficiencia de la codificación hash para aproximar la coincidencia es mucho más rápida que el hash sensible a la localidad , que es el método actual más rápido. ^{[ aclaración necesaria ]}

Indexación semántica latente

La indexación semántica latente ( LSI ) es un método de indexación y recuperación que utiliza una técnica matemática llamada descomposición en valores singulares (SVD) para identificar patrones en las relaciones entre los términos y conceptos contenidos en una colección de texto no estructurada. LSI se basa en el principio de que las palabras que se utilizan en los mismos contextos tienden a tener significados similares. Una característica clave de LSI es su capacidad para extraer el contenido conceptual de un cuerpo de texto estableciendo asociaciones entre aquellos términos que aparecen en contextos similares . ^[22]

LSI es también una aplicación del análisis de correspondencias , una técnica estadística multivariante desarrollada por Jean-Paul Benzécri ^[23] a principios de la década de 1970, a una tabla de contingencia construida a partir de recuentos de palabras en documentos.

Llamado " indexación semántica latente " debido a su capacidad para correlacionar términos semánticamente relacionados que están latentes en una colección de texto, se aplicó por primera vez al texto en Bellcore a fines de la década de 1980. El método, también llamado análisis semántico latente (LSA), descubre la estructura semántica latente subyacente en el uso de palabras en un cuerpo de texto y cómo se puede utilizar para extraer el significado del texto en respuesta a las consultas del usuario, comúnmente conocidas como búsquedas de conceptos. Las consultas, o búsquedas de conceptos, en un conjunto de documentos que se han sometido a LSI devolverán resultados que son conceptualmente similares en significado a los criterios de búsqueda, incluso si los resultados no comparten una palabra o palabras específicas con los criterios de búsqueda.

Beneficios de LSI

LSI ayuda a superar la sinonimia al aumentar la recuperación , una de las restricciones más problemáticas de las consultas de palabras clave booleanas y los modelos de espacio vectorial. ^[18] La sinonimia es a menudo la causa de desajustes en el vocabulario utilizado por los autores de documentos y los usuarios de los sistemas de recuperación de información . ^[24] Como resultado, las consultas booleanas o de palabras clave a menudo devuelven resultados irrelevantes y omiten información que es relevante.

LSI también se utiliza para realizar la categorización automatizada de documentos . De hecho, varios experimentos han demostrado que existen varias correlaciones entre la forma en que LSI y los humanos procesan y categorizan el texto. ^[25] La categorización de documentos es la asignación de documentos a una o más categorías predefinidas en función de su similitud con el contenido conceptual de las categorías. ^[26] LSI utiliza documentos de ejemplo para establecer la base conceptual para cada categoría. Durante el procesamiento de categorización, los conceptos contenidos en los documentos que se están categorizando se comparan con los conceptos contenidos en los elementos de ejemplo, y se asigna una categoría (o categorías) a los documentos en función de las similitudes entre los conceptos que contienen y los conceptos que están contenidos en los documentos de ejemplo.

La agrupación dinámica basada en el contenido conceptual de los documentos también se puede lograr mediante LSI. La agrupación es una forma de agrupar documentos en función de su similitud conceptual entre sí sin utilizar documentos de ejemplo para establecer la base conceptual de cada agrupación. Esto resulta muy útil cuando se trabaja con una colección desconocida de texto no estructurado.

Debido a que utiliza un enfoque estrictamente matemático, LSI es inherentemente independiente del lenguaje. Esto le permite obtener el contenido semántico de la información escrita en cualquier idioma sin requerir el uso de estructuras auxiliares, como diccionarios y tesauros. LSI también puede realizar búsquedas de conceptos en varios idiomas y categorización basada en ejemplos. Por ejemplo, se pueden realizar consultas en un idioma, como el inglés, y se obtendrán resultados conceptualmente similares incluso si están compuestos de un idioma completamente diferente o de varios idiomas. ^{[ cita requerida ]}

LSI no se limita a trabajar únicamente con palabras. También puede procesar cadenas de caracteres arbitrarias. Cualquier objeto que pueda expresarse como texto puede representarse en un espacio vectorial LSI. Por ejemplo, las pruebas con resúmenes de MEDLINE han demostrado que LSI es capaz de clasificar eficazmente los genes basándose en el modelado conceptual de la información biológica contenida en los títulos y resúmenes de las citas de MEDLINE. ^[27]

LSI se adapta automáticamente a la terminología nueva y cambiante, y ha demostrado ser muy tolerante al ruido (es decir, palabras mal escritas, errores tipográficos, caracteres ilegibles, etc.). ^[28] Esto es especialmente importante para aplicaciones que utilizan texto derivado del reconocimiento óptico de caracteres (OCR) y la conversión de voz a texto. LSI también maneja de manera eficaz datos dispersos, ambiguos y contradictorios.

No es necesario que el texto esté en formato de oración para que LSI sea eficaz. Puede funcionar con listas, notas de formato libre, correo electrónico, contenido basado en la Web, etc. Siempre que una colección de texto contenga varios términos, LSI se puede utilizar para identificar patrones en las relaciones entre los términos y conceptos importantes contenidos en el texto.

Se ha demostrado que LSI es una solución útil para una serie de problemas de correspondencia conceptual. ^[29]^[30] Se ha demostrado que la técnica captura información clave sobre relaciones, incluida información causal, orientada a objetivos y taxonómica. ^[31]

Cronología de LSI

Mediados de la década de 1960 : se describe y prueba por primera vez la técnica de análisis factorial (H. Borko y M. Bernick)
1988 – Se publica un artículo fundamental sobre la técnica LSI ^[22]
1989 – Se concede la patente original ^[22]
1992 – Primer uso de LSI para asignar artículos a revisores ^[32]
1994 – Se concede patente para la aplicación translingüística de LSI (Landauer et al.)
1995 – Primer uso de LSI para calificar ensayos (Foltz, et al., Landauer et al.)
1999 – Primera implementación de la tecnología LSI para la comunidad de inteligencia para el análisis de texto no estructurado ( SAIC ).
2002 – Oferta de productos basados en LSI para agencias gubernamentales basadas en inteligencia (SAIC)

Matemáticas de LSI

LSI utiliza técnicas comunes de álgebra lineal para aprender las correlaciones conceptuales en una colección de textos. En general, el proceso implica construir una matriz ponderada de términos y documentos, realizar una descomposición en valores singulares en la matriz y usar la matriz para identificar los conceptos contenidos en el texto.

Matriz de términos y documentos

LSI comienza construyendo una matriz de términos y documentos, , para identificar las ocurrencias de los términos únicos dentro de una colección de documentos. En una matriz de términos y documentos, cada término está representado por una fila y cada documento está representado por una columna, y cada celda de la matriz, , representa inicialmente la cantidad de veces que el término asociado aparece en el documento indicado, . Esta matriz suele ser muy grande y muy dispersa. $A$ $m$ $n$ $a_{ij}$ $\mathrm {tf_{ij}}$

Una vez construida una matriz término-documento, se le pueden aplicar funciones de ponderación locales y globales para condicionar los datos. Las funciones de ponderación transforman cada celda, de , en el producto de un peso de término local, , que describe la frecuencia relativa de un término en un documento, y un peso global, , que describe la frecuencia relativa del término dentro de toda la colección de documentos. $a_{ij}$ $A$ $l_{ij}$ $g_{i}$

En la siguiente tabla se definen algunas funciones de ponderación locales comunes ^{[33] .}

En la siguiente tabla se definen algunas funciones de ponderación global comunes.

Los estudios empíricos con LSI indican que las funciones de ponderación de logaritmo y entropía funcionan bien, en la práctica, con muchos conjuntos de datos. ^[34] En otras palabras, cada entrada de se calcula como: $a_{ij}$ $A$

g_{i}=1+\sum _{j}{\frac {p_{ij}\log p_{ij}}{\log n}}

a_{ij}=g_{i}\ \log(\mathrm {tf} _{ij}+1)

Descomposición en valores singulares con rango reducido

Se realiza una descomposición en valores singulares de rango reducido en la matriz para determinar patrones en las relaciones entre los términos y conceptos contenidos en el texto. La descomposición en valores singulares constituye la base de la descomposición en valores singulares. ^[35] Calcula los espacios vectoriales de términos y documentos aproximando la matriz de frecuencia de términos única, , en otras tres matrices: una matriz de vectores de términos y conceptos de m por r , una matriz de valores singulares de r por r y una matriz de vectores de conceptos y documentos de n por r , , que satisfacen las siguientes relaciones: $A$ $T$ $S$ $D$

$A\approx TSD^{T}$

$T^{T}T=I_{r}\quad D^{T}D=I_{r}$

$S_{1,1}\geq S_{2,2}\geq \ldots \geq S_{r,r}>0\quad S_{i,j}=0\;{\text{where}}\;i\neq j$

En la fórmula, A es la matriz ponderada m por n de frecuencias de términos en una colección de texto, donde m es el número de términos únicos y n es el número de documentos. T es una matriz calculada m por r de vectores de términos, donde r es el rango de A (una medida de sus dimensiones únicas ≤ min( m,n ) . S es una matriz diagonal calculada r por r de valores singulares decrecientes, y D es una matriz calculada n por r de vectores de documentos.

Luego, la SVD se trunca para reducir el rango manteniendo solo las entradas diagonales k « r más grandes en la matriz de valores singulares S , donde k está típicamente en el orden de 100 a 300 dimensiones. Esto reduce efectivamente los tamaños de las matrices de términos y vectores de documentos a m por k y n por k respectivamente. La operación SVD, junto con esta reducción, tiene el efecto de preservar la información semántica más importante en el texto mientras reduce el ruido y otros artefactos indeseables del espacio original de A . Este conjunto reducido de matrices a menudo se denota con una fórmula modificada como:

A ≈ _Ak = T _k S _k D _k^T

Los algoritmos LSI eficientes solo calculan los primeros k valores singulares y vectores de términos y documentos, en lugar de calcular un SVD completo y luego truncarlo.

Tenga en cuenta que esta reducción de rango es esencialmente lo mismo que hacer un análisis de componentes principales (PCA) en la matriz A , excepto que el PCA resta las medias. El PCA pierde la escasez de la matriz A , lo que puede hacer que no sea viable para léxicos grandes.

Consulta y ampliación de espacios vectoriales LSI

Las matrices T _k y D _k calculadas definen los espacios vectoriales de términos y documentos, que con los valores singulares calculados, S _k , incorporan la información conceptual derivada de la colección de documentos. La similitud de los términos o documentos dentro de estos espacios es un factor de cuán cerca están entre sí en estos espacios, que normalmente se calcula como una función del ángulo entre los vectores correspondientes.

Los mismos pasos se utilizan para localizar los vectores que representan el texto de las consultas y los nuevos documentos dentro del espacio de documentos de un índice LSI existente. Mediante una simple transformación de la ecuación A = TSD ^T en la ecuación equivalente D = A ^T TS ⁻¹ , se puede crear un nuevo vector, d , para una consulta o para un nuevo documento calculando una nueva columna en A y luego multiplicando la nueva columna por TS ⁻¹ . La nueva columna en A se calcula utilizando los pesos de términos globales derivados originalmente y aplicando la misma función de ponderación local a los términos en la consulta o en el nuevo documento.

Una desventaja de calcular vectores de esta manera, al agregar nuevos documentos que se pueden buscar, es que se ignoran los términos que no se conocían durante la fase de SVD para el índice original. Estos términos no tendrán impacto en los pesos globales y las correlaciones aprendidas derivadas de la colección original de texto. Sin embargo, los vectores calculados para el nuevo texto siguen siendo muy relevantes para las comparaciones de similitud con todos los demás vectores de documentos.

El proceso de aumentar los espacios vectoriales de documentos para un índice LSI con nuevos documentos de esta manera se llama plegado . Aunque el proceso de plegado no tiene en cuenta el nuevo contenido semántico del nuevo texto, agregar una cantidad sustancial de documentos de esta manera seguirá brindando buenos resultados para las consultas siempre que los términos y conceptos que contienen estén bien representados dentro del índice LSI al que se están agregando. Cuando los términos y conceptos de un nuevo conjunto de documentos deben incluirse en un índice LSI, se debe volver a calcular la matriz término-documento y la SVD o se necesita un método de actualización incremental (como el descrito en ^[14] ).

Usos adicionales de LSI

Se reconoce generalmente que la capacidad de trabajar con texto sobre una base semántica es esencial para los sistemas de recuperación de información modernos. Como resultado, el uso de LSI se ha expandido significativamente en los últimos años a medida que se han superado los desafíos anteriores en cuanto a escalabilidad y rendimiento.

LSI se está utilizando en una variedad de aplicaciones de recuperación de información y procesamiento de texto, aunque su aplicación principal ha sido la búsqueda de conceptos y la categorización automatizada de documentos. ^[36] A continuación se presentan algunas otras formas en las que se está utilizando LSI:

Descubrimiento de información ^[37] ( eDiscovery , comunidad gubernamental/de inteligencia, publicaciones)
Clasificación automatizada de documentos (eDiscovery, comunidad gubernamental/inteligente, publicaciones) ^[38]
Resumen de texto ^[39] (eDiscovery, publicación)
Descubrimiento de relaciones ^[40] (Gobierno, Comunidad de inteligencia, Redes sociales)
Generación automática de gráficos de vínculos de individuos y organizaciones ^[41] (Gobierno, Comunidad de inteligencia)
Correspondencia de artículos técnicos y subvenciones con revisores ^[42] (Gobierno)
Atención al cliente en línea ^[43] (Gestión de clientes)
Determinación de la autoría de un documento ^[44] (Educación)
Anotación automática de palabras clave en imágenes ^[45]
Comprensión del código fuente del software ^[46] (Ingeniería de software)
Filtrado de spam ^[47] (Administración del sistema)
Visualización de información ^[48]
Calificación de ensayos ^[49] (Educación)
Descubrimiento basado en la literatura ^[50]
Predicción de la rentabilidad de las acciones ^[7]
Análisis del contenido de los sueños (Psicología) ^[8]

La LSI se utiliza cada vez más para el descubrimiento electrónico de documentos (eDiscovery) con el fin de ayudar a las empresas a prepararse para los litigios. En el eDiscovery, la capacidad de agrupar, categorizar y buscar grandes colecciones de texto no estructurado sobre una base conceptual es esencial. Los principales proveedores ya han aplicado la búsqueda basada en conceptos mediante LSI al proceso de eDiscovery en 2003. ^[51]

Desafíos para LSI

Los primeros desafíos de LSI se centraron en la escalabilidad y el rendimiento. LSI requiere un rendimiento computacional y una memoria relativamente altos en comparación con otras técnicas de recuperación de información. ^[52] Sin embargo, con la implementación de procesadores modernos de alta velocidad y la disponibilidad de memoria económica, estas consideraciones se han superado en gran medida. Las aplicaciones del mundo real que involucran más de 30 millones de documentos que se procesaron completamente a través de los cálculos de matriz y SVD son comunes en algunas aplicaciones LSI. Una implementación completamente escalable (número ilimitado de documentos, capacitación en línea) de LSI está contenida en el paquete de software de código abierto gensim . ^[53]

Otro desafío para LSI ha sido la supuesta dificultad para determinar el número óptimo de dimensiones a utilizar para realizar la SVD. Como regla general, menos dimensiones permiten comparaciones más amplias de los conceptos contenidos en una colección de texto, mientras que un mayor número de dimensiones permite comparaciones más específicas (o más relevantes) de conceptos. El número real de dimensiones que se pueden utilizar está limitado por el número de documentos en la colección. La investigación ha demostrado que alrededor de 300 dimensiones generalmente proporcionarán los mejores resultados con colecciones de documentos de tamaño moderado (cientos de miles de documentos) y quizás 400 dimensiones para colecciones de documentos más grandes (millones de documentos). ^[54] Sin embargo, estudios recientes indican que 50-1000 dimensiones son adecuadas dependiendo del tamaño y la naturaleza de la colección de documentos. ^[55] Verificar la proporción de varianza retenida, similar al PCA o al análisis factorial , para determinar la dimensionalidad óptima no es adecuado para LSI. Usar una prueba de sinónimos o la predicción de palabras faltantes son dos métodos posibles para encontrar la dimensionalidad correcta. ^[56] Cuando los temas LSI se utilizan como características en métodos de aprendizaje supervisado, se pueden utilizar mediciones de error de predicción para encontrar la dimensionalidad ideal.

Véase también

Referencias

^ Susan T. Dumais (2005). "Análisis semántico latente". Revista anual de ciencia y tecnología de la información . 38 : 188–230. doi :10.1002/aris.1440380105.
^ "Patente estadounidense 4.839.853". Archivado desde el original el 2 de diciembre de 2017.(ya vencido)
^ "La página de inicio de Indexación Semántica Latente".
^ "imagen". topicmodels.west.uni-koblenz.de . Archivado desde el original el 17 de marzo de 2023.
^ Markovsky I. (2012) Aproximación de bajo rango: algoritmos, implementación, aplicaciones, Springer, 2012, ISBN 978-1-4471-2226-5 ^[^{página necesaria}^]
^ Alain Lifchitz; Sandra Jhean-Larose; Guy Denhière (2009). "Efecto de los parámetros ajustados en un modelo de respuesta a preguntas de opción múltiple de LSA" (PDF) . Métodos de investigación del comportamiento . 41 (4): 1201–1209. arXiv : 0811.0146 . doi : 10.3758/BRM.41.4.1201 . PMID 19897829. S2CID 480826.
^ ab Ramiro H. Gálvez; Agustín Gravano (2017). "Evaluación de la utilidad de la minería de mensajes en línea en sistemas automáticos de predicción de acciones". Journal of Computational Science . 19 : 1877–7503. doi :10.1016/j.jocs.2017.01.001. hdl : 11336/60065 .
^ ab Altszyler, E.; Ribeiro, S.; Sigman, M.; Fernández Slezak, D. (2017). "La interpretación del significado de los sueños: resolución de ambigüedades mediante análisis semántico latente en un pequeño corpus de texto". Conciencia y cognición . 56 : 178–187. arXiv : 1610.01520 . doi :10.1016/j.concog.2017.09.004. PMID 28943127. S2CID 195347873.
^ Gerry J. Elman (octubre de 2007). "Apoyo automatizado al examen de patentes: una propuesta". Biotechnology Law Report . 26 (5): 435–436. doi :10.1089/blr.2007.9896.
^ Marc W. Howard; Michael J. Kahana (1999). "Variabilidad contextual y efectos de posición serial en el recuerdo libre" (PDF) . APA PsycNet Direct .
^ Franklin M. Zaromb; et al. (2006). Asociaciones temporales e intrusiones de listas previas en el recuerdo libre (PDF) . Interspeech'2005.
^ Nelson, Douglas. "La Asociación de Palabras de la Universidad del Sur de Florida, Normas de Rima y Fragmentos de Palabras" . Consultado el 8 de mayo de 2011 .
^ Geneviève Gorrell; Brandyn Webb (2005). "Algoritmo hebbiano generalizado para análisis semántico latente" (PDF) . Interspeech'2005 . Archivado desde el original (PDF) el 21 de diciembre de 2008.
^ ab Matthew Brand (2006). "Modificaciones rápidas de bajo rango de la descomposición en valores singulares finos". Álgebra lineal y sus aplicaciones . 415 : 20–30. doi : 10.1016/j.laa.2005.07.021 .
^ "MATLAB". Archivado desde el original el 28 de febrero de 2014.
^ Pitón
^ Ding, Yaguang; Zhu, Guofeng; Cui, Chenyang; Zhou, Jian; Tao, Liang (2011). "Una implementación paralela de la descomposición en valores singulares basada en Map-Reduce y PARPACK". Actas de la Conferencia internacional de 2011 sobre informática y tecnología de redes . págs. 739–741. doi :10.1109/ICCSNT.2011.6182070. ISBN . 978-1-4577-1587-7. Número de identificación del sujeto 15281129.
^ ab Deerwester, Scott; Dumais, Susan T.; Furnas, George W.; Landauer, Thomas K.; Harshman, Richard (1990). "Indexación mediante análisis semántico latente". Revista de la Sociedad Americana de Ciencias de la Información . 41 (6): 391–407. CiteSeerX 10.1.1.108.8490 . doi :10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9.
^ Abedi, Vida; Yeasin, Mohammed; Zand, Ramin (27 de noviembre de 2014). "Estudio empírico que utiliza una red de asociaciones semánticamente relacionadas para cerrar la brecha de conocimiento". Journal of Translational Medicine . 12 (1): 324. doi : 10.1186/s12967-014-0324-9 . PMC 4252998 . PMID 25428570.
^ Thomas Hofmann (1999). "Análisis semántico latente probabilístico". Incertidumbre en inteligencia artificial . arXiv : 1301.6705 .
^ Salakhutdinov, Ruslan y Geoffrey Hinton. "Hash semántico". RBM 500.3 (2007): 500.
^ abc Deerwester, S., et al, Mejorando la recuperación de información con indexación semántica latente, Actas de la 51.ª Reunión Anual de la Sociedad Americana para la Ciencia de la Información 25, 1988, págs. 36-40.
^ Benzécri, J.-P. (1973). L'Analyse des Données. Volumen II. L'Analyse des Correspondences . París, Francia: Dunod.
^ Furnas, GW; Landauer, TK; Gomez, LM; Dumais, ST (1987). "El problema del vocabulario en la comunicación humano-sistema". Comunicaciones de la ACM . 30 (11): 964–971. CiteSeerX 10.1.1.118.4768 . doi :10.1145/32206.32212. S2CID 3002280.
^ Landauer, T., et al., Aprendizaje de conocimiento similar al humano mediante descomposición en valores singulares: un informe de progreso, MI Jordan, MJ Kearns y SA Solla (Eds.), Avances en sistemas de procesamiento de información neuronal 10, Cambridge: MIT Press, 1998, págs. 45-51.
^ Dumais, S.; Platt, J.; Heckerman, D.; Sahami, M. (1998). "Algoritmos y representaciones de aprendizaje inductivo para la categorización de textos" (PDF) . Actas de la séptima conferencia internacional sobre gestión de la información y el conocimiento - CIKM '98. pp. 148. CiteSeerX 10.1.1.80.8909 . doi :10.1145/288627.288651. ISBN. 978-1581130614.S2CID617436 .
^ Homayouni, R.; Heinrich, K.; Wei, L.; Berry, MW (2004). "Agrupamiento de genes mediante indexación semántica latente de resúmenes de MEDLINE". Bioinformática . 21 (1): 104–115. doi : 10.1093/bioinformatics/bth464 . PMID 15308538.
^ Price, RJ; Zukas, AE (2005). "Aplicación de la indexación semántica latente al procesamiento de texto ruidoso". Informática de seguridad e inteligencia . Apuntes de clase en informática. Vol. 3495. pág. 602. doi :10.1007/11427995_68. ISBN 978-3-540-25999-2.
^ Ding, C., Un modelo de probabilidad basado en similitud para la indexación semántica latente, Actas de la 22ª Conferencia internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información, 1999, págs. 59-65.
^ Bartell, B., Cottrell, G. y Belew, R., La indexación semántica latente es un caso especial óptimo de escalamiento multidimensional ^{[ enlace muerto ]} , Actas, Conferencia ACM SIGIR sobre investigación y desarrollo en recuperación de información, 1992, págs. 161–167.
^ Graesser, A.; Karnavat, A. (2000). "El análisis semántico latente captura estructuras causales, orientadas a objetivos y taxonómicas". Actas de CogSci 2000 : 184–189. CiteSeerX 10.1.1.23.5444 .
^ Dumais, S.; Nielsen, J. (1992). "Automatización de la asignación de manuscritos enviados a los revisores". Actas de la 15.ª conferencia anual internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información - SIGIR '92 . págs. 233–244. CiteSeerX 10.1.1.16.9793 . doi :10.1145/133160.133205. ISBN . 978-0897915236.S2CID15038631 .
^ Berry, MW, y Browne, M., Comprensión de los motores de búsqueda: modelado matemático y recuperación de texto, Society for Industrial and Applied Mathematics, Filadelfia, (2005).
^ Landauer, T., et al., Manual de análisis semántico latente, Lawrence Erlbaum Associates, 2007.
^ Berry, Michael W., Dumais, Susan T., O'Brien, Gavin W., Uso de álgebra lineal para la recuperación inteligente de información, diciembre de 1994, SIAM Review 37:4 (1995), págs. 573–595.
^ Dumais, S., Análisis semántico latente, ARIST Review of Information Science and Technology, vol. 38, 2004, Capítulo 4.
^ Comentario sobre las mejores prácticas en el uso de métodos de búsqueda y recuperación de información en el descubrimiento electrónico, Conferencia de Sedona, 2007, págs. 189-223.
^ Foltz, PW y Dumais, ST Entrega de información personalizada: un análisis de los métodos de filtrado de información, Comunicaciones de la ACM, 1992, 34(12), 51-60.
^ Gong, Y., y Liu, X., Creación de resúmenes de texto genéricos, Actas, Sexta Conferencia Internacional sobre Análisis y Reconocimiento de Documentos, 2001, págs. 903–907.
^ Bradford, R., Descubrimiento eficiente de nueva información en bases de datos de texto grandes, Actas, Conferencia internacional IEEE sobre inteligencia y seguridad informática, Atlanta, Georgia, LNCS Vol. 3495, Springer, 2005, págs. 374–380.
^ Bradford, RB (2006). "Aplicación de la indexación semántica latente en la generación de gráficos de redes terroristas". Informática de inteligencia y seguridad . Apuntes de clase en informática. Vol. 3975. págs. 674–675. doi :10.1007/11760146_84. ISBN 978-3-540-34478-0.
^ Yarowsky, D., y Florian, R., Taking the Load off the Conference Chairs: Towards a Digital Paper-routing Assistant, Actas de la Conferencia Conjunta SIGDAT de 1999 sobre Métodos Empíricos en PNL y Corpora Muy Grandes, 1999, págs. 220-230.
^ Caron, J., Aplicación de LSA a la atención al cliente en línea: un estudio de prueba, tesis de maestría inédita, mayo de 2000.
^ Soboroff, I., et al, Visualización de la autoría de documentos utilizando N-gramas e indexación semántica latente, Taller sobre nuevos paradigmas en visualización y manipulación de información, 1997, págs. 43–48.
^ Monay, F., y Gatica-Pérez, D., Sobre la autoanotación de imágenes con modelos de espacio latente, Actas de la 11.ª conferencia internacional ACM sobre multimedia, Berkeley, CA, 2003, págs. 275-278.
^ Maletic, J.; Marcus, A. (13-15 de noviembre de 2000). "Uso del análisis semántico latente para identificar similitudes en el código fuente para apoyar la comprensión del programa". Actas de la 12.ª Conferencia Internacional IEEE sobre Herramientas con Inteligencia Artificial. ICTAI 2000. págs. 46-53. CiteSeerX 10.1.1.36.6652 . doi :10.1109/TAI.2000.889845. ISBN . 978-0-7695-0909-9.S2CID10354564 .
^ Gee, K., Uso de indexación semántica latente para filtrar spam, en: Actas, Simposio ACM 2003 sobre Computación Aplicada, Melbourne, Florida, págs. 460–464.
^ Landauer, T., Laham, D. y Derr, M., Del párrafo al gráfico: análisis semántico latente para visualización de información, Actas de la Academia Nacional de Ciencias, 101, 2004, págs. 5214–5219.
^ Foltz, Peter W., Laham, Darrell y Landauer, Thomas K., Calificación automatizada de ensayos: aplicaciones a la tecnología educativa, Actas de EdMedia, 1999.
^ Gordon, M., y Dumais, S., Uso de indexación semántica latente para el descubrimiento basado en literatura, Journal of the American Society for Information Science, 49(8), 1998, págs. 674–685.
^ Tiene que haber una mejor manera de buscar, 2008, Libro blanco, Fios, Inc.
^ Karypis, G., Han, E., Algoritmo rápido de reducción de dimensionalidad supervisada con aplicaciones a la categorización y recuperación de documentos, Actas de CIKM-00, 9.ª Conferencia ACM sobre gestión de la información y el conocimiento.
^ Radim Řehůřek (2011). "Seguimiento de subespacios para análisis semántico latente". Avances en recuperación de información . Apuntes de clase en informática. Vol. 6611. págs. 289-300. doi :10.1007/978-3-642-20161-5_29. ISBN 978-3-642-20160-8.
^ Bradford, R., Un estudio empírico de la dimensionalidad requerida para aplicaciones de indexación semántica latente a gran escala, Actas de la 17.ª Conferencia ACM sobre gestión de la información y el conocimiento, Napa Valley, California, EE. UU., 2008, págs. 153-162.
^ Landauer, Thomas K., y Dumais, Susan T., Análisis semántico latente, Scholarpedia, 3(11):4356, 2008.
^ Landauer, TK, Foltz, PW y Laham, D. (1998). Introducción al análisis semántico latente. Procesos del discurso, 25, 259-284

Lectura adicional

Landauer, Thomas ; Foltz, Peter W.; Laham, Darrell (1998). "Introducción al análisis semántico latente" (PDF) . Procesos del discurso . 25 (2–3): 259–284. CiteSeerX 10.1.1.125.109 . doi :10.1080/01638539809545028. S2CID 16625196.
Deerwester, Scott ; Dumais, Susan T. ; Furnas, George W. ; Landauer, Thomas K. ; Harshman, Richard (1990). "Indexing by Latent Semantic Analysis" (PDF) . Revista de la Sociedad Americana de Ciencias de la Información . 41 (6): 391–407. CiteSeerX 10.1.1.33.2447 . doi :10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9. Archivado desde el original (PDF) el 17 de julio de 2012.Artículo original donde se expuso por primera vez el modelo.
Berry, Michael ; Dumais, Susan T.; O'Brien, Gavin W. (1995). "Uso del álgebra lineal para la recuperación inteligente de información".(PDF) Archivado el 23 de noviembre de 2018 en Wayback Machine . Ilustración de la aplicación de LSA a la recuperación de documentos.
Chicco, D; Masseroli, M (2015). "Paquete de software para predicción de anotaciones de genes y proteínas y búsqueda de similitud". Transacciones IEEE/ACM sobre biología computacional y bioinformática . 12 (4): 837–843. doi :10.1109/TCBB.2014.2382127. hdl : 11311/959408 . PMID 26357324. S2CID 14714823.
"Análisis semántico latente". InfoVis. Archivado desde el original el 18 de febrero de 2020. Consultado el 1 de julio de 2005 .
Fridolin Wild (23 de noviembre de 2005). "Un paquete LSA de código abierto para R". CRAN . Consultado el 20 de noviembre de 2006 .
Thomas Landauer , Susan T. Dumais . "Una solución al problema de Platón: la teoría del análisis semántico latente de la adquisición, la inducción y la representación del conocimiento" . Consultado el 2 de julio de 2007 .

Enlaces externos

Artículos sobre LSA

Análisis semántico latente, un artículo de Scholarpedia sobre LSA escrito por Tom Landauer, uno de los creadores de LSA.

Charlas y demostraciones

Descripción general de LSA, charla del profesor Thomas Hofmann Archivado el 22 de diciembre de 2017 en Wayback Machine que describe LSA, sus aplicaciones en la recuperación de información y sus conexiones con el análisis semántico latente probabilístico .
Código de muestra LSA completo en C# para Windows. El código de demostración incluye enumeración de archivos de texto, filtrado de palabras vacías, derivación, creación de una matriz de términos de documento y SVD.

Implementaciones

Debido a sus aplicaciones interdisciplinarias en recuperación de información , procesamiento del lenguaje natural (PLN), ciencia cognitiva y lingüística computacional , LSA se ha implementado para soportar muchos tipos diferentes de aplicaciones.

Sense Clusters, una implementación de LSA orientada a la recuperación de información
Paquete S-Space, una implementación Java de LSA orientada a la lingüística computacional y la ciencia cognitiva
Los vectores semánticos aplican proyección aleatoria, LSA e indexación aleatoria reflexiva a matrices de términos y documentos de Lucene
Proyecto Infomap, una implementación en C de LSA orientada al procesamiento del lenguaje natural (reemplazado por el proyecto semanticvectors)
Generador de texto a matriz Archivado el 7 de enero de 2013 en archive.today , una caja de herramientas de MATLAB para generar matrices de términos y documentos a partir de colecciones de texto, con soporte para LSA
Gensim contiene una implementación Python de LSA para matrices más grandes que RAM.