stringtranslate.com

Análisis semántico latente

El análisis semántico latente ( LSA ) es una técnica en el procesamiento del lenguaje natural , en particular la semántica distributiva , para analizar las relaciones entre un conjunto de documentos y los términos que contienen mediante la producción de un conjunto de conceptos relacionados con los documentos y términos. LSA supone que las palabras que tienen un significado similar aparecerán en fragmentos de texto similares (la hipótesis distributiva ). Se construye una matriz que contiene recuentos de palabras por documento (las filas representan palabras únicas y las columnas representan cada documento) a partir de un gran fragmento de texto y se utiliza una técnica matemática llamada descomposición de valores singulares (SVD) para reducir el número de filas y al mismo tiempo preservar la estructura de similitud. entre columnas. Luego, los documentos se comparan mediante similitud de coseno entre dos columnas cualesquiera. Los valores cercanos a 1 representan documentos muy similares, mientras que los valores cercanos a 0 representan documentos muy diferentes. [1]

En 1988 , Scott Deerwester , Susan Dumais , George Furnas , Richard Harshman , Thomas Landauer , Karen Lochbaum y Lynn Streeter patentaron una técnica de recuperación de información que utiliza una estructura semántica latente (patente estadounidense 4.839.853, ahora vencida) . En el contexto de su aplicación a la recuperación de información , a veces se le llama indexación semántica latente ( LSI ). [2]

Descripción general

Animación del proceso de detección de temas en una matriz documento-palabra. Cada columna corresponde a un documento, cada fila a una palabra. Una celda almacena la ponderación de una palabra en un documento (por ejemplo, mediante tf-idf ), las celdas oscuras indican ponderaciones altas. LSA agrupa tanto documentos que contienen palabras similares como palabras que aparecen en un conjunto similar de documentos. Los patrones resultantes se utilizan para detectar componentes latentes. [3]

Matriz de ocurrencia

LSA puede utilizar una matriz de términos de documento que describe la aparición de términos en los documentos; es una matriz dispersa cuyas filas corresponden a términos y cuyas columnas corresponden a documentos. Un ejemplo típico de ponderación de los elementos de la matriz es tf-idf (frecuencia de términos – frecuencia de documento inversa): el peso de un elemento de la matriz es proporcional al número de veces que aparecen los términos en cada documento, donde los términos raros se ponderan al alza para reflejar su importancia relativa.

Esta matriz también es común a los modelos semánticos estándar, aunque no necesariamente se expresa explícitamente como una matriz, ya que no siempre se utilizan las propiedades matemáticas de las matrices.

Bajada de rango

Después de la construcción de la matriz de ocurrencia, LSA encuentra una aproximación de rango bajo [4] a la matriz término-documento . Podría haber varias razones para estas aproximaciones:

La consecuencia de la reducción de rango es que algunas dimensiones se combinan y dependen de más de un término:

{(coche), (camión), (flor)} → {(1,3452 * coche + 0,2828 * camión), (flor)}

Esto mitiga el problema de identificar la sinonimia, ya que se espera que la reducción de rango fusione las dimensiones asociadas con términos que tienen significados similares. También mitiga parcialmente el problema de la polisemia , ya que los componentes de palabras polisémicas que apuntan en la dirección "correcta" se añaden a los componentes de palabras que comparten un significado similar. Por el contrario, los componentes que apuntan en otras direcciones tienden a cancelarse o, en el peor de los casos, a ser más pequeños que los componentes en las direcciones correspondientes al sentido pretendido.

Derivación

Sea una matriz donde el elemento describe la aparición de un término en el documento (puede ser, por ejemplo, la frecuencia). se verá así:

Ahora una fila en esta matriz será un vector correspondiente a un término, dando su relación con cada documento:

Asimismo, una columna de esta matriz será un vector correspondiente a un documento, dando su relación con cada término:

Ahora, el producto escalar entre dos vectores de términos proporciona la correlación entre los términos en el conjunto de documentos. El producto matricial contiene todos estos productos escalares. Elemento (que es igual a elemento ) contiene el producto escalar ( ). Asimismo, la matriz contiene los productos escalares entre todos los vectores de documentos, dando su correlación sobre los términos: .

Ahora bien, desde la teoría del álgebra lineal, existe una descomposición tal que y son matrices ortogonales y es una matriz diagonal . Esto se llama descomposición en valores singulares (SVD):

Los productos matriciales que nos dan las correlaciones entre términos y documentos se convierten entonces en

Como y son diagonales vemos que deben contener los vectores propios de , mientras que deben ser los vectores propios de . Ambos productos tienen los mismos valores propios distintos de cero, dados por las entradas distintas de cero de , o igualmente, por las entradas distintas de cero de . Ahora la descomposición queda así:

Los valores se denominan valores singulares y vectores singulares izquierdo y derecho. Observe que la única parte a la que contribuye es la fila. Llamemos a este vector de fila . Asimismo, la única parte que contribuye es la columna . Estos no son los vectores propios, pero dependen de todos los vectores propios.

Resulta que cuando seleccionas los valores singulares más grandes y sus correspondientes vectores singulares de y , obtienes la aproximación de rango con el error más pequeño ( norma de Frobenius ). Esta aproximación tiene un error mínimo. Pero lo más importante es que ahora podemos tratar los vectores de términos y documentos como un "espacio semántico". El vector de "término" de fila tiene entradas que lo asignan a un espacio de dimensiones inferiores. Estas nuevas dimensiones no se relacionan con ningún concepto comprensible. Son una aproximación de dimensiones inferiores al espacio de dimensiones superiores. Asimismo, el vector "documento" es una aproximación en este espacio de dimensiones inferiores. Escribimos esta aproximación como

Ahora puedes hacer lo siguiente:

Para hacer esto último, primero debe traducir su consulta al espacio de baja dimensión. Entonces es intuitivo que debes utilizar la misma transformación que utilizas en tus documentos:

Tenga en cuenta aquí que la inversa de la matriz diagonal se puede encontrar invirtiendo cada valor distinto de cero dentro de la matriz.

Esto significa que si tiene un vector de consulta , debe realizar la traducción antes de compararlo con los vectores del documento en el espacio de baja dimensión. Puedes hacer lo mismo con los vectores de pseudotérmino:

Aplicaciones

El nuevo espacio de baja dimensión normalmente se puede utilizar para:

La sinonimia y la polisemia son problemas fundamentales en el procesamiento del lenguaje natural :

Aplicaciones comerciales

LSA se ha utilizado para ayudar en la realización de búsquedas de patentes en el estado de la técnica . [8]

Aplicaciones en la memoria humana

El uso del Análisis Semántico Latente ha prevalecido en el estudio de la memoria humana, especialmente en áreas de recuerdo libre y búsqueda de memoria. Existe una correlación positiva entre la similitud semántica de dos palabras (medida por LSA) y la probabilidad de que las palabras se recuerden una tras otra en tareas de memoria libre utilizando listas de estudio de sustantivos comunes aleatorios. También notaron que en estas situaciones, el tiempo entre respuestas entre palabras similares era mucho más rápido que entre palabras diferentes. Estos hallazgos se conocen como efecto de proximidad semántica. [9]

Cuando los participantes cometieron errores al recordar elementos estudiados, estos errores tendieron a ser elementos que estaban más relacionados semánticamente con el elemento deseado y que se encontraban en una lista previamente estudiada. Estas intrusiones en la lista anterior, como se les ha dado en llamar, parecen competir con elementos de la lista actual para ser retirados. [10]

Otro modelo, denominado Espacios de asociación de palabras (WAS), también se utiliza en estudios de memoria mediante la recopilación de datos de asociación libre a partir de una serie de experimentos y que incluye medidas de relación de palabras para más de 72.000 pares de palabras distintos. [11]

Implementación

La SVD normalmente se calcula utilizando métodos matriciales grandes (por ejemplo, métodos de Lanczos ), pero también se puede calcular de forma incremental y con recursos muy reducidos a través de un enfoque similar a una red neuronal , que no requiere que la matriz grande de rango completo se mantenga en memoria. [12] Recientemente se ha desarrollado un algoritmo SVD rápido, incremental, de baja memoria y de matriz grande. [13] Hay disponibles implementaciones en MATLAB y Python de estos algoritmos rápidos. A diferencia de la aproximación estocástica de Gorrell y Webb (2005), el algoritmo de Brand (2003) proporciona una solución exacta. En los últimos años se han logrado avances para reducir la complejidad computacional de SVD; por ejemplo, al utilizar un algoritmo ARPACK paralelo para realizar una descomposición de valores propios paralelo, es posible acelerar el costo de cálculo de SVD y al mismo tiempo proporcionar una calidad de predicción comparable. [14]

Limitaciones

Algunos de los inconvenientes de LSA incluyen:

{(coche), (camión), (flor)} ↦ {(1,3452 * coche + 0,2828 * camión), (flor)}
el componente (1.3452 * automóvil + 0.2828 * camión) podría interpretarse como "vehículo". Sin embargo, es muy probable que casos cercanos a
{(coche), (botella), (flor)} ↦ {(1,3452 * coche + 0,2828 * botella ), (flor)}
ocurrira. Esto conduce a resultados que pueden justificarse en el nivel matemático, pero que no tienen un significado inmediatamente obvio en el lenguaje natural. Sin embargo, el componente (1,3452 * automóvil + 0,2828 * botella) podría justificarse debido al hecho de que tanto las botellas como los automóviles tienen partes transparentes y opacas, están hechos por el hombre y con alta probabilidad contienen logotipos/palabras en su superficie; por tanto, en muchos sentidos estos dos conceptos "comparten semántica". Es decir, dentro de un idioma en cuestión, puede que no haya una palabra disponible para asignar y la explicabilidad se convierte en una tarea de análisis en lugar de una simple tarea de asignación de palabra/clase/concepto.

Metodos alternativos

hash semántico

En el hashing semántico [18] los documentos se asignan a direcciones de memoria mediante una red neuronal de tal manera que documentos semánticamente similares se encuentran en direcciones cercanas. La red neuronal profunda esencialmente construye un modelo gráfico de los vectores de recuento de palabras obtenidos de un gran conjunto de documentos. Los documentos similares a un documento de consulta se pueden encontrar simplemente accediendo a todas las direcciones que difieren sólo en unos pocos bits de la dirección del documento de consulta. Esta forma de ampliar la eficiencia de la codificación hash para una coincidencia aproximada es mucho más rápida que el hash sensible a la localidad , que es el método actual más rápido. [ se necesita aclaración ]

Indexación semántica latente

La indexación semántica latente ( LSI ) es un método de indexación y recuperación que utiliza una técnica matemática llamada descomposición de valores singulares (SVD) para identificar patrones en las relaciones entre los términos y conceptos contenidos en una colección de texto no estructurada. LSI se basa en el principio de que las palabras que se utilizan en los mismos contextos tienden a tener significados similares. Una característica clave de LSI es su capacidad para extraer el contenido conceptual de un cuerpo de texto estableciendo asociaciones entre aquellos términos que ocurren en contextos similares . [19]

LSI es también una aplicación del análisis de correspondencia , una técnica estadística multivariada desarrollada por Jean-Paul Benzécri [20] a principios de la década de 1970, a una tabla de contingencia construida a partir del recuento de palabras en documentos.

Llamada " indexación semántica latente " debido a su capacidad para correlacionar términos semánticamente relacionados que están latentes en una colección de texto, se aplicó por primera vez al texto en Bellcore a finales de los años 1980. El método, también llamado análisis semántico latente (LSA), descubre la estructura semántica latente subyacente en el uso de palabras en un cuerpo de texto y cómo se puede utilizar para extraer el significado del texto en respuesta a las consultas de los usuarios, comúnmente denominado como búsquedas de conceptos. Las consultas o búsquedas de conceptos en un conjunto de documentos que se han sometido a LSI arrojarán resultados conceptualmente similares en significado a los criterios de búsqueda, incluso si los resultados no comparten una palabra o palabras específicas con los criterios de búsqueda.

Beneficios del LSI

LSI ayuda a superar la sinonimia aumentando la recuperación , una de las limitaciones más problemáticas de las consultas de palabras clave booleanas y los modelos de espacio vectorial. [15] La sinonimia es a menudo la causa de desajustes en el vocabulario utilizado por los autores de documentos y los usuarios de sistemas de recuperación de información . [21] Como resultado, las consultas booleanas o de palabras clave a menudo arrojan resultados irrelevantes y omiten información relevante.

LSI también se utiliza para realizar una categorización automatizada de documentos . De hecho, varios experimentos han demostrado que existen varias correlaciones entre la forma en que LSI y los humanos procesan y categorizan el texto. [22] La categorización de documentos es la asignación de documentos a una o más categorías predefinidas en función de su similitud con el contenido conceptual de las categorías. [23] LSI utiliza documentos de ejemplo para establecer la base conceptual de cada categoría. Durante el procesamiento de categorización, los conceptos contenidos en los documentos que se están categorizando se comparan con los conceptos contenidos en los elementos de ejemplo, y se asigna una categoría (o categorías) a los documentos en función de las similitudes entre los conceptos que contienen y los conceptos que contienen. en los documentos de ejemplo.

La agrupación dinámica basada en el contenido conceptual de los documentos también se puede lograr utilizando LSI. La agrupación es una forma de agrupar documentos en función de su similitud conceptual entre sí sin utilizar documentos de ejemplo para establecer la base conceptual de cada grupo. Esto es muy útil cuando se trata de una colección desconocida de texto no estructurado.

Debido a que utiliza un enfoque estrictamente matemático, LSI es inherentemente independiente del lenguaje. Esto permite a LSI obtener el contenido semántico de información escrita en cualquier idioma sin requerir el uso de estructuras auxiliares, como diccionarios y tesauros. LSI también puede realizar búsquedas de conceptos interlingüísticos y categorización basada en ejemplos. Por ejemplo, las consultas se pueden realizar en un idioma, como el inglés, y se devolverán resultados conceptualmente similares incluso si están compuestos de un idioma completamente diferente o de varios idiomas. [ cita necesaria ]

LSI no se limita a trabajar únicamente con palabras. También puede procesar cadenas de caracteres arbitrarias. Cualquier objeto que pueda expresarse como texto se puede representar en un espacio vectorial LSI. Por ejemplo, las pruebas con resúmenes de MEDLINE han demostrado que LSI es capaz de clasificar genes de manera efectiva basándose en modelos conceptuales de la información biológica contenida en los títulos y resúmenes de las citas de MEDLINE. [24]

LSI se adapta automáticamente a terminología nueva y cambiante y ha demostrado ser muy tolerante al ruido (es decir, palabras mal escritas, errores tipográficos, caracteres ilegibles, etc.). [25] Esto es especialmente importante para aplicaciones que utilizan texto derivado del reconocimiento óptico de caracteres (OCR) y la conversión de voz a texto. LSI también maneja eficazmente datos escasos, ambiguos y contradictorios.

No es necesario que el texto esté en forma de oración para que LSI sea efectivo. Puede funcionar con listas, notas de formato libre, correo electrónico, contenido web, etc. Siempre que una colección de texto contenga varios términos, LSI se puede utilizar para identificar patrones en las relaciones entre los términos y conceptos importantes contenidos en el texto.

LSI ha demostrado ser una solución útil a una serie de problemas de coincidencia conceptual. [26] [27] Se ha demostrado que la técnica captura información clave sobre relaciones, incluida información causal, orientada a objetivos y taxonómica. [28]

Cronología de LSI

Matemáticas de LSI

LSI utiliza técnicas comunes de álgebra lineal para aprender las correlaciones conceptuales en una colección de texto. En general, el proceso implica construir una matriz de términos-documento ponderada, realizar una descomposición de valores singulares en la matriz y utilizar la matriz para identificar los conceptos contenidos en el texto.

Matriz término-documento

LSI comienza construyendo una matriz término-documento, para identificar las apariciones de términos únicos dentro de una colección de documentos. En una matriz término-documento, cada término está representado por una fila y cada documento está representado por una columna, donde cada celda de la matriz, inicialmente representa el número de veces que el término asociado aparece en el documento indicado . Esta matriz suele ser muy grande y muy escasa.

Una vez que se construye una matriz de documento-término, se le pueden aplicar funciones de ponderación locales y globales para condicionar los datos. Las funciones de ponderación transforman cada celda, de , para que sea el producto de una ponderación de término local, que describe la frecuencia relativa de un término en un documento, y una ponderación global, que describe la frecuencia relativa del término dentro de toda la colección. de documentos.

Algunas funciones de ponderación local comunes [30] se definen en la siguiente tabla.

Algunas funciones de ponderación global comunes se definen en la siguiente tabla.

Los estudios empíricos con LSI informan que las funciones de ponderación de registro y entropía funcionan bien, en la práctica, con muchos conjuntos de datos. [31] En otras palabras, cada entrada de se calcula como:

Descomposición de valores singulares de rango reducido

Se realiza una descomposición de valores singulares de rango reducido en la matriz para determinar patrones en las relaciones entre los términos y conceptos contenidos en el texto. La SVD constituye la base de LSI. [32] Calcula los espacios vectoriales de términos y documentos aproximando la matriz de frecuencia de términos únicos, en otras tres matrices: una matriz vectorial de términos-conceptos m por r , una matriz de valores singulares r por r y un concepto n por r . -matriz de vectores de documentos, que satisfacen las siguientes relaciones:

En la fórmula, A es la matriz ponderada m por n de frecuencias de términos en una colección de texto, donde m es el número de términos únicos y n es el número de documentos. T es una matriz calculada m por r de vectores de términos donde r es el rango de A , una medida de sus dimensiones únicas ≤ min( m,n ) . S es una matriz diagonal calculada r por r de valores singulares decrecientes, y D es una matriz calculada n por r de vectores de documentos.

Luego, el SVD se trunca para reducir el rango manteniendo solo las entradas diagonales k «  r más grandes en la matriz de valores singulares S , donde k suele ser del orden de 100 a 300 dimensiones. Esto reduce efectivamente los tamaños de las matrices de vectores de términos y documentos a m por k y n por k respectivamente. La operación SVD, junto con esta reducción, tiene el efecto de preservar la información semántica más importante en el texto al tiempo que reduce el ruido y otros artefactos indeseables del espacio original de A. Este conjunto reducido de matrices a menudo se denota con una fórmula modificada como:

A ≈ A k = T k S k D k T

Los algoritmos LSI eficientes solo calculan los primeros k valores singulares y los vectores de términos y documentos en lugar de calcular un SVD completo y luego truncarlo.

Tenga en cuenta que esta reducción de rango es esencialmente lo mismo que hacer el Análisis de Componentes Principales (PCA) en la matriz A , excepto que el PCA resta las medias. PCA pierde la escasez de la matriz A , lo que puede hacerla inviable para léxicos grandes.

Consultar y aumentar espacios vectoriales LSI

Las matrices Tk y Dk calculadas definen los espacios vectoriales de términos y documentos, que con los valores singulares calculados, Sk , incorporan la información conceptual derivada de la colección de documentos . La similitud de términos o documentos dentro de estos espacios es un factor de qué tan cerca están entre sí en estos espacios, generalmente calculado como una función del ángulo entre los vectores correspondientes.

Se utilizan los mismos pasos para ubicar los vectores que representan el texto de consultas y documentos nuevos dentro del espacio de documentos de un índice LSI existente. Mediante una simple transformación de la ecuación A = TSD T en la ecuación equivalente D = A T TS −1 , se puede crear un nuevo vector, d , para una consulta o para un nuevo documento calculando una nueva columna en A y luego multiplicando la nueva columna por TS −1 . La nueva columna en A se calcula utilizando las ponderaciones de términos globales derivadas originalmente y aplicando la misma función de ponderación local a los términos de la consulta o del nuevo documento.

Una desventaja de calcular vectores de esta manera, al agregar nuevos documentos con capacidad de búsqueda, es que se ignoran los términos que no se conocían durante la fase SVD para el índice original. Estos términos no tendrán ningún impacto en las ponderaciones globales y las correlaciones aprendidas derivadas de la colección de texto original. Sin embargo, los vectores calculados para el nuevo texto siguen siendo muy relevantes para comparaciones de similitud con todos los demás vectores de documentos.

El proceso de aumentar los espacios vectoriales de documentos para un índice LSI con nuevos documentos de esta manera se denomina plegado . Aunque el proceso de plegado no tiene en cuenta el nuevo contenido semántico del nuevo texto, agregar una cantidad sustancial de documentos de esta manera seguirá proporcionando buenos resultados para las consultas siempre que los términos y conceptos que contienen estén bien representados dentro del LSI. índice al que se añaden. Cuando es necesario incluir los términos y conceptos de un nuevo conjunto de documentos en un índice LSI, se debe volver a calcular la matriz término-documento y el SVD o utilizar un método de actualización incremental (como el descrito en [13] ). es necesario.

Usos adicionales de LSI

En general, se reconoce que la capacidad de trabajar con texto sobre una base semántica es esencial para los sistemas modernos de recuperación de información. Como resultado, el uso de LSI se ha expandido significativamente en los últimos años a medida que se superaron desafíos anteriores en escalabilidad y rendimiento.

LSI se utiliza en una variedad de aplicaciones de procesamiento de texto y recuperación de información, aunque su aplicación principal ha sido la búsqueda de conceptos y la categorización automatizada de documentos. [33] A continuación se presentan otras formas en las que se utiliza LSI:

LSI se utiliza cada vez más para el descubrimiento de documentos electrónicos (eDiscovery) para ayudar a las empresas a prepararse para los litigios. En eDiscovery, la capacidad de agrupar, categorizar y buscar grandes colecciones de texto no estructurado sobre una base conceptual es esencial. La búsqueda basada en conceptos utilizando LSI ha sido aplicada al proceso de eDiscovery por proveedores líderes ya en 2003. [48]

Desafíos para LSI

Los primeros desafíos para LSI se centraron en la escalabilidad y el rendimiento. LSI requiere memoria y rendimiento computacional relativamente altos en comparación con otras técnicas de recuperación de información. [49] Sin embargo, con la implementación de procesadores modernos de alta velocidad y la disponibilidad de memoria económica, estas consideraciones se han superado en gran medida. Las aplicaciones del mundo real que involucran más de 30 millones de documentos que se procesaron completamente a través de cálculos matriciales y SVD son comunes en algunas aplicaciones LSI. El paquete de software gensim de código abierto contiene una implementación totalmente escalable (número ilimitado de documentos, capacitación en línea) de LSI . [50]

Otro desafío para LSI ha sido la supuesta dificultad para determinar el número óptimo de dimensiones a utilizar para realizar la SVD. Como regla general, menos dimensiones permiten comparaciones más amplias de los conceptos contenidos en una colección de texto, mientras que un mayor número de dimensiones permiten comparaciones de conceptos más específicas (o más relevantes). El número real de dimensiones que se pueden utilizar está limitado por el número de documentos de la colección. Las investigaciones han demostrado que alrededor de 300 dimensiones generalmente proporcionarán los mejores resultados con colecciones de documentos de tamaño moderado (cientos de miles de documentos) y quizás 400 dimensiones para colecciones de documentos más grandes (millones de documentos). [51] Sin embargo, estudios recientes indican que entre 50 y 1000 dimensiones son adecuadas dependiendo del tamaño y la naturaleza de la colección de documentos. [52] Verificar la proporción de varianza retenida, similar al PCA o análisis factorial , para determinar la dimensionalidad óptima no es adecuado para LSI. El uso de una prueba de sinónimos o la predicción de palabras faltantes son dos métodos posibles para encontrar la dimensionalidad correcta. [53] Cuando los temas de LSI se utilizan como características en métodos de aprendizaje supervisados, se pueden utilizar medidas de error de predicción para encontrar la dimensionalidad ideal.

Ver también

Referencias

  1. ^ Susan T. Dumais (2005). "Análisis semántico latente". Revisión anual de ciencia y tecnología de la información . 38 : 188–230. doi :10.1002/aris.1440380105.
  2. ^ "La página de inicio de la indexación semántica latente".
  3. ^ http://topicmodels.west.uni-koblenz.de/ckling/tmt/svd_ap.html
  4. ^ Markovsky I. (2012) Aproximación de bajo rango: algoritmos, implementación, aplicaciones, Springer, 2012, ISBN 978-1-4471-2226-5 [ página necesaria ] 
  5. ^ Alain Lifchitz; Sandra Jhean-Larose; Guy Denhière (2009). "Efecto de los parámetros ajustados en un modelo de respuesta a preguntas de opción múltiple LSA" (PDF) . Métodos de investigación del comportamiento . 41 (4): 1201–1209. arXiv : 0811.0146 . doi : 10.3758/BRM.41.4.1201 . PMID  19897829. S2CID  480826.
  6. ^ ab Ramiro H. Gálvez; Agustín Gravano (2017). "Evaluación de la utilidad de la minería de foros de mensajes en línea en sistemas automáticos de predicción de acciones". Revista de ciencia computacional . 19 : 1877–7503. doi :10.1016/j.jocs.2017.01.001.
  7. ^ ab Altszyler, E.; Ribeiro, S.; Sigman, M.; Fernández Slezak, D. (2017). "La interpretación del significado de los sueños: resolución de ambigüedades mediante el análisis semántico latente en un pequeño corpus de texto". Conciencia y Cognición . 56 : 178–187. arXiv : 1610.01520 . doi :10.1016/j.concog.2017.09.004. PMID  28943127. S2CID  195347873.
  8. ^ Gerry J. Elman (octubre de 2007). "Apoyo al examen automatizado de patentes: una propuesta". Informe Ley de Biotecnología . 26 (5): 435–436. doi :10.1089/blr.2007.9896.
  9. ^ Marc W. Howard; Michael J. Kahana (1999). "Efectos de variabilidad contextual y posición serial en el recuerdo libre" (PDF) . {{cite journal}}: Citar diario requiere |journal=( ayuda )
  10. ^ Franklin M. Zaromb; et al. (2006). Asociaciones temporales e intrusiones en listas anteriores en recuperación gratuita (PDF) . Entre discursos'2005.
  11. ^ Nelson, Douglas. "Normas de fragmentos de palabras, rimas y asociaciones de palabras de la Universidad del Sur de Florida" . Consultado el 8 de mayo de 2011 .
  12. ^ Geneviève Gorrell; Brandyn Webb (2005). "Algoritmo hebbiano generalizado para análisis semántico latente" (PDF) . Interdiscurso'2005 . Archivado desde el original (PDF) el 21 de diciembre de 2008.
  13. ^ ab Matthew Brand (2006). "Modificaciones rápidas de bajo rango de la descomposición fina de valores singulares" (PDF) . Álgebra lineal y sus aplicaciones . 415 : 20–30. doi : 10.1016/j.laa.2005.07.021 .
  14. ^ Ding, Yaguang; Zhu, Guofeng; Cui, Chenyang; Zhou, Jian; Tao, Liang (2011). "Una implementación paralela de descomposición de valores singulares basada en Map-Reduce y PARPACK". Actas de la Conferencia Internacional de 2011 sobre Ciencias de la Computación y Tecnología de Redes . págs. 739–741. doi :10.1109/ICCSNT.2011.6182070. ISBN 978-1-4577-1587-7. S2CID  15281129.
  15. ^ ab Deerwester, Scott; Dumais, Susan T.; Furnas, George W.; Landauer, Thomas K.; Harshman, Richard (1990). "Indexación por análisis semántico latente". Revista de la Sociedad Estadounidense de Ciencias de la Información . 41 (6): 391–407. CiteSeerX 10.1.1.108.8490 . doi :10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9. 
  16. ^ Abedi, Vida; Yeasin, Mahoma; Zand, Ramin (27 de noviembre de 2014). "Estudio empírico que utiliza una red de asociaciones semánticamente relacionadas para cerrar la brecha de conocimiento". Revista de medicina traslacional . 12 (1): 324. doi : 10.1186/s12967-014-0324-9 . PMC 4252998 . PMID  25428570. 
  17. ^ Thomas Hofmann (1999). "Análisis semántico latente probabilístico". Incertidumbre en la Inteligencia Artificial . arXiv : 1301.6705 .
  18. ^ Salakhutdinov, Ruslan y Geoffrey Hinton. "Hashing semántico". GBR 500,3 (2007): 500.
  19. ^ abc Deerwester, S., et al, Mejora de la recuperación de información con indexación semántica latente, Actas de la 51ª reunión anual de la Sociedad Estadounidense de Ciencias de la Información 25, 1988, págs.
  20. ^ Benzécri, J.-P. (1973). L'Analyse des Données. Volumen II. L'Analyse des Correspondences . París, Francia: Dunod.
  21. ^ Furnas, GW; Landauer, TK; Gómez, LM; Dumais, ST (1987). "El problema del vocabulario en la comunicación humano-sistema". Comunicaciones de la ACM . 30 (11): 964–971. CiteSeerX 10.1.1.118.4768 . doi :10.1145/32206.32212. S2CID  3002280. 
  22. ^ Landauer, T., et al., Aprendizaje de conocimientos similares a los humanos mediante descomposición de valores singulares: un informe de progreso, MI Jordan, MJ Kearns y SA Solla (Eds.), Avances en sistemas de procesamiento de información neuronal 10, Cambridge: MIT Press, 1998, págs. 45–51.
  23. ^ Dumais, S.; Platt, J.; Heckerman, D.; Sahami, M. (1998). "Algoritmos de aprendizaje inductivo y representaciones para categorización de texto" (PDF) . Actas de la séptima conferencia internacional sobre gestión de la información y el conocimiento - CIKM '98. págs.148. CiteSeerX 10.1.1.80.8909 . doi :10.1145/288627.288651. ISBN  978-1581130614. S2CID  617436.
  24. ^ Homayouni, R.; Heinrich, K.; Wei, L.; Berry, MW (2004). "Agrupación de genes mediante indexación semántica latente de resúmenes de MEDLINE". Bioinformática . 21 (1): 104-115. doi : 10.1093/bioinformática/bth464 . PMID  15308538.
  25. ^ Precio, RJ; Zukas, AE (2005). "Aplicación de la indexación semántica latente al procesamiento de texto ruidoso". Inteligencia y Seguridad Informática . Apuntes de conferencias sobre informática. vol. 3495. pág. 602. doi :10.1007/11427995_68. ISBN 978-3-540-25999-2.
  26. ^ Ding, C., Un modelo de probabilidad basado en similitudes para la indexación semántica latente, Actas de la 22ª Conferencia Internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información, 1999, págs.
  27. ^ Bartell, B., Cottrell, G. y Belew, R., La indexación semántica latente es un caso especial óptimo de escalamiento multidimensional [ enlace muerto ] , Actas, Conferencia ACM SIGIR sobre investigación y desarrollo en recuperación de información, 1992, págs. 161–167.
  28. ^ Graesser, A.; Karnavat, A. (2000). "El análisis semántico latente captura estructuras causales, orientadas a objetivos y taxonómicas". Actas de CogSci 2000 : 184–189. CiteSeerX 10.1.1.23.5444 . 
  29. ^ Dumais, S.; Nielsen, J. (1992). "Automatizar la asignación de manuscritos enviados a los revisores". Actas de la 15ª conferencia internacional anual ACM SIGIR sobre investigación y desarrollo en recuperación de información: SIGIR '92 . págs. 233–244. CiteSeerX 10.1.1.16.9793 . doi :10.1145/133160.133205. ISBN  978-0897915236. S2CID  15038631.
  30. ^ Berry, MW y Browne, M., Comprensión de los motores de búsqueda: modelado matemático y recuperación de textos, Sociedad de Matemáticas Industriales y Aplicadas, Filadelfia, (2005).
  31. ^ Landauer, T., et al., Manual de análisis semántico latente, Lawrence Erlbaum Associates, 2007.
  32. ^ Berry, Michael W., Dumais, Susan T., O'Brien, Gavin W., Uso del álgebra lineal para la recuperación inteligente de información, diciembre de 1994, SIAM Review 37:4 (1995), págs.
  33. ^ Dumais, S., Análisis semántico latente, ARIST Review of Information Science and Technology, vol. 38, 2004, Capítulo 4.
  34. ^ Comentario de mejores prácticas sobre el uso de métodos de búsqueda y recuperación de información en E-Discovery, Conferencia de Sedona, 2007, págs.
  35. ^ Foltz, PW y Dumais, ST Entrega de información personalizada: un análisis de los métodos de filtrado de información, Communications of the ACM, 1992, 34(12), 51-60.
  36. ^ Gong, Y. y Liu, X., Creación de resúmenes de textos genéricos, actas, Sexta Conferencia Internacional sobre Análisis y Reconocimiento de Documentos, 2001, págs.
  37. ^ Bradford, R., Descubrimiento eficiente de nueva información en grandes bases de datos de texto, Actas, Conferencia internacional IEEE sobre inteligencia e informática de seguridad, Atlanta, Georgia, LNCS vol. 3495, Springer, 2005, págs. 374–380.
  38. ^ Bradford, RB (2006). "Aplicación de indexación semántica latente en la generación de gráficos de redes terroristas". Inteligencia y Seguridad Informática . Apuntes de conferencias sobre informática. vol. 3975. págs. 674–675. doi :10.1007/11760146_84. ISBN 978-3-540-34478-0.
  39. ^ Yarowsky, D. y Florian, R., Quitar la carga de las sillas de conferencia: hacia un asistente de enrutamiento de papel digital, Actas de la conferencia conjunta SIGDAT de 1999 sobre métodos empíricos en PNL y corporaciones muy grandes, 1999, págs. 220–230.
  40. ^ Caron, J., Aplicación de LSA a la atención al cliente en línea: un estudio de prueba, tesis de maestría no publicada, mayo de 2000.
  41. ^ Soboroff, I., et al, Visualización de la autoría de documentos mediante N-gramas e indexación semántica latente, Taller sobre nuevos paradigmas en visualización y manipulación de información, 1997, págs.
  42. ^ Monay, F. y Gatica-Perez, D., Sobre la anotación automática de imágenes con modelos de espacio latente, Actas de la 11ª conferencia internacional ACM sobre multimedia, Berkeley, CA, 2003, págs.
  43. ^ Maletic, J.; Marcus, A. (13 al 15 de noviembre de 2000). "Uso del análisis semántico latente para identificar similitudes en el código fuente para respaldar la comprensión del programa". Actas de la 12ª Conferencia Internacional IEEE sobre Herramientas con Inteligencia Artificial. TICAI 2000 . Vancouver, Columbia Británica. págs. 46–53. CiteSeerX 10.1.1.36.6652 . doi :10.1109/TAI.2000.889845. ISBN  978-0-7695-0909-9. S2CID  10354564.{{cite book}}: CS1 maint: location missing publisher (link)
  44. ^ Gee, K., Uso de la indexación semántica latente para filtrar el spam, en: Actas, Simposio ACM sobre informática aplicada de 2003, Melbourne, Florida, págs.
  45. ^ Landauer, T., Laham, D. y Derr, M., Del párrafo al gráfico: análisis semántico latente para la visualización de información, Actas de la Academia Nacional de Ciencias, 101, 2004, págs.
  46. ^ Foltz, Peter W., Laham, Darrell y Landauer, Thomas K., Puntuación automatizada de ensayos: aplicaciones a la tecnología educativa, Actas de EdMedia, 1999.
  47. ^ Gordon, M. y Dumais, S., Uso de la indexación semántica latente para descubrimientos basados ​​en literatura, Revista de la Sociedad Estadounidense de Ciencias de la Información, 49 (8), 1998, págs.
  48. ^ Tiene que haber una mejor manera de realizar búsquedas, 2008, informe técnico, Fios, Inc.
  49. ^ Karypis, G., Han, E., Algoritmo rápido de reducción de dimensionalidad supervisada con aplicaciones a la categorización y recuperación de documentos, Actas de CIKM-00, Novena Conferencia ACM sobre Gestión de la Información y el Conocimiento.
  50. ^ Radim Řehůřek (2011). "Seguimiento subespacial para análisis semántico latente". Avances en la recuperación de información . Apuntes de conferencias sobre informática. vol. 6611, págs. 289–300. doi :10.1007/978-3-642-20161-5_29. ISBN 978-3-642-20160-8.
  51. ^ Bradford, R., Un estudio empírico de la dimensionalidad requerida para aplicaciones de indexación semántica latente a gran escala, Actas de la 17ª Conferencia ACM sobre gestión de la información y el conocimiento, Napa Valley, California, EE. UU., 2008, págs.
  52. ^ Landauer, Thomas K. y Dumais, Susan T., Análisis semántico latente, Scholarpedia, 3(11):4356, 2008.
  53. ^ Landauer, TK, Foltz, PW y Laham, D. (1998). Introducción al análisis semántico latente. Procesos del discurso, 25, 259-284

Otras lecturas

enlaces externos

Artículos sobre LSA

Charlas y manifestaciones

Implementaciones

Debido a sus aplicaciones entre dominios en recuperación de información , procesamiento del lenguaje natural (PLN), ciencia cognitiva y lingüística computacional , LSA se ha implementado para admitir muchos tipos diferentes de aplicaciones.