Análisis semántico explícito

En el procesamiento del lenguaje natural y la recuperación de información , el análisis semántico explícito ( ESA ) es una representación vectorial de texto (palabras individuales o documentos completos) que utiliza un corpus de documentos como base de conocimiento . Específicamente, en ESA, una palabra se representa como un vector columna en la matriz tf-idf del corpus de texto y un documento (cadena de palabras) se representa como el centroide de los vectores que representan sus palabras. Normalmente, el corpus de texto es Wikipedia en inglés , aunque se han utilizado otros corpus, incluido el Open Directory Project . ^[1]

ESA fue diseñada por Evgeniy Gabrilovich y Shaul Markovitch como un medio para mejorar la categorización de textos ^[2] y ha sido utilizada por este par de investigadores para calcular lo que ellos llaman " relación semántica " mediante la similitud de cosenos entre los vectores antes mencionados, colectivamente. interpretado como un espacio de "conceptos explícitamente definidos y descritos por humanos", donde los artículos de Wikipedia (o entradas ODP, o títulos de documentos en el corpus de la base de conocimientos) se equiparan con conceptos. El nombre "análisis semántico explícito" contrasta con el análisis semántico latente (LSA), porque el uso de una base de conocimiento permite asignar etiquetas legibles por humanos a los conceptos que componen el espacio vectorial. ^[1]^[3]

Modelo

Para realizar la variante básica de ESA, se comienza con una colección de textos, digamos, todos los artículos de Wikipedia; Sea $N$ el número de documentos de la colección . Todos ellos se convierten en " bolsas de palabras ", es decir, histogramas de frecuencia de términos, almacenados en un índice invertido . Usando este índice invertido, se puede encontrar para cualquier palabra el conjunto de artículos de Wikipedia que contienen esa palabra; En el vocabulario de Egozi, Markovitch y Gabrilovitch, "se puede considerar que cada palabra que aparece en el corpus de Wikipedia desencadena cada uno de los conceptos a los que apunta en el índice invertido". ^[1]

El resultado del índice invertido para una consulta de una sola palabra es una lista de documentos indexados (artículos de Wikipedia), a cada uno de los cuales se le asigna una puntuación dependiendo de la frecuencia con la que aparece la palabra en cuestión (ponderada por el número total de palabras en el documento). Matemáticamente, esta lista es un vector $N$ -dimensional de puntuaciones de documentos de Word, donde un documento que no contiene la palabra de consulta tiene una puntuación de cero. Para calcular la relación de dos palabras, se comparan los vectores (digamos $u$ y $v$ ) calculando la similitud del coseno,

{\mathsf {sim}}(\mathbf {u} ,\mathbf {v} )={\frac {\mathbf {u} \cdot \mathbf {v} }{\|\mathbf {u} \ |\|\mathbf {v} \|}}={\frac {\sum _{i=1}^{N}u_{i}v_{i}}{{\sqrt {\sum _{i=1 }^{N}u_{i}^{2}}}{\sqrt {\sum _{i=1}^{N}v_{i}^{2}}}}}

y esto da una estimación numérica de la relación semántica de las palabras. El esquema se extiende desde palabras individuales hasta textos de varias palabras simplemente sumando los vectores de todas las palabras del texto. ^[3]

Análisis

La ESA, como lo plantearon originalmente Gabrilovich y Markovitch, opera bajo el supuesto de que la base de conocimientos contiene conceptos tópicos ortogonales . Sin embargo, Anderka y Stein demostraron más tarde que la ESA también mejora el rendimiento de los sistemas de recuperación de información cuando no se basa en Wikipedia, sino en el corpus de artículos de noticias de Reuters , que no satisface la propiedad de ortogonalidad; En sus experimentos, Anderka y Stein utilizaron historias de noticias como "conceptos". ^[4] Para explicar esta observación, se han mostrado vínculos entre la ESA y el modelo espacial vectorial generalizado . ^[5] Gabrilovich y Markovitch respondieron a Anderka y Stein señalando que su resultado experimental se logró utilizando "una sola aplicación de ESA (similitud de texto)" y "sólo una colección de prueba única, extremadamente pequeña y homogénea de 50 documentos de noticias". ^[1]

Aplicaciones

Relación de palabras

Sus autores consideran que la ESA es una medida de relación semántica (a diferencia de la similitud semántica ). En los conjuntos de datos utilizados para comparar la relación de las palabras, ESA supera a otros algoritmos, incluidas las medidas de similitud semántica de WordNet y el modelo de lenguaje de red neuronal skip-gram ( Word2vec ). ^[6]

Relación del documento

ESA se utiliza en paquetes de software comerciales para calcular la relación de documentos. ^[7] A veces se utilizan restricciones específicas de dominio en el modelo ESA para proporcionar una coincidencia de documentos más sólida. ^[8]

Extensiones

El análisis semántico explícito entre idiomas (CL-ESA) es una generalización multilingüe de ESA. ^[9] CL-ESA explota una colección de referencias multilingües alineadas con documentos (por ejemplo, nuevamente, Wikipedia) para representar un documento como un vector conceptual independiente del idioma. La relación de dos documentos en diferentes idiomas se evalúa mediante la similitud del coseno entre las representaciones vectoriales correspondientes.

Ver también

modelo de tema

Referencias

^ abcd Egozi, Ofer; Markovitch, Shaul; Gabrilovich, Evgeniy (2011). "Recuperación de información basada en conceptos mediante análisis semántico explícito" (PDF) . Transacciones ACM sobre sistemas de información . 29 (2): 1–34. doi :10.1145/1961209.1961211. S2CID 743663 . Consultado el 3 de enero de 2015 .
^ Gabrilovich, Evgeniy; Markovitch, Shaul (2006). Superar el cuello de botella de fragilidad con Wikipedia: mejorar la categorización de texto con conocimiento enciclopédico (PDF) . Proc. XXI Congreso Nacional de Inteligencia Artificial (AAAI). págs. 1301-1306.
^ ab Gabrilovich, Evgeniy; Markovitch, Shaul (2007). Calcular la relación semántica utilizando el análisis semántico explícito basado en Wikipedia (PDF) . Proc. 20ª Conferencia Conjunta Internacional. sobre Inteligencia Artificial (IJCAI). págs. 1606-1611.
^ Maik Anderka y Benno Stein. El modelo de recuperación de la ESA revisado Archivado el 10 de junio de 2012 en Wayback Machine . Actas de la 32ª Conferencia Internacional ACM sobre Investigación y Desarrollo en Recuperación de Información (SIGIR), págs. 670-671, 2009.
^ Thomas Gottron, Maik Anderka y Benno Stein. Información sobre el análisis semántico explícito Archivado el 10 de junio de 2012 en Wayback Machine . Actas de la 20ª Conferencia Internacional ACM sobre Gestión de la Información y el Conocimiento (CIKM), págs. 1961-1964, 2011.
^ Kliegr, Tomáš y Ondřej Zamazal. Los antónimos son similares: Hacia un enfoque de asociación paradigmática para calificar la similitud en SimLex-999 y WordSim-353. Ingeniería de datos y conocimiento 115 (2018): 174-193. (la fuente puede ser de pago, espejo)
^ Marc Hornick (17 de noviembre de 2017). "Análisis semántico explícito (ESA) para análisis de texto". blogs.oracle.com . Consultado el 31 de marzo de 2023 .
^ Luca Mazzola, Patrick Siegfried, Andreas Waldis, Michael Kaufmann, Alexander Denzler. Un enfoque inspirado en la ESA de un dominio específico para la descripción semántica de documentos. Actas de la novena IEEE Conf. sobre Sistemas Inteligentes 2018 (IS), págs. 383-390, 2018.
^ Martin Potthast, Benno Stein y Maik Anderka. Un modelo de recuperación multilingüe basado en Wikipedia Archivado el 10 de junio de 2012 en Wayback Machine . Actas de la 30ª Conferencia europea sobre investigación de RI (ECIR), págs. 522-530, 2008.

enlaces externos

Análisis semántico explícito en la página de inicio de Evgeniy Gabrilovich; tiene enlaces a implementaciones