Cadena léxica

La secuencia entre palabras ordenadas semánticamente relacionadas se clasifica como una cadena léxica . ^[1] Una cadena léxica es una secuencia de palabras relacionadas en la escritura , que abarca una ventana de contexto estrecha (palabras u oraciones adyacentes ) o amplia (texto completo). Una cadena léxica es independiente de la estructura gramatical del texto y, en efecto, es una lista de palabras que captura una parte de la estructura cohesiva del texto. Una cadena léxica puede proporcionar un contexto para la resolución de un término ambiguo y permitir la desambiguación de los conceptos que el término representa.

Roma → capital → ciudad → habitante
Wikipedia → recurso → web

Acerca de

Morris y Hirst ^[1] introducen el término cadena léxica como una expansión de la cohesión léxica .^[2] Un texto en el que muchas de sus oraciones están conectadas semánticamente a menudo produce un cierto grado de continuidad en sus ideas, lo que proporciona una buena cohesión entre sus oraciones. La definición utilizada para la cohesión léxica establece que la coherencia es un resultado de la cohesión, no al revés. ^[2]^[3] La cohesión se relaciona con un conjunto de palabras que pertenecen juntas debido a una relación abstracta o concreta. La coherencia, por otro lado, se relaciona con el significado real en todo el texto. ^[1]

Morris y Hirst ^[1] definen que las cadenas léxicas hacen uso del contexto semántico para interpretar palabras, conceptos y oraciones. En cambio, la cohesión léxica se centra más en las relaciones entre pares de palabras. Las cadenas léxicas extienden esta noción a un número de serie de palabras adyacentes. Hay dos razones principales por las que las cadenas léxicas son esenciales: ^[1]

Contexto factible para ayudar en la resolución de problemas de ambigüedad y de limitación a un significado específico de una palabra; y
Pistas para determinar la coherencia y el discurso, y por tanto un significado semántico-estructural más profundo del texto.

El método presentado por Morris y Hirst ^[1] es el primero en llevar el concepto de cohesión léxica a los sistemas informáticos a través de cadenas léxicas. Utilizando su intuición, identificaron cadenas léxicas en documentos de texto y construyeron su estructura considerando las observaciones de Halliday y Hassan ^[2] . Para esta tarea, consideraron cinco documentos de texto, con un total de 183 oraciones de fuentes diferentes y no específicas. Las palabras repetitivas (por ejemplo, palabras de alta frecuencia, pronombres, proposiciones, auxiliares verbales) no se consideraron como posibles elementos de la cadena, ya que no aportan mucho valor semántico a la estructura por sí mismas.

Las cadenas léxicas se construyen de acuerdo con una serie de relaciones entre las palabras de un documento de texto. En el trabajo seminal de Morris y Hirst ^[1], consideran un tesauro externo ( Roget's Thesaurus ) como su base de datos léxica para extraer estas relaciones. Una cadena léxica está formada por una secuencia de palabras que aparecen en este orden, de modo que dos palabras consecutivas cualesquiera presenten las siguientes propiedades (es decir, atributos como categoría , índices y punteros en la base de datos léxica) : ^[1]^[4] $w_{1},w_{2},\dotsc,w_{n}$ $estilo de visualización w_{i},w_{i+1}}$

dos palabras comparten una categoría común en su índice;
la categoría de una de estas palabras apunta a la otra palabra;
una de las palabras pertenece a la entrada o categoría de la otra palabra;
dos palabras están relacionadas semánticamente; y
Sus categorías concuerdan en una categoría común.

Enfoques y métodos

El uso de cadenas léxicas en tareas de procesamiento del lenguaje natural (por ejemplo, similitud de texto, desambiguación del sentido de las palabras , agrupamiento de documentos ) ha sido ampliamente estudiado en la literatura. Barzilay et al ^[5] utilizan cadenas léxicas para producir resúmenes de textos. Proponen una técnica basada en cuatro pasos: segmentación del texto original, construcción de cadenas léxicas, identificación de cadenas confiables y extracción de oraciones significativas. Silber y McCoy ^[6] también investigan el resumen de texto , pero su enfoque para construir las cadenas léxicas se ejecuta en tiempo lineal.

Algunos autores utilizan WordNet ^[7]^[8] para mejorar la búsqueda y evaluación de cadenas léxicas. Budanitsky y Kirst ^[9]^[10] comparan varias mediciones de distancia semántica y parentesco utilizando cadenas léxicas junto con WordNet . Su estudio concluye que la medida de similitud de Jiang y Conrath ^[11] presenta el mejor resultado general. Moldovan y Adrian ^[12] estudian el uso de cadenas léxicas para encontrar palabras relacionadas tópicamente para sistemas de respuesta a preguntas . Esto se hace considerando las glosas para cada synset en WordNet. Según sus hallazgos, las relaciones tópicas a través de cadenas léxicas mejoran el rendimiento de los sistemas de respuesta a preguntas cuando se combinan con WordNet . McCarthy et al. ^[13] presentan una metodología para categorizar y encontrar los synsets más predominantes en textos no etiquetados utilizando WordNet . A diferencia de los enfoques tradicionales (por ejemplo, BOW ), consideran las relaciones entre términos que no ocurren explícitamente. Ercan y Cicekli ^[14] exploran los efectos de las cadenas léxicas en la tarea de extracción de palabras clave a través de una perspectiva de aprendizaje automático supervisado. En Wei et al. ^[15], combinan cadenas léxicas y WordNet para extraer un conjunto de palabras semánticamente relacionadas de los textos y las utilizan para la agrupación. Su enfoque utiliza una estructura jerárquica ontológica para proporcionar una evaluación más precisa de la similitud entre términos durante la tarea de desambiguación del sentido de las palabras .

Cadena léxica e incrustación de palabras

Aunque la aplicabilidad de las cadenas léxicas es diversa, hay poco trabajo que las explore con los avances recientes en NLP, más específicamente con incrustaciones de palabras . En, ^[16] se construyen cadenas léxicas utilizando patrones específicos encontrados en WordNet ^[7] y se usan para aprender incrustaciones de palabras . Sus vectores resultantes se validan en la tarea de similitud de documentos . Gonzales et al. ^[17] usan incrustaciones de sentido de palabras para producir cadenas léxicas que se integran con un modelo de traducción automática neuronal. Mascarelli ^[18] propone un modelo que usa cadenas léxicas para aprovechar la traducción automática estadística mediante un codificador de documentos. En lugar de usar una base de datos léxica externa, usan incrustaciones de palabras para detectar las cadenas léxicas en el texto fuente.

Ruas et al. ^[4] proponen dos técnicas que combinan bases de datos léxicas , cadenas léxicas e incrustaciones de palabras , a saber, Cadena Léxica Flexible II (FLLC II) y Cadena Léxica Fija II (FXLC II). El objetivo principal tanto de FLLC II como de FXLC II es representar una colección de palabras por sus valores semánticos de forma más concisa. En FLLC II, las cadenas léxicas se ensamblan dinámicamente de acuerdo con el contenido semántico de cada término evaluado y la relación con sus vecinos adyacentes. Siempre que exista una relación semántica que conecte dos o más palabras, deben combinarse en un concepto único. La relación semántica se obtiene a través de WordNet , que trabaja una verdad fundamental para indicar qué estructura léxica conecta dos palabras (por ejemplo, hiperónimos, hipónimos, merónimos). Si se presenta una palabra sin ninguna afinidad semántica con la cadena actual, se inicializa una nueva cadena léxica. Por otra parte, FXLC II divide los segmentos de texto en fragmentos predefinidos, con un número específico de palabras cada uno. A diferencia de FLLC II, la técnica FXLC II agrupa una cierta cantidad de palabras en la misma estructura, independientemente de la relación semántica expresada en la base de datos léxica. En ambos métodos, cada cadena formada está representada por la palabra cuyo vector de incrustación de palabras entrenado previamente es más similar al vector promedio de las palabras constituyentes de esa misma cadena.

Véase también

Referencias

^ abcdefgh MorrisJane; HirstGraeme (1991-03-01). "Cohesión léxica calculada mediante relaciones tesaurales como indicador de la estructura del texto". Lingüística computacional .
^ abc Halliday, Michael Alexander Kirkwood (1976). Cohesión en inglés . Hasan, Ruqaiya. Londres: Longman. ISBN 0-582-55031-9.OCLC 2323723 .
^ Carrell, Patricia L. (1982). "La cohesión no es coherencia". TESOL Quarterly . 16 (4): 479–488. doi :10.2307/3586466. ISSN 0039-8322. JSTOR 3586466.
^ ab Ruas, Terry; Ferreira, Charles Henrique Porto; Grosky, William; de Francia, Fabricio Olivetti; de Medeiros, Débora María Rossi (01/09/2020). "Incrustaciones de palabras mejoradas mediante representación multisemántica a través de cadenas léxicas". Ciencias de la Información . 532 : 16–32. arXiv : 2101.09023 . doi : 10.1016/j.ins.2020.04.048. ISSN 0020-0255. S2CID 218954068.
^ Barzilay, Regina; McKeown, Kathleen R.; Elhadad, Michael (1999). "Fusión de información en el contexto de la síntesis de múltiples documentos". Actas de la 37.ª reunión anual de la Asociación de Lingüística Computacional sobre Lingüística Computacional . College Park, Maryland: Asociación de Lingüística Computacional: 550–557. doi : 10.3115/1034678.1034760 . ISBN . 1558606092.
^ Silber, Gregory; McCoy, Kathleen (2001). "Resumen de texto eficiente utilizando cadenas léxicas | Actas de la quinta conferencia internacional sobre interfaces de usuario inteligentes": 252–255. doi :10.1145/325737.325861. S2CID 8403554. {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ ab "WordNet | Una base de datos léxica para inglés". wordnet.princeton.edu . Consultado el 20 de mayo de 2020 .
^ WordNet: una base de datos léxica electrónica . Fellbaum, Christiane. Cambridge, Masa: MIT Press. 1998.ISBN 0-262-06197-X.OCLC 38104682 .{{cite book}}: Mantenimiento de CS1: otros ( enlace )
^ Budanitsky, Alexander; Hirst, Graeme (2001). "Distancia semántica en WordNet: una evaluación experimental y orientada a la aplicación de cinco medidas" (PDF) . Actas del taller sobre WordNet y otros recursos léxicos, segunda reunión del Capítulo norteamericano de la Asociación de Lingüística Computacional (NAACL-2001). pp. 24–29 . Consultado el 20 de mayo de 2020 .{{cite web}}: CS1 maint: location (link)
^ Budanitsky, Alexander; Hirst, Graeme (2006). "Evaluación de medidas basadas en WordNet de relación semántica léxica". Computational Linguistics . 32 (1): 13–47. doi : 10.1162/coli.2006.32.1.13 . ISSN 0891-2017. S2CID 838777.
^ Jiang, Jay J.; Conrath, David W. (20 de septiembre de 1997). "Similitud semántica basada en estadísticas de corpus y taxonomía léxica". arXiv : cmp-lg/9709008 .
^ Moldovan, Dan; Novischi, Adrian (2002). "Cadenas léxicas para la respuesta a preguntas". Actas de la 19.ª conferencia internacional sobre lingüística computacional - . Vol. 1. Taipei, Taiwán: Asociación de Lingüística Computacional. págs. 1–7. doi : 10.3115/1072228.1072395 .
^ McCarthy, Diana; Koeling, Rob; Weeds, Julie; Carroll, John (2004). "Encontrar los sentidos predominantes de las palabras en textos no etiquetados". Actas de la 42.ª Reunión Anual de la Asociación de Lingüística Computacional - ACL '04 . Barcelona, España: Asociación de Lingüística Computacional: 279–es. doi : 10.3115/1218955.1218991 .
^ Ercan, Gonenc; Cicekli, Ilyas (2007). "Uso de cadenas léxicas para la extracción de palabras clave". Procesamiento y gestión de la información . 43 (6): 1705–1714. doi :10.1016/j.ipm.2007.01.015. hdl : 11693/23343 .
^ Wei, Tingting; Lu, Yonghe; Chang, Huiyou; Zhou, Qiang; Bao, Xianyu (2015). "Un enfoque semántico para la agrupación de textos utilizando WordNet y cadenas léxicas". Expert Systems with Applications . 42 (4): 2264–2275. doi : 10.1016/j.eswa.2014.10.023 .
^ Departamento de Modelado Lingüístico y Procesamiento del Conocimiento, Instituto de Tecnología de la Información y la Comunicación, Academia Búlgara de Ciencias; Simov, Kiril; Boytcheva, Svetla; Osenova, Petya (10 de noviembre de 2017). "Hacia cadenas léxicas para incrustaciones de palabras basadas en gráficos de conocimiento" (PDF) . RANLP 2017 - Avances recientes en el procesamiento del lenguaje natural se encuentran con el aprendizaje profundo . Incoma Ltd. Shoumen, Bulgaria: 679–685. doi : 10.26615/978-954-452-049-6_087 . ISBN 978-954-452-049-6.S2CID 41952796 .{{cite journal}}: CS1 maint: multiple names: authors list (link)
^ Rios Gonzales, Annette; Mascarell, Laura; Sennrich, Rico (2017). "Mejora de la desambiguación del sentido de las palabras en la traducción automática neuronal con incrustaciones de sentido". Actas de la Segunda Conferencia sobre Traducción Automática . Copenhague, Dinamarca: Asociación de Lingüística Computacional. págs. 11–19. doi : 10.18653/v1/W17-4702 .
^ Mascarell, Laura (2017). "Las cadenas léxicas se encuentran con las incrustaciones de palabras en la traducción automática estadística a nivel de documento". Actas del tercer taller sobre el discurso en la traducción automática . Copenhague, Dinamarca: Asociación de Lingüística Computacional: 99–109. doi : 10.18653/v1/W17-4813 .