La secuencia entre palabras ordenadas semánticamente relacionadas se clasifica como una cadena léxica . [1] Una cadena léxica es una secuencia de palabras relacionadas en la escritura , que abarca una ventana de contexto estrecha (palabras u oraciones adyacentes ) o amplia (texto completo). Una cadena léxica es independiente de la estructura gramatical del texto y, en efecto, es una lista de palabras que captura una parte de la estructura cohesiva del texto. Una cadena léxica puede proporcionar un contexto para la resolución de un término ambiguo y permitir la desambiguación de los conceptos que el término representa.
Morris y Hirst [1] introducen el término cadena léxica como una expansión de la cohesión léxica . [2] Un texto en el que muchas de sus oraciones están conectadas semánticamente a menudo produce un cierto grado de continuidad en sus ideas, lo que proporciona una buena cohesión entre sus oraciones. La definición utilizada para la cohesión léxica establece que la coherencia es un resultado de la cohesión, no al revés. [2] [3] La cohesión se relaciona con un conjunto de palabras que pertenecen juntas debido a una relación abstracta o concreta. La coherencia, por otro lado, se relaciona con el significado real en todo el texto. [1]
Morris y Hirst [1] definen que las cadenas léxicas hacen uso del contexto semántico para interpretar palabras, conceptos y oraciones. En cambio, la cohesión léxica se centra más en las relaciones entre pares de palabras. Las cadenas léxicas extienden esta noción a un número de serie de palabras adyacentes. Hay dos razones principales por las que las cadenas léxicas son esenciales: [1]
El método presentado por Morris y Hirst [1] es el primero en llevar el concepto de cohesión léxica a los sistemas informáticos a través de cadenas léxicas. Utilizando su intuición, identificaron cadenas léxicas en documentos de texto y construyeron su estructura considerando las observaciones de Halliday y Hassan [2] . Para esta tarea, consideraron cinco documentos de texto, con un total de 183 oraciones de fuentes diferentes y no específicas. Las palabras repetitivas (por ejemplo, palabras de alta frecuencia, pronombres, proposiciones, auxiliares verbales) no se consideraron como posibles elementos de la cadena, ya que no aportan mucho valor semántico a la estructura por sí mismas.
Las cadenas léxicas se construyen de acuerdo con una serie de relaciones entre las palabras de un documento de texto. En el trabajo seminal de Morris y Hirst [1], consideran un tesauro externo ( Roget's Thesaurus ) como su base de datos léxica para extraer estas relaciones. Una cadena léxica está formada por una secuencia de palabras que aparecen en este orden, de modo que dos palabras consecutivas cualesquiera presenten las siguientes propiedades (es decir, atributos como categoría , índices y punteros en la base de datos léxica) : [1] [4]
El uso de cadenas léxicas en tareas de procesamiento del lenguaje natural (por ejemplo, similitud de texto, desambiguación del sentido de las palabras , agrupamiento de documentos ) ha sido ampliamente estudiado en la literatura. Barzilay et al [5] utilizan cadenas léxicas para producir resúmenes de textos. Proponen una técnica basada en cuatro pasos: segmentación del texto original, construcción de cadenas léxicas, identificación de cadenas confiables y extracción de oraciones significativas. Silber y McCoy [6] también investigan el resumen de texto , pero su enfoque para construir las cadenas léxicas se ejecuta en tiempo lineal.
Algunos autores utilizan WordNet [7] [8] para mejorar la búsqueda y evaluación de cadenas léxicas. Budanitsky y Kirst [9] [10] comparan varias mediciones de distancia semántica y parentesco utilizando cadenas léxicas junto con WordNet . Su estudio concluye que la medida de similitud de Jiang y Conrath [11] presenta el mejor resultado general. Moldovan y Adrian [12] estudian el uso de cadenas léxicas para encontrar palabras relacionadas tópicamente para sistemas de respuesta a preguntas . Esto se hace considerando las glosas para cada synset en WordNet. Según sus hallazgos, las relaciones tópicas a través de cadenas léxicas mejoran el rendimiento de los sistemas de respuesta a preguntas cuando se combinan con WordNet . McCarthy et al. [13] presentan una metodología para categorizar y encontrar los synsets más predominantes en textos no etiquetados utilizando WordNet . A diferencia de los enfoques tradicionales (por ejemplo, BOW ), consideran las relaciones entre términos que no ocurren explícitamente. Ercan y Cicekli [14] exploran los efectos de las cadenas léxicas en la tarea de extracción de palabras clave a través de una perspectiva de aprendizaje automático supervisado. En Wei et al. [15], combinan cadenas léxicas y WordNet para extraer un conjunto de palabras semánticamente relacionadas de los textos y las utilizan para la agrupación. Su enfoque utiliza una estructura jerárquica ontológica para proporcionar una evaluación más precisa de la similitud entre términos durante la tarea de desambiguación del sentido de las palabras .
Aunque la aplicabilidad de las cadenas léxicas es diversa, hay poco trabajo que las explore con los avances recientes en NLP, más específicamente con incrustaciones de palabras . En, [16] se construyen cadenas léxicas utilizando patrones específicos encontrados en WordNet [7] y se usan para aprender incrustaciones de palabras . Sus vectores resultantes se validan en la tarea de similitud de documentos . Gonzales et al. [17] usan incrustaciones de sentido de palabras para producir cadenas léxicas que se integran con un modelo de traducción automática neuronal. Mascarelli [18] propone un modelo que usa cadenas léxicas para aprovechar la traducción automática estadística mediante un codificador de documentos. En lugar de usar una base de datos léxica externa, usan incrustaciones de palabras para detectar las cadenas léxicas en el texto fuente.
Ruas et al. [4] proponen dos técnicas que combinan bases de datos léxicas , cadenas léxicas e incrustaciones de palabras , a saber, Cadena Léxica Flexible II (FLLC II) y Cadena Léxica Fija II (FXLC II). El objetivo principal tanto de FLLC II como de FXLC II es representar una colección de palabras por sus valores semánticos de forma más concisa. En FLLC II, las cadenas léxicas se ensamblan dinámicamente de acuerdo con el contenido semántico de cada término evaluado y la relación con sus vecinos adyacentes. Siempre que exista una relación semántica que conecte dos o más palabras, deben combinarse en un concepto único. La relación semántica se obtiene a través de WordNet , que trabaja una verdad fundamental para indicar qué estructura léxica conecta dos palabras (por ejemplo, hiperónimos, hipónimos, merónimos). Si se presenta una palabra sin ninguna afinidad semántica con la cadena actual, se inicializa una nueva cadena léxica. Por otra parte, FXLC II divide los segmentos de texto en fragmentos predefinidos, con un número específico de palabras cada uno. A diferencia de FLLC II, la técnica FXLC II agrupa una cierta cantidad de palabras en la misma estructura, independientemente de la relación semántica expresada en la base de datos léxica. En ambos métodos, cada cadena formada está representada por la palabra cuyo vector de incrustación de palabras entrenado previamente es más similar al vector promedio de las palabras constituyentes de esa misma cadena.
{{cite journal}}
: Requiere citar revista |journal=
( ayuda ){{cite book}}
: Mantenimiento de CS1: otros ( enlace ){{cite web}}
: CS1 maint: location (link){{cite journal}}
: CS1 maint: multiple names: authors list (link)