Simplificación de texto

La simplificación de texto es una operación utilizada en el procesamiento del lenguaje natural para cambiar, mejorar, clasificar o procesar de otro modo un cuerpo existente de texto legible por humanos de modo que su gramática y estructura se simplifiquen enormemente mientras que el significado y la información subyacentes siguen siendo los mismos. La simplificación de textos es un área importante de investigación debido a las necesidades de comunicación en un mundo cada vez más complejo e interconectado, más dominado por la ciencia, la tecnología y los nuevos medios. Pero los lenguajes humanos naturales plantean enormes problemas porque normalmente contienen extensos vocabularios y construcciones complejas que las máquinas, por muy rápidas y bien programadas que sean, no pueden procesar fácilmente. Sin embargo, los investigadores han descubierto que, para reducir la diversidad lingüística, pueden utilizar métodos de compresión semántica para limitar y simplificar un conjunto de palabras utilizadas en textos determinados.

Ejemplo

La simplificación del texto se ilustra con un ejemplo utilizado por Siddharthan (2006). ^[1] La primera oración contiene dos cláusulas relativas y una frase verbal conjunta. Un sistema de simplificación de texto tiene como objetivo cambiar la primera oración en un grupo de oraciones más simples, como se ve justo debajo de la primera oración.

El analista señaló que también contribuyó a la firmeza del cobre un informe de los agentes de compras de Chicago, que precede al informe completo de los agentes de compras que se publicará hoy y da una indicación de lo que podría contener el informe completo.
También contribuyó a la firmeza del cobre, señaló el analista, un informe de los agentes de compras de Chicago. El informe de Chicago precede al informe completo de los agentes de compras. El informe de Chicago da una idea de lo que podría contener el informe completo. El informe completo saldrá hoy.

Un enfoque para la simplificación de textos es la simplificación léxica mediante sustitución léxica , un proceso de dos pasos que consiste en identificar primero palabras complejas y luego reemplazarlas con sinónimos más simples. Un desafío clave aquí es identificar palabras complejas, lo cual se realiza mediante un clasificador de aprendizaje automático entrenado en datos etiquetados . Los investigadores, frustrados por los problemas que plantea el uso del método clásico de pedir a los sujetos de investigación que describan palabras como simples o complejas, han descubierto que pueden obtener una mayor coherencia en más niveles de complejidad si piden a los etiquetadores que clasifiquen las palabras que se les presentan en orden. de complejidad. ^[2]

Ver también

Referencias

^ Siddharthan, Advaith (28 de marzo de 2006). "Simplificación sintáctica y cohesión del texto". Investigación sobre Lenguaje y Computación . 4 (1): 77-109. doi :10.1007/s11168-006-9011-1. S2CID 14619244.
^ Bien, Sian; Kochmar, Ekaterina; Sarkar, Advait; Blackwell, Alan (agosto de 2019). "Los juicios comparativos son más consistentes que la clasificación binaria para etiquetar la complejidad de las palabras". Actas del XIII Taller de Anotación Lingüística : 208–214. doi : 10.18653/v1/W19-4024 . Consultado el 22 de noviembre de 2019 .

Wei Xu, Chris Callison-Burch y Courtney Nápoles. "Problemas en la investigación actual sobre simplificación de textos". En Transacciones de la Asociación de Lingüística Computacional (TACL), volumen 3, 2015, páginas 283–297.
Advaith Siddharthan. "Simplificación sintáctica y cohesión del texto". En Research on Language and Computation, volumen 4, número 1, junio de 2006, páginas 77–109, Springer Science, Países Bajos.
Siddhartha Jonnalagadda, Luis Tari, Joerg Hakenberg, Chitta Baral y Graciela González. Hacia una simplificación eficaz de las frases para el procesamiento automático de textos biomédicos. En Proc. del NAACL-HLT 2009, Boulder, EE.UU., junio. [1]

enlaces externos

Inducción automática de reglas para la simplificación de textos 1996
Simplificación de texto para aplicaciones de búsqueda de información 2004