Simplificación de texto

La simplificación de textos es una operación que se utiliza en el procesamiento del lenguaje natural para cambiar, mejorar, clasificar o procesar de otro modo un conjunto de textos legibles por humanos, de modo que su gramática y estructura se simplifiquen en gran medida, mientras que el significado y la información subyacentes siguen siendo los mismos. La simplificación de textos es un área de investigación importante debido a las necesidades de comunicación en un mundo cada vez más complejo e interconectado, más dominado por la ciencia, la tecnología y los nuevos medios. Pero los lenguajes humanos naturales plantean enormes problemas porque, por lo general, contienen vocabularios extensos y construcciones complejas que las máquinas, por rápidas y bien programadas que sean, no pueden procesar fácilmente. Sin embargo, los investigadores han descubierto que, para reducir la diversidad lingüística, pueden utilizar métodos de compresión semántica para limitar y simplificar un conjunto de palabras utilizadas en determinados textos.

Ejemplo

La simplificación de textos se ilustra con un ejemplo utilizado por Siddharthan (2006). ^[1] La primera oración contiene dos cláusulas relativas y una frase verbal unida. Un sistema de simplificación de textos tiene como objetivo transformar la primera oración en un grupo de oraciones más simples, como se ve justo debajo de la primera oración.

También contribuyó a la firmeza del cobre, señaló el analista, un informe de los agentes de compras de Chicago, que precede al informe completo de los agentes de compras que se publicará hoy y da una indicación de lo que podría contener el informe completo.
El analista señaló que también contribuyó a la firmeza del cobre un informe de los agentes de compras de Chicago. El informe de Chicago precede al informe completo de los agentes de compras. El informe de Chicago da una indicación de lo que podría decir el informe completo. El informe completo se publicará hoy.

Un enfoque para simplificar el texto es la simplificación léxica mediante la sustitución léxica , un proceso de dos pasos que consiste en identificar primero las palabras complejas y luego reemplazarlas por sinónimos más simples. Un desafío clave aquí es identificar palabras complejas, lo que se realiza mediante un clasificador de aprendizaje automático entrenado con datos etiquetados . Los investigadores, frustrados por los problemas con el uso del método clásico de pedir a los sujetos de investigación que describan las palabras como simples o complejas, han descubierto que pueden obtener una mayor consistencia en más niveles de complejidad si piden a los etiquetadores que ordenen las palabras que se les presentan en orden de complejidad. ^[2]

Véase también

Referencias

^ Siddharthan, Advaith (28 de marzo de 2006). "Simplificación sintáctica y cohesión textual". Investigación sobre lenguaje y computación . 4 (1): 77–109. doi :10.1007/s11168-006-9011-1. S2CID 14619244.
^ Gooding, Sian; Kochmar, Ekaterina; Sarkar, Advait; Blackwell, Alan (agosto de 2019). «Los juicios comparativos son más consistentes que la clasificación binaria para etiquetar la complejidad de las palabras». Actas del 13.º Taller de Anotación Lingüística : 208–214. doi : 10.18653/v1/W19-4024 . Consultado el 22 de noviembre de 2019 .

Wei Xu, Chris Callison-Burch y Courtney Napoles. "Problemas en la investigación actual sobre simplificación de textos". En Transactions of the Association for Computational Linguistics (TACL), volumen 3, 2015, páginas 283–297.
Advaith Siddharthan. "Simplificación sintáctica y cohesión textual". En Research on Language and Computation, volumen 4, número 1, junio de 2006, páginas 77-109, Springer Science, Países Bajos.
Siddhartha Jonnalagadda, Luis Tari, Joerg Hakenberg, Chitta Baral y Graciela Gonzalez. Hacia una simplificación eficaz de oraciones para el procesamiento automático de textos biomédicos. En Proc. of the NAACL-HLT 2009, Boulder, EE.UU., junio. [1]

Enlaces externos

Inducción automática de reglas para simplificación de textos 1996
Simplificación de textos para aplicaciones de búsqueda de información 2004