stringtranslate.com

Simplificación de texto

La simplificación de texto es una operación utilizada en el procesamiento del lenguaje natural para cambiar, mejorar, clasificar o procesar de otro modo un cuerpo existente de texto legible por humanos de modo que su gramática y estructura se simplifiquen enormemente mientras que el significado y la información subyacentes siguen siendo los mismos. La simplificación de textos es un área importante de investigación debido a las necesidades de comunicación en un mundo cada vez más complejo e interconectado, más dominado por la ciencia, la tecnología y los nuevos medios. Pero los lenguajes humanos naturales plantean enormes problemas porque normalmente contienen extensos vocabularios y construcciones complejas que las máquinas, por muy rápidas y bien programadas que sean, no pueden procesar fácilmente. Sin embargo, los investigadores han descubierto que, para reducir la diversidad lingüística, pueden utilizar métodos de compresión semántica para limitar y simplificar un conjunto de palabras utilizadas en textos determinados.

Ejemplo

La simplificación del texto se ilustra con un ejemplo utilizado por Siddharthan (2006). [1] La primera oración contiene dos cláusulas relativas y una frase verbal conjunta. Un sistema de simplificación de texto tiene como objetivo cambiar la primera oración en un grupo de oraciones más simples, como se ve justo debajo de la primera oración.

Un enfoque para la simplificación de textos es la simplificación léxica mediante sustitución léxica , un proceso de dos pasos que consiste en identificar primero palabras complejas y luego reemplazarlas con sinónimos más simples. Un desafío clave aquí es identificar palabras complejas, lo cual se realiza mediante un clasificador de aprendizaje automático entrenado en datos etiquetados . Los investigadores, frustrados por los problemas que plantea el uso del método clásico de pedir a los sujetos de investigación que describan palabras como simples o complejas, han descubierto que pueden obtener una mayor coherencia en más niveles de complejidad si piden a los etiquetadores que clasifiquen las palabras que se les presentan en orden. de complejidad. [2]

Ver también

Referencias

  1. ^ Siddharthan, Advaith (28 de marzo de 2006). "Simplificación sintáctica y cohesión del texto". Investigación sobre Lenguaje y Computación . 4 (1): 77-109. doi :10.1007/s11168-006-9011-1. S2CID  14619244.
  2. ^ Bien, Sian; Kochmar, Ekaterina; Sarkar, Advait; Blackwell, Alan (agosto de 2019). "Los juicios comparativos son más consistentes que la clasificación binaria para etiquetar la complejidad de las palabras". Actas del XIII Taller de Anotación Lingüística : 208–214. doi : 10.18653/v1/W19-4024 . Consultado el 22 de noviembre de 2019 .

enlaces externos