La simplificación de textos es una operación que se utiliza en el procesamiento del lenguaje natural para cambiar, mejorar, clasificar o procesar de otro modo un conjunto de textos legibles por humanos, de modo que su gramática y estructura se simplifiquen en gran medida, mientras que el significado y la información subyacentes siguen siendo los mismos. La simplificación de textos es un área de investigación importante debido a las necesidades de comunicación en un mundo cada vez más complejo e interconectado, más dominado por la ciencia, la tecnología y los nuevos medios. Pero los lenguajes humanos naturales plantean enormes problemas porque, por lo general, contienen vocabularios extensos y construcciones complejas que las máquinas, por rápidas y bien programadas que sean, no pueden procesar fácilmente. Sin embargo, los investigadores han descubierto que, para reducir la diversidad lingüística, pueden utilizar métodos de compresión semántica para limitar y simplificar un conjunto de palabras utilizadas en determinados textos.
La simplificación de textos se ilustra con un ejemplo utilizado por Siddharthan (2006). [1] La primera oración contiene dos cláusulas relativas y una frase verbal unida. Un sistema de simplificación de textos tiene como objetivo transformar la primera oración en un grupo de oraciones más simples, como se ve justo debajo de la primera oración.
Un enfoque para simplificar el texto es la simplificación léxica mediante la sustitución léxica , un proceso de dos pasos que consiste en identificar primero las palabras complejas y luego reemplazarlas por sinónimos más simples. Un desafío clave aquí es identificar palabras complejas, lo que se realiza mediante un clasificador de aprendizaje automático entrenado con datos etiquetados . Los investigadores, frustrados por los problemas con el uso del método clásico de pedir a los sujetos de investigación que describan las palabras como simples o complejas, han descubierto que pueden obtener una mayor consistencia en más niveles de complejidad si piden a los etiquetadores que ordenen las palabras que se les presentan en orden de complejidad. [2]