La normalización de texto es el proceso de transformar el texto en una única forma canónica que antes no tenía. La normalización del texto antes de almacenarlo o procesarlo permite separar las preocupaciones , ya que se garantiza que la entrada sea consistente antes de que se realicen operaciones en ella. La normalización de texto requiere saber qué tipo de texto se va a normalizar y cómo se va a procesar después; no existe un procedimiento de normalización para todo uso. [1]
La normalización de texto se utiliza con frecuencia al convertir texto a voz . Los números , las fechas , las siglas y las abreviaturas son "palabras" no estándar que deben pronunciarse de forma diferente según el contexto. [2] Por ejemplo:
El texto también se puede normalizar para almacenarlo y buscarlo en una base de datos. Por ejemplo, si una búsqueda de "currículum" debe coincidir con la palabra "currículum", entonces el texto se normalizaría eliminando los signos diacríticos ; y si "john" debe coincidir con "John", el texto se convertiría a una sola mayúscula . Para preparar el texto para la búsqueda, también se puede convertir en una raíz (por ejemplo, convirtiendo "flew" y "flying" en "fly"), se puede canonizar (por ejemplo, utilizando de manera consistente la ortografía del inglés americano o británico ) o se pueden eliminar las palabras vacías .
Para una normalización simple e independiente del contexto, como la eliminación de caracteres no alfanuméricos o marcas diacríticas , bastarían las expresiones regulares . Por ejemplo, el script sed normalizaría secuencias de caracteres en blanco en un solo espacio. Una normalización más compleja requiere algoritmos correspondientemente complicados, incluido el conocimiento del dominio del idioma y el vocabulario que se está normalizando. Entre otros enfoques, la normalización de texto se ha modelado como un problema de tokenización y etiquetado de flujos de texto [5] y como un caso especial de traducción automática. [6] [7]sed ‑e "s/\s+/ /g" inputfile
En el campo de la investigación textual y la edición de textos históricos, el término "normalización" implica un grado de modernización y estandarización, por ejemplo, en la extensión de las abreviaturas de los copistas y la transliteración de los glifos arcaicos que se encuentran típicamente en los manuscritos y las fuentes impresas tempranas. Por lo tanto, una edición normalizada se distingue de una edición diplomática (o edición semidiplomática ), en la que se hace algún intento por preservar estas características. El objetivo es lograr un equilibrio apropiado entre, por un lado, la fidelidad rigurosa al texto original (incluyendo, por ejemplo, la preservación de elementos enigmáticos y ambiguos); y, por otro, producir un nuevo texto que sea comprensible y accesible para el lector moderno. Por lo tanto, el grado de normalización queda a discreción del editor y variará. Algunos editores, por ejemplo, optan por modernizar la ortografía y la puntuación arcaicas, pero otros no lo hacen. [8]