La normalización del texto es el proceso de transformar el texto en una forma canónica única que quizás no hubiera tenido antes. Normalizar el texto antes de almacenarlo o procesarlo permite separar las preocupaciones , ya que se garantiza que la entrada será consistente antes de que se realicen operaciones en él. La normalización de texto requiere ser consciente de qué tipo de texto se va a normalizar y cómo se va a procesar posteriormente; no existe un procedimiento de normalización universal. [1]
La normalización de texto se utiliza con frecuencia al convertir texto a voz . Los números , las fechas , las siglas y las abreviaturas son "palabras" no estándar que deben pronunciarse de manera diferente según el contexto. [2] Por ejemplo:
El texto también se puede normalizar para almacenarlo y buscarlo en una base de datos. Por ejemplo, si una búsqueda de "currículum" debe coincidir con la palabra "currículum", entonces el texto se normalizaría eliminando los signos diacríticos ; y si "john" coincide con "John", el texto se convertirá a un solo caso . Para preparar el texto para la búsqueda, también se le puede derivar (por ejemplo, convertir "flew" y "flying" en "fly"), canonicalizarlo (por ejemplo, usar consistentemente la ortografía del inglés americano o británico ) o eliminar las palabras vacías .
Para una normalización simple e independiente del contexto, como eliminar caracteres no alfanuméricos o signos diacríticos , las expresiones regulares serían suficientes. Por ejemplo, el script sed normalizaría ejecuciones de caracteres de espacios en blanco en un solo espacio. Una normalización más compleja requiere algoritmos correspondientemente complicados, incluido el conocimiento del dominio del lenguaje y el vocabulario que se normaliza. Entre otros enfoques, la normalización del texto se ha modelado como un problema de tokenización y etiquetado de flujos de texto [5] y como un caso especial de traducción automática. [6] [7]sed ‑e "s/\s+/ /g" inputfile
En el campo de la erudición textual y la edición de textos históricos, el término "normalización" implica un grado de modernización y estandarización, por ejemplo en la extensión de las abreviaturas de los escribas y la transliteración de los glifos arcaicos que se encuentran típicamente en manuscritos y fuentes impresas antiguas. Por tanto, una edición normalizada se distingue de una edición diplomática (o edición semidiplomática ), en la que se intenta preservar estas características. El objetivo es lograr un equilibrio adecuado entre, por un lado, una fidelidad rigurosa al texto fuente (incluida, por ejemplo, la preservación de elementos enigmáticos y ambiguos); y, por el otro, producir un texto nuevo que sea comprensible y accesible para el lector moderno. Por lo tanto, el grado de normalización queda a discreción del editor y variará. Algunos editores, por ejemplo, optan por modernizar la ortografía y la puntuación arcaicas, pero otros no. [8]