Normalización de texto

La normalización del texto es el proceso de transformar el texto en una forma canónica única que quizás no hubiera tenido antes. Normalizar el texto antes de almacenarlo o procesarlo permite separar las preocupaciones , ya que se garantiza que la entrada será consistente antes de que se realicen operaciones en él. La normalización de texto requiere ser consciente de qué tipo de texto se va a normalizar y cómo se va a procesar posteriormente; no existe un procedimiento de normalización universal. ^[1]

Aplicaciones

La normalización de texto se utiliza con frecuencia al convertir texto a voz . Los números , las fechas , las siglas y las abreviaturas son "palabras" no estándar que deben pronunciarse de manera diferente según el contexto. ^[2] Por ejemplo:

"$200" se pronunciaría como "doscientos dólares" en inglés, pero como "lua selau tālā" en samoano. ^[3]
"vi" podría pronunciarse como " vie ", " vee " o " the six " dependiendo de las palabras que la rodean. ^[4]

El texto también se puede normalizar para almacenarlo y buscarlo en una base de datos. Por ejemplo, si una búsqueda de "currículum" debe coincidir con la palabra "currículum", entonces el texto se normalizaría eliminando los signos diacríticos ; y si "john" coincide con "John", el texto se convertirá a un solo caso . Para preparar el texto para la búsqueda, también se le puede derivar (por ejemplo, convertir "flew" y "flying" en "fly"), canonicalizarlo (por ejemplo, usar consistentemente la ortografía del inglés americano o británico ) o eliminar las palabras vacías .

Técnicas

Para una normalización simple e independiente del contexto, como eliminar caracteres no alfanuméricos o signos diacríticos , las expresiones regulares serían suficientes. Por ejemplo, el script sed normalizaría ejecuciones de caracteres de espacios en blanco en un solo espacio. Una normalización más compleja requiere algoritmos correspondientemente complicados, incluido el conocimiento del dominio del lenguaje y el vocabulario que se normaliza. Entre otros enfoques, la normalización del texto se ha modelado como un problema de tokenización y etiquetado de flujos de texto ^[5] y como un caso especial de traducción automática. ^[6]^[7]sed ‑e "s/\s+/ /g" inputfile

Beca textual

En el campo de la erudición textual y la edición de textos históricos, el término "normalización" implica un grado de modernización y estandarización, por ejemplo en la extensión de las abreviaturas de los escribas y la transliteración de los glifos arcaicos que se encuentran típicamente en manuscritos y fuentes impresas antiguas. Por tanto, una edición normalizada se distingue de una edición diplomática (o edición semidiplomática ), en la que se intenta preservar estas características. El objetivo es lograr un equilibrio adecuado entre, por un lado, una fidelidad rigurosa al texto fuente (incluida, por ejemplo, la preservación de elementos enigmáticos y ambiguos); y, por el otro, producir un texto nuevo que sea comprensible y accesible para el lector moderno. Por lo tanto, el grado de normalización queda a discreción del editor y variará. Algunos editores, por ejemplo, optan por modernizar la ortografía y la puntuación arcaicas, pero otros no. ^[8]

Ver también

Referencias

^ Richard Sproat y Steven Bedrick (septiembre de 2011). "CS506/606: Texto Nrmlztn" . Consultado el 2 de octubre de 2012 .
^ Sproat, R.; Negro, A.; Chen, S.; Kumar, S.; Ostendorf, M.; Richards, C. (2001). "Normalización de palabras no estándar". Habla y lenguaje informático 15 ; 287–333. doi :10.1006/csla.2001.0169.
^ "Números de Samoa". MisIdiomas.org . Consultado el 2 de octubre de 2012 .
^ "Normalización de texto de motores de texto a voz". MSDN . Consultado el 2 de octubre de 2012 .
^ Zhu, C.; Tang, J.; Li, H.; Ng, H.; Zhao, T. (2007). "Un enfoque de etiquetado unificado para la normalización de texto". Actas de la 45ª Reunión Anual de la Asociación de Lingüística Computacional ; 688–695. doi : 10.1.1.72.8138.
^ Filip, G.; Krzysztof, J.; Agnieszka, W.; Mikołaj, W. (2006). "La normalización de texto como caso especial de traducción automática". Actas de la Multiconferencia Internacional sobre Ciencias de la Computación y Tecnología de la Información 1 ; 51–56.
^ Mosquera, A.; Lloret, E.; Moreda, P. (2012). "Hacia facilitar la accesibilidad de los textos Web 2.0 a través de la normalización del texto" Actas del taller LREC: Procesamiento del lenguaje natural para mejorar la accesibilidad textual (NLP4ITA) ; 9-14
^ Harvey, PDA (2001). Edición de Registros Históricos . Londres: Biblioteca Británica. págs. 40–46. ISBN 0-7123-4684-8.