stringtranslate.com

Normalización de texto

La normalización de texto es el proceso de transformar el texto en una única forma canónica que antes no tenía. La normalización del texto antes de almacenarlo o procesarlo permite separar las preocupaciones , ya que se garantiza que la entrada sea consistente antes de que se realicen operaciones en ella. La normalización de texto requiere saber qué tipo de texto se va a normalizar y cómo se va a procesar después; no existe un procedimiento de normalización para todo uso. [1]

Aplicaciones

La normalización de texto se utiliza con frecuencia al convertir texto a voz . Los números , las fechas , las siglas y las abreviaturas son "palabras" no estándar que deben pronunciarse de forma diferente según el contexto. [2] Por ejemplo:

El texto también se puede normalizar para almacenarlo y buscarlo en una base de datos. Por ejemplo, si una búsqueda de "currículum" debe coincidir con la palabra "currículum", entonces el texto se normalizaría eliminando los signos diacríticos ; y si "john" debe coincidir con "John", el texto se convertiría a una sola mayúscula . Para preparar el texto para la búsqueda, también se puede convertir en una raíz (por ejemplo, convirtiendo "flew" y "flying" en "fly"), se puede canonizar (por ejemplo, utilizando de manera consistente la ortografía del inglés americano o británico ) o se pueden eliminar las palabras vacías .

Técnicas

Para una normalización simple e independiente del contexto, como la eliminación de caracteres no alfanuméricos o marcas diacríticas , bastarían las expresiones regulares . Por ejemplo, el script sed normalizaría secuencias de caracteres en blanco en un solo espacio. Una normalización más compleja requiere algoritmos correspondientemente complicados, incluido el conocimiento del dominio del idioma y el vocabulario que se está normalizando. Entre otros enfoques, la normalización de texto se ha modelado como un problema de tokenización y etiquetado de flujos de texto [5] y como un caso especial de traducción automática. [6] [7]sed ‑e "s/\s+/ /g"  inputfile

Beca textual

En el campo de la investigación textual y la edición de textos históricos, el término "normalización" implica un grado de modernización y estandarización, por ejemplo, en la extensión de las abreviaturas de los copistas y la transliteración de los glifos arcaicos que se encuentran típicamente en los manuscritos y las fuentes impresas tempranas. Por lo tanto, una edición normalizada se distingue de una edición diplomática (o edición semidiplomática ), en la que se hace algún intento por preservar estas características. El objetivo es lograr un equilibrio apropiado entre, por un lado, la fidelidad rigurosa al texto original (incluyendo, por ejemplo, la preservación de elementos enigmáticos y ambiguos); y, por otro, producir un nuevo texto que sea comprensible y accesible para el lector moderno. Por lo tanto, el grado de normalización queda a discreción del editor y variará. Algunos editores, por ejemplo, optan por modernizar la ortografía y la puntuación arcaicas, pero otros no lo hacen. [8]

Véase también

Referencias

  1. ^ Richard Sproat y Steven Bedrick (septiembre de 2011). «CS506/606: Txt Nrmlztn» . Consultado el 2 de octubre de 2012 .
  2. ^ Sproat, R.; Black, A.; Chen, S.; Kumar, S.; Ostendorf, M.; Richards, C. (2001). "Normalización de palabras no estándar". Lenguaje y habla por computadora 15 ; 287–333. doi :10.1006/csla.2001.0169.
  3. ^ "Números samoanos". MyLanguages.org . Consultado el 2 de octubre de 2012 .
  4. ^ "Normalización de texto de motores de conversión de texto a voz". MSDN . Consultado el 2 de octubre de 2012 .
  5. ^ Zhu, C.; Tang, J.; Li, H.; Ng, H.; Zhao, T. (2007). "Un enfoque de etiquetado unificado para la normalización de texto". Actas de la 45.ª reunión anual de la Asociación de Lingüística Computacional ; 688–695. doi :10.1.1.72.8138.
  6. ^ Filip, G.; Krzysztof, J.; Agnieszka, W.; Mikołaj, W. (2006). "La normalización de texto como un caso especial de traducción automática". Actas de la Multiconferencia Internacional sobre Ciencias de la Computación y Tecnología de la Información 1 ; 51–56.
  7. ^ Mosquera, A.; Lloret, E.; Moreda, P. (2012). "Hacia la facilitación de la accesibilidad de textos Web 2.0 mediante la normalización de textos" Actas del taller LREC: Procesamiento del lenguaje natural para mejorar la accesibilidad textual (NLP4ITA) ; 9-14
  8. ^ Harvey, PDA (2001). Edición de registros históricos . Londres: Biblioteca Británica. pp. 40–46. ISBN 0-7123-4684-8.