Traducción automática estadística

La traducción automática estadística ( TME ) fue un enfoque de traducción automática que reemplazó al enfoque anterior, basado en reglas, porque requería una descripción explícita de todas y cada una de las reglas lingüísticas, lo que era costoso y, a menudo, no se generalizaba a otros idiomas. Desde 2003, el enfoque estadístico en sí mismo ha sido reemplazado gradualmente por la traducción automática neuronal basada en aprendizaje profundo .

Las primeras ideas de traducción automática estadística fueron introducidas por Warren Weaver en 1949, ^[1] incluidas las ideas de aplicar la teoría de la información de Claude Shannon . La traducción automática estadística fue reintroducida a fines de la década de 1980 y principios de la de 1990 por investigadores del Centro de Investigación Thomas J. Watson de IBM ^[2]^[3]^[4]

Base

La idea detrás de la traducción automática estadística proviene de la teoría de la información . Un documento se traduce según la distribución de probabilidad de que una cadena en el idioma de destino (por ejemplo, inglés) sea la traducción de una cadena en el idioma de origen (por ejemplo, francés). $p(e|f)$ ${\estilo de visualización e}$ ${\estilo de visualización f}$

El problema de modelar la distribución de probabilidad se ha abordado de varias maneras. Un enfoque que se presta bien a la implementación informática es aplicar el teorema de Bayes , es decir , donde el modelo de traducción es la probabilidad de que la cadena de origen sea la traducción de la cadena de destino, y el modelo de lenguaje es la probabilidad de ver esa cadena de idioma de destino. Esta descomposición es atractiva ya que divide el problema en dos subproblemas. Para encontrar la mejor traducción se elige la que ofrece la mayor probabilidad: $p(e|f)$ $p(e|f)\propto p(f|e)p(e)$ $p(f|e)$ $p(e)$ ${\tilde {e}}$

{\tilde {e}}=arg\max _{e\in e^{*}}p(e|f)=arg\max _{e\in e^{*}}p(f| e)p(e)

Para una implementación rigurosa de esto, habría que realizar una búsqueda exhaustiva recorriendo todas las cadenas en el idioma nativo. Realizar la búsqueda de manera eficiente es el trabajo de un decodificador de traducción automática que utiliza la cadena extranjera, heurística y otros métodos para limitar el espacio de búsqueda y, al mismo tiempo, mantener una calidad aceptable. Este equilibrio entre calidad y uso del tiempo también se puede encontrar en el reconocimiento de voz . $e^{*}$

Como los sistemas de traducción no podían almacenar todas las cadenas nativas y sus traducciones, un documento se traducía normalmente frase por frase, pero ni siquiera esto era suficiente. Los modelos de lenguaje se aproximaban normalmente mediante modelos de n -gramas suavizados , y se han aplicado enfoques similares a los modelos de traducción, pero había una complejidad adicional debido a las diferentes longitudes de las frases y los órdenes de las palabras en los idiomas.

Los modelos de traducción estadística se basaban inicialmente en palabras (modelos 1-5 del modelo oculto de Markov de IBM de Stephan Vogel ^[5] y modelo 6 de Franz-Joseph Och ^[6] ), pero se lograron avances significativos con la introducción de modelos basados en frases . ^[7] Trabajos posteriores incorporaron estructuras sintácticas o cuasi-sintácticas. ^[8]

Beneficios

Los beneficios de la traducción automática estadística (TMS) citados con más frecuencia ^{[ cita requerida ]} sobre el enfoque basado en reglas fueron:

Uso más eficiente de los recursos humanos y de datos
- Había muchos corpus paralelos en formato legible por máquina e incluso más datos monolingües.
- En general, los sistemas SMT no estaban diseñados para ningún par específico de lenguajes.
Traducciones más fluidas gracias al uso de un modelo de lenguaje

Defectos

La creación de un corpus puede ser costosa.
Los errores específicos son difíciles de predecir y corregir.
Los resultados pueden tener una fluidez superficial que enmascara problemas de traducción. ^[9]
La traducción automática estadística generalmente funciona menos bien con pares de idiomas con un orden de palabras significativamente diferente.
Los beneficios obtenidos en la traducción entre idiomas de Europa occidental no son representativos de los resultados obtenidos para otros pares de idiomas, debido a que los corpus de entrenamiento son más pequeños y hay mayores diferencias gramaticales.

Traducción basada en frases

En la traducción basada en frases, el objetivo era reducir las restricciones de la traducción basada en palabras traduciendo secuencias completas de palabras, donde las longitudes pueden diferir. Las secuencias de palabras se denominaban bloques o frases, sin embargo, por lo general no eran frases lingüísticas , sino sintagmas que se encontraban utilizando métodos estadísticos a partir de corpus. Se ha demostrado que restringir las frases a frases lingüísticas (grupos de palabras con motivación sintáctica, ver categorías sintácticas ) disminuía la calidad de la traducción. ^[10]

Las frases seleccionadas se mapearon una a una en base a una tabla de traducción de frases y se pudieron reordenar. Esta tabla se pudo aprender en base a la alineación de palabras o directamente a partir de un corpus paralelo. El segundo modelo se entrenó utilizando el algoritmo de maximización de expectativas , de manera similar al modelo IBM basado en palabras . ^[11]

Traducción basada en sintaxis

La traducción basada en sintaxis se basaba en la idea de traducir unidades sintácticas , en lugar de palabras individuales o cadenas de palabras (como en la traducción automática basada en frases), es decir, árboles de análisis (parciales) de oraciones/enunciados. ^[12] Hasta la década de 1990, con la llegada de analizadores estocásticos potentes, la contraparte estadística de la antigua idea de traducción basada en sintaxis no despegó. Algunos ejemplos de este enfoque incluían la traducción automática basada en DOP y, posteriormente, las gramáticas sincrónicas libres de contexto .

Traducción jerárquica basada en frases

La traducción jerárquica basada en frases combinaba los enfoques de traducción basados en frases y sintaxis. Utilizaba reglas gramaticales independientes del contexto sincrónicas , pero las gramáticas podían construirse mediante una extensión de los métodos de traducción basada en frases sin referencia a constituyentes sintácticos motivados lingüísticamente. Esta idea se introdujo por primera vez en el sistema Hiero de Chiang (2005). ^[8]

Desafíos de la traducción automática estadística

Los problemas que la traducción automática estadística no resolvió incluyeron:

Alineación de oraciones

En corpus paralelos, se pueden encontrar oraciones individuales en un idioma traducidas a varias oraciones en el otro y viceversa. ^[12] Las oraciones largas se pueden dividir, las oraciones cortas se pueden fusionar. Incluso hay algunos idiomas que utilizan sistemas de escritura sin una indicación clara del final de una oración (por ejemplo, tailandés). La alineación de oraciones se puede realizar a través del algoritmo de alineación Gale-Church . A través de este y otros modelos matemáticos, es posible realizar una búsqueda y recuperación eficiente de la alineación de oraciones con la puntuación más alta.

Alineación de palabras

La alineación de oraciones generalmente la proporciona el corpus o se obtiene mediante el algoritmo de alineación Gale-Church antes mencionado . Sin embargo, para conocer, por ejemplo, el modelo de traducción, necesitamos saber qué palabras se alinean en un par de oraciones de origen y destino. Los modelos IBM o el enfoque HMM fueron intentos de resolver este desafío.

Las palabras funcionales que no tienen un equivalente claro en el idioma de destino fueron otro desafío para los modelos estadísticos. Por ejemplo, al traducir del inglés al alemán, la oración "John no vive aquí", la palabra "does" no tiene una alineación clara en la oración traducida "John wohnt hier nicht". A través del razonamiento lógico, puede estar alineada con las palabras "wohnt" (ya que en inglés contiene información gramatical para la palabra "live") o "nicht" (ya que solo aparece en la oración porque está negada) o puede no estar alineada. ^[11]

Anomalías estadísticas

Un ejemplo de tal anomalía fue que "tomé el tren a Berlín" se tradujo erróneamente como "tomé el tren a París" debido a la abundancia estadística de "tren a París" en el conjunto de entrenamiento.

Modismo y registro

Dependiendo del corpus utilizado, el uso de expresiones idiomáticas y registros lingüísticos puede no recibir una traducción que represente con precisión la intención original. Por ejemplo, el popular corpus bilingüe canadiense Hansard consiste principalmente en ejemplos de discursos parlamentarios, donde "¡Escucha, escucha!" se asocia con frecuencia con "¡Bravo!". El uso de un modelo construido sobre este corpus para traducir el habla ordinaria en un registro conversacional llevaría a una traducción incorrecta de la palabra escuchar como ¡Bravo! ^[13]

Este problema está relacionado con la alineación de palabras, ya que en contextos muy específicos la expresión idiomática se alineaba con palabras que resultaban en una expresión idiomática del mismo significado en el idioma de destino. Sin embargo, es poco probable, ya que la alineación normalmente no funciona en ningún otro contexto. Por esa razón, los modismos solo podían someterse a la alineación de frases, ya que no podían descomponerse más sin perder su significado. Este problema era específico de la traducción basada en palabras. ^[11]

Diferentes órdenes de palabras

El orden de las palabras en los idiomas difiere. Se puede hacer una clasificación nombrando el orden típico de sujeto (S), verbo (V) y objeto (O) en una oración y se puede hablar, por ejemplo, de idiomas SVO o VSO. También hay diferencias adicionales en el orden de las palabras, por ejemplo, dónde se ubican los modificadores de los sustantivos o dónde se usan las mismas palabras como pregunta o afirmación.

En el reconocimiento de voz , la señal de voz y la representación textual correspondiente se pueden mapear entre sí en bloques ordenados. Esto no siempre es así con el mismo texto en dos idiomas. Para el reconocimiento de voz, el traductor automático solo puede manejar pequeñas secuencias de palabras, y el diseñador del programa debe pensar en el orden de las palabras. Los intentos de encontrar soluciones incluyen modelos de reordenamiento, donde se adivina una distribución de cambios de ubicación para cada elemento de la traducción a partir de un bitexto alineado. Se pueden clasificar diferentes cambios de ubicación con la ayuda del modelo de lenguaje y se puede seleccionar el mejor.

Palabras fuera de vocabulario (OOV)

Los sistemas SMT suelen almacenar distintas formas de palabras como símbolos separados sin ninguna relación entre sí, y las formas de palabras o frases que no estaban en los datos de entrenamiento no se pueden traducir. Esto puede deberse a la falta de datos de entrenamiento, a cambios en el dominio humano donde se utiliza el sistema o a diferencias en la morfología.

Véase también

Tek de aplicaciones
Modelo de lenguaje de caché
Duolingo
Corpus Europarl
Traducción automática basada en ejemplos
Google Translate
Traducción automática híbrida
Traductor de Microsoft
Moisés (traducción automática) , software libre
Traducción automática basada en reglas
Tejedor de lenguaje SDL
Análisis estadístico

Notas y referencias

^ W. Weaver (1955). Traducción (1949). En: Traducción automática de idiomas , MIT Press, Cambridge, MA.
^ P. Brown; John Cocke ; S. Della Pietra; V. Della Pietra; Frederick Jelinek ; Robert L. Mercer ; P. Roossin (1988). "Un enfoque estadístico para la traducción de idiomas". Coling'88 . 1 . Association for Computational Linguistics: 71–76 . Consultado el 22 de marzo de 2015 .
^ P. Brown; John Cocke ; S. Della Pietra; V. Della Pietra; Frederick Jelinek ; John D. Lafferty ; Robert L. Mercer ; P. Roossin (1990). "Un enfoque estadístico para la traducción automática". Computational Linguistics . 16 (2). MIT Press: 79–85 . Consultado el 22 de marzo de 2015 .
^ P. Brown; S. Della Pietra; V. Della Pietra; R. Mercer (1993). «Las matemáticas de la traducción automática estadística: estimación de parámetros». Computational Linguistics . 19 (2). MIT Press: 263–311 . Consultado el 22 de marzo de 2015 .
^ S. Vogel, H. Ney y C. Tillmann. 1996. Alineación de palabras basada en HMM en traducción estadística. En COLING '96: La 16.ª Conferencia Internacional sobre Lingüística Computacional, págs. 836-841, Copenhague, Dinamarca.
^ Och, Franz Josef; Ney, Hermann (2003). "Una comparación sistemática de varios modelos de alineación estadística". Computational Linguistics . 29 : 19–51. doi : 10.1162/089120103321337421 .
^ P. Koehn, FJ Och y D. Marcu (2003). Traducción basada en frases estadísticas. En Actas de la Conferencia conjunta sobre tecnologías del lenguaje humano y la reunión anual del capítulo norteamericano de la Asociación de lingüística computacional (HLT/NAACL) .
^ ab D. Chiang (2005). Un modelo jerárquico basado en frases para la traducción automática estadística. En Actas de la 43.ª reunión anual de la Asociación de Lingüística Computacional (ACL'05) .
^ Zhou, Sharon (25 de julio de 2018). "¿La IA ha superado a los humanos en la traducción? ¡Ni de lejos!". Skynet Today . Consultado el 2 de agosto de 2018 .
^ Philipp Koehn, Franz Josef Och, Daniel Marcu: traducción estadística basada en frases (2003)
^ abc Koehn, Philipp (2010). Traducción automática estadística . Cambridge University Press. ISBN 978-0-521-87415-1.
^ de Philip Williams; Rico Sennrich; Matt Post; Philipp Koehn (1 de agosto de 2016). Traducción automática estadística basada en sintaxis. Morgan & Claypool Publishers. ISBN 978-1-62705-502-4.
^ WJ Hutchins y H. Somers (1992). Introducción a la traducción automática , 18.3:322. ISBN 978-0-12-362830-5

Enlaces externos

Lista comentada de recursos de procesamiento estadístico del lenguaje natural: incluye enlaces a software de traducción automática estadística disponible de forma gratuita