La traducción automática estadística ( TME ) fue un enfoque de traducción automática que reemplazó al enfoque anterior, basado en reglas, porque requería una descripción explícita de todas y cada una de las reglas lingüísticas, lo que era costoso y, a menudo, no se generalizaba a otros idiomas. Desde 2003, el enfoque estadístico en sí mismo ha sido reemplazado gradualmente por la traducción automática neuronal basada en aprendizaje profundo .
Las primeras ideas de traducción automática estadística fueron introducidas por Warren Weaver en 1949, [1] incluidas las ideas de aplicar la teoría de la información de Claude Shannon . La traducción automática estadística fue reintroducida a fines de la década de 1980 y principios de la de 1990 por investigadores del Centro de Investigación Thomas J. Watson de IBM [2] [3] [4]
La idea detrás de la traducción automática estadística proviene de la teoría de la información . Un documento se traduce según la distribución de probabilidad de que una cadena en el idioma de destino (por ejemplo, inglés) sea la traducción de una cadena en el idioma de origen (por ejemplo, francés).
El problema de modelar la distribución de probabilidad se ha abordado de varias maneras. Un enfoque que se presta bien a la implementación informática es aplicar el teorema de Bayes , es decir , donde el modelo de traducción es la probabilidad de que la cadena de origen sea la traducción de la cadena de destino, y el modelo de lenguaje es la probabilidad de ver esa cadena de idioma de destino. Esta descomposición es atractiva ya que divide el problema en dos subproblemas. Para encontrar la mejor traducción se elige la que ofrece la mayor probabilidad:
Para una implementación rigurosa de esto, habría que realizar una búsqueda exhaustiva recorriendo todas las cadenas en el idioma nativo. Realizar la búsqueda de manera eficiente es el trabajo de un decodificador de traducción automática que utiliza la cadena extranjera, heurística y otros métodos para limitar el espacio de búsqueda y, al mismo tiempo, mantener una calidad aceptable. Este equilibrio entre calidad y uso del tiempo también se puede encontrar en el reconocimiento de voz .
Como los sistemas de traducción no podían almacenar todas las cadenas nativas y sus traducciones, un documento se traducía normalmente frase por frase, pero ni siquiera esto era suficiente. Los modelos de lenguaje se aproximaban normalmente mediante modelos de n -gramas suavizados , y se han aplicado enfoques similares a los modelos de traducción, pero había una complejidad adicional debido a las diferentes longitudes de las frases y los órdenes de las palabras en los idiomas.
Los modelos de traducción estadística se basaban inicialmente en palabras (modelos 1-5 del modelo oculto de Markov de IBM de Stephan Vogel [5] y modelo 6 de Franz-Joseph Och [6] ), pero se lograron avances significativos con la introducción de modelos basados en frases . [7] Trabajos posteriores incorporaron estructuras sintácticas o cuasi-sintácticas. [8]
Los beneficios de la traducción automática estadística (TMS) citados con más frecuencia [ cita requerida ] sobre el enfoque basado en reglas fueron:
En la traducción basada en frases, el objetivo era reducir las restricciones de la traducción basada en palabras traduciendo secuencias completas de palabras, donde las longitudes pueden diferir. Las secuencias de palabras se denominaban bloques o frases, sin embargo, por lo general no eran frases lingüísticas , sino sintagmas que se encontraban utilizando métodos estadísticos a partir de corpus. Se ha demostrado que restringir las frases a frases lingüísticas (grupos de palabras con motivación sintáctica, ver categorías sintácticas ) disminuía la calidad de la traducción. [10]
Las frases seleccionadas se mapearon una a una en base a una tabla de traducción de frases y se pudieron reordenar. Esta tabla se pudo aprender en base a la alineación de palabras o directamente a partir de un corpus paralelo. El segundo modelo se entrenó utilizando el algoritmo de maximización de expectativas , de manera similar al modelo IBM basado en palabras . [11]
La traducción basada en sintaxis se basaba en la idea de traducir unidades sintácticas , en lugar de palabras individuales o cadenas de palabras (como en la traducción automática basada en frases), es decir, árboles de análisis (parciales) de oraciones/enunciados. [12] Hasta la década de 1990, con la llegada de analizadores estocásticos potentes, la contraparte estadística de la antigua idea de traducción basada en sintaxis no despegó. Algunos ejemplos de este enfoque incluían la traducción automática basada en DOP y, posteriormente, las gramáticas sincrónicas libres de contexto .
La traducción jerárquica basada en frases combinaba los enfoques de traducción basados en frases y sintaxis. Utilizaba reglas gramaticales independientes del contexto sincrónicas , pero las gramáticas podían construirse mediante una extensión de los métodos de traducción basada en frases sin referencia a constituyentes sintácticos motivados lingüísticamente. Esta idea se introdujo por primera vez en el sistema Hiero de Chiang (2005). [8]
Los problemas que la traducción automática estadística no resolvió incluyeron:
En corpus paralelos, se pueden encontrar oraciones individuales en un idioma traducidas a varias oraciones en el otro y viceversa. [12] Las oraciones largas se pueden dividir, las oraciones cortas se pueden fusionar. Incluso hay algunos idiomas que utilizan sistemas de escritura sin una indicación clara del final de una oración (por ejemplo, tailandés). La alineación de oraciones se puede realizar a través del algoritmo de alineación Gale-Church . A través de este y otros modelos matemáticos, es posible realizar una búsqueda y recuperación eficiente de la alineación de oraciones con la puntuación más alta.
La alineación de oraciones generalmente la proporciona el corpus o se obtiene mediante el algoritmo de alineación Gale-Church antes mencionado . Sin embargo, para conocer, por ejemplo, el modelo de traducción, necesitamos saber qué palabras se alinean en un par de oraciones de origen y destino. Los modelos IBM o el enfoque HMM fueron intentos de resolver este desafío.
Las palabras funcionales que no tienen un equivalente claro en el idioma de destino fueron otro desafío para los modelos estadísticos. Por ejemplo, al traducir del inglés al alemán, la oración "John no vive aquí", la palabra "does" no tiene una alineación clara en la oración traducida "John wohnt hier nicht". A través del razonamiento lógico, puede estar alineada con las palabras "wohnt" (ya que en inglés contiene información gramatical para la palabra "live") o "nicht" (ya que solo aparece en la oración porque está negada) o puede no estar alineada. [11]
Un ejemplo de tal anomalía fue que "tomé el tren a Berlín" se tradujo erróneamente como "tomé el tren a París" debido a la abundancia estadística de "tren a París" en el conjunto de entrenamiento.
Dependiendo del corpus utilizado, el uso de expresiones idiomáticas y registros lingüísticos puede no recibir una traducción que represente con precisión la intención original. Por ejemplo, el popular corpus bilingüe canadiense Hansard consiste principalmente en ejemplos de discursos parlamentarios, donde "¡Escucha, escucha!" se asocia con frecuencia con "¡Bravo!". El uso de un modelo construido sobre este corpus para traducir el habla ordinaria en un registro conversacional llevaría a una traducción incorrecta de la palabra escuchar como ¡Bravo! [13]
Este problema está relacionado con la alineación de palabras, ya que en contextos muy específicos la expresión idiomática se alineaba con palabras que resultaban en una expresión idiomática del mismo significado en el idioma de destino. Sin embargo, es poco probable, ya que la alineación normalmente no funciona en ningún otro contexto. Por esa razón, los modismos solo podían someterse a la alineación de frases, ya que no podían descomponerse más sin perder su significado. Este problema era específico de la traducción basada en palabras. [11]
El orden de las palabras en los idiomas difiere. Se puede hacer una clasificación nombrando el orden típico de sujeto (S), verbo (V) y objeto (O) en una oración y se puede hablar, por ejemplo, de idiomas SVO o VSO. También hay diferencias adicionales en el orden de las palabras, por ejemplo, dónde se ubican los modificadores de los sustantivos o dónde se usan las mismas palabras como pregunta o afirmación.
En el reconocimiento de voz , la señal de voz y la representación textual correspondiente se pueden mapear entre sí en bloques ordenados. Esto no siempre es así con el mismo texto en dos idiomas. Para el reconocimiento de voz, el traductor automático solo puede manejar pequeñas secuencias de palabras, y el diseñador del programa debe pensar en el orden de las palabras. Los intentos de encontrar soluciones incluyen modelos de reordenamiento, donde se adivina una distribución de cambios de ubicación para cada elemento de la traducción a partir de un bitexto alineado. Se pueden clasificar diferentes cambios de ubicación con la ayuda del modelo de lenguaje y se puede seleccionar el mejor.
Los sistemas SMT suelen almacenar distintas formas de palabras como símbolos separados sin ninguna relación entre sí, y las formas de palabras o frases que no estaban en los datos de entrenamiento no se pueden traducir. Esto puede deberse a la falta de datos de entrenamiento, a cambios en el dominio humano donde se utiliza el sistema o a diferencias en la morfología.