Modelos de alineación de IBM

Los modelos de alineación de IBM son una secuencia de modelos cada vez más complejos que se utilizan en la traducción automática estadística para entrenar un modelo de traducción y un modelo de alineación, comenzando con las probabilidades de traducción léxica y avanzando hacia la reordenación y la duplicación de palabras. ^[1] Estos modelos sustentaron la mayoría de los sistemas de traducción automática estadística durante casi veinte años a partir de principios de la década de 1990, hasta que la traducción automática neuronal comenzó a dominar. Estos modelos ofrecen una formulación probabilística basada en principios y una inferencia (en su mayoría) manejable. ^[2]

El trabajo original sobre traducción automática estadística en IBM propuso cinco modelos, y más tarde se propuso un modelo 6. La secuencia de los seis modelos se puede resumir de la siguiente manera:

Modelo 1: traducción léxica
Modelo 2: modelo de alineación absoluta adicional
Modelo 3: modelo de fertilidad extra
Modelo 4: se agregó un modelo de alineación relativa
Modelo 5: Problema de deficiencia corregido.
Modelo 6: Modelo 4 combinado con un modelo de alineación HMM de forma logarítmica lineal

Configuración matemática

Los modelos de alineación de IBM traducen como un modelo de probabilidad condicional. Para cada oración en el idioma de origen ("extranjero") , generamos una oración en el idioma de destino ("inglés") y una alineación . El problema es entonces encontrar un buen modelo estadístico para , la probabilidad de que generemos una oración en inglés y una alineación dada una oración extranjera . ${\estilo de visualización f}$ ${\estilo de visualización e}$ ${\estilo de visualización a}$ $p(e,a|f)$ ${\estilo de visualización e}$ ${\estilo de visualización a}$ ${\estilo de visualización f}$

El significado de una alineación se vuelve cada vez más complicado a medida que aumenta el número de versión del modelo. Consulte el Modelo 1 para obtener la versión más simple y comprensible.

Modelo 1

Alineación de palabras

Dado cualquier par de oraciones en inglés y en otro idioma , la alineación del par de oraciones es una función del tipo . Es decir, asumimos que la palabra en inglés en la ubicación se "explica" mediante la palabra en otro idioma en la ubicación . Por ejemplo, considere el siguiente par de oraciones ${\estilo de visualización (e,f)}$ $\{1,.,...,l_{e}\}\to \{0,1,.,...,l_{f}\}$ ${\estilo de visualización i}$ $a(i)$

Seguramente lloverá mañana --明日はきっと雨だ

Podemos alinear algunas palabras en inglés con sus palabras japonesas correspondientes, pero no todas:

es -> ?
voluntad -> ?
Seguramente -> きっと
lluvia -> 雨
mañana -> 明日

Esto ocurre en general debido a las diferentes gramáticas y convenciones del habla en diferentes idiomas. Las oraciones en inglés requieren un sujeto y, cuando no hay sujeto disponible, se utiliza un pronombre ficticio it . Los verbos japoneses no tienen formas diferentes para el tiempo futuro y el presente, y el tiempo futuro está implícito en el sustantivo 明日 (mañana). Por el contrario, el marcador de temaは y la palabra gramatical だ (aproximadamente "ser") no corresponden a ninguna palabra en la oración en inglés. Por lo tanto, podemos escribir la alineación como

1->0; 2 -> 0; 3 -> 3; 4 -> 4; 5 -> 1

donde 0 significa que no hay alineación correspondiente.

Así, vemos que la función de alineación es en general una función de tipo . $\{1,.,...,l_{e}\}\to \{0,1,.,...,l_{f}\}$

Los modelos futuros permitirán alinear una palabra inglesa con múltiples palabras extranjeras.

Modelo estadístico

Dada la definición de alineación anterior, podemos definir el modelo estadístico utilizado por el Modelo 1:

Comience con un "diccionario". Sus entradas tienen el formato , lo que puede interpretarse como "la palabra extranjera se traduce a la palabra inglesa con probabilidad ". $t(e_{i}|f_{j})$ $estilo de visualización f_ {j}}$ $Estilo de visualización e_i$ $t(e_{i}|f_{j})$

Después de recibir una oración extranjera con una longitud de , primero generamos una oración en inglés con una longitud uniforme en un rango de . En particular, no depende de o . ${\estilo de visualización f}$ $estilo de visualización l_{f}}$ $l_{e}$ $Uniforme[1,2,...,N]$ ${\estilo de visualización f}$ $estilo de visualización l_{f}}$
Luego, generamos una alineación uniformemente en el conjunto de todas las funciones de alineación posibles . $\{1,.,...,l_{e}\}\to \{0,1,.,...,l_{f}\}$
Por último, para cada palabra en inglés , genere cada una de ellas independientemente de las demás palabras en inglés. Para la palabra , generela de acuerdo con . ${\ Displaystyle e_ {1}, e_ {2},... e_ {l_ {e}}}$ $Estilo de visualización e_i$ $t(e_{i}|f_{a(i)})$

En conjunto, tenemos la probabilidad de que el Modelo 1 de IBM utilice supuestos muy simplistas en el modelo estadístico, para permitir que el siguiente algoritmo tenga una solución de forma cerrada. $p(e,a|f)={\frac {1/N}{(1+l_{f})^{l_{e}}}}\prod _{i=1}^{l_{ mi}}t(e_{i}|f_{a(i)})$

Aprendiendo de un corpus

Si no se proporciona un diccionario al inicio, pero tenemos un corpus de pares de inglés y lenguas extranjeras (sin información de alineación), entonces el modelo se puede convertir en la siguiente forma: $\{(e^{(k)},f^{(k)})\}_{k}$

parámetros fijos: las oraciones extranjeras . $\{f^{(k)}\}_{k}$
parámetros aprendibles: las entradas del diccionario . $t(e_{i}|f_{j})$
variables observables: las oraciones en inglés . $\{e^{(k)}\}_{k}$
variables latentes: las alineaciones $\{a^{(k)}\}_{k}$

En esta forma, este es exactamente el tipo de problema que se resuelve con el algoritmo de expectativa-maximización . Debido a las suposiciones simplistas, el algoritmo tiene una solución cerrada, computable de manera eficiente, que es la solución de las siguientes ecuaciones: Esto se puede resolver con multiplicadores lagrangianos y luego simplificados. Para una derivación detallada del algoritmo, consulte ^[3] capítulo 4 y. ^[4] ${\begin{cases}\max _{t'}\sum _{k}\sum _{i}\sum _{a^{(k)}}t(a^{(k)}|e^{(k)},f^{(k)})\ln t(e_{i}^{(k)}|f_{a^{(k)}(i)}^{(k)})\\\sum _{x}t'(e_{x}|f_{y})=1\quad \forall y\end{cases}}$

En resumen, el algoritmo EM funciona de la siguiente manera:

ENTRADA. un corpus de pares de oraciones en inglés y en lenguas extranjeras $\{(e^{(k)},f^{(k)})\}_{k}$

INICIALIZAR. matriz de probabilidades de traslaciones . $t(e_{x}|f_{y})$
Esto podría ser uniforme o aleatorio. Solo se requiere que cada entrada sea positiva y, para cada , la probabilidad sume uno: . $y$ $\sum _{x}t(e_{x}|f_{y})=1$
LOOP. hasta que converja: $t(e_{x}|f_{y})$
$t(e_{x}|f_{y})\leftarrow {\frac {t(e_{x}|f_{y})}{\lambda _{y}}}\sum _{k,i,j}{\frac {\delta (e_{x},e_{i}^{(k)})\delta (f_{y},f_{j}^{(k)})}{\sum _{j'}t(e_{i}^{(k)}|f_{j'}^{(k)})}}$
donde cada uno es una constante de normalización que asegura que cada . $\lambda _{y}$ $\sum _{x}t(e_{x}|f_{y})=1$
DEVOLVER. . $t(e_{x}|f_{y})$

En la fórmula anterior, es la función delta de Dirac : es igual a 1 si las dos entradas son iguales y a 0 en caso contrario. La notación del índice es la siguiente: $\delta$

$k$ abarca pares de oraciones en inglés y en idiomas extranjeros en el corpus;
$i$ abarca más palabras en oraciones en inglés;
$j$ abarca más palabras en oraciones en idioma extranjero;
$x$ abarca todo el vocabulario de palabras inglesas del corpus;
$y$ abarca todo el vocabulario de palabras extranjeras del corpus.

Limitaciones

El modelo IBM 1 tiene varias limitaciones ^{. [3]}

Sin fluidez: dado cualquier par de oraciones , cualquier permutación de la oración en inglés es igualmente probable: para cualquier permutación de la oración en inglés en . $(e,f)$ $p(e|f)=p(e'|f)$ $e$ $e'$
Sin preferencia de longitud: la probabilidad de cada longitud de traducción es igual: para cualquier . $\sum _{e{\text{ has length }}l}p(e|f)={\frac {1}{N}}$ $l\in \{1,2,...,N\}$
No modela explícitamente la fertilidad: algunas palabras extranjeras tienden a producir una cantidad fija de palabras en inglés. Por ejemplo, para la traducción del alemán al inglés, ja suele omitirse, y zum suele traducirse como al , para el, a un, para un .

Modelo 2

El modelo 2 permite que la alineación esté condicionada a la longitud de las oraciones. Es decir, tenemos una distribución de probabilidad , es decir, "la probabilidad de que una palabra en inglés esté alineada con una palabra extranjera , cuando la oración en inglés tiene una longitud de , y la oración extranjera tiene una longitud de ". $p_{a}(j|i,l_{e},l_{f})$ $i$ $j$ $l_{e}$ $l_{f}$

El resto del Modelo 1 no ha cambiado. Con esto, tenemos El algoritmo EM todavía se puede resolver en forma cerrada, dando el siguiente algoritmo: donde todavía hay factores de normalización. Consulte la sección 4.4.1 ^[3] para obtener una derivación y un algoritmo. $p(e,a|f)={1/N}\prod _{i=1}^{l_{e}}t(e_{i}|f_{a(i)})p_{a}(a(i)|i,l_{e},l_{f})$ $t(e_{x}|f_{y})\leftarrow {\frac {1}{\lambda _{y}}}\sum _{k,i,j}{\frac {t(e_{i}^{(k)}|f_{j}^{(k)})p_{a}(j|i,l_{e},l_{f})\delta (e_{x},e_{i}^{(k)})\delta (f_{y},f_{j}^{(k)})}{\sum _{j'}t(e_{i}^{(k)}|f_{j'}^{(k)})p_{a}(j'|i,l_{e},l_{f})}}$ $p_{a}(j|i,l_{e},l_{f})\leftarrow {\frac {1}{\lambda _{i,l_{e},l_{f}}}}\sum _{k}{\frac {t(e_{i}^{(k)}|f_{j}^{(k)})p_{a}(j|i,l_{e},l_{f})\delta (e_{x},e_{i}^{(k)})\delta (f_{y},f_{j}^{(k)})\delta (l_{e},l_{e}^{(k)})\delta (l_{f},l_{f}^{(k)})}{\sum _{j'}t(e_{i}^{(k)}|f_{j'}^{(k)})p_{a}(j'|i,l_{e},l_{f})}}$ $\lambda$

Modelo 3

El problema de la fertilidad se aborda en IBM Model 3. La fertilidad se modela utilizando una distribución de probabilidad definida como:

n(\phi \lor f)

Para cada palabra extranjera , dicha distribución indica a cuántas palabras de salida se traduce habitualmente. Este modelo se ocupa de omitir palabras de entrada porque permite . Pero aún existe un problema al agregar palabras. Por ejemplo, la palabra inglesa do se inserta a menudo al negar. Este problema genera un token NULL especial cuya fertilidad también se puede modelar utilizando una distribución condicional definida como: $j$ $\phi$ $\phi =0$

n(\varnothing \lor NULL)

La cantidad de palabras insertadas depende de la longitud de la oración. Por eso, la inserción del token NULL se modela como un paso adicional: el paso de fertilidad. Aumenta el proceso de traducción de IBM Model 3 a cuatro pasos:

El último paso se denomina distorsión en lugar de alineación porque es posible producir la misma traducción con la misma alineación de diferentes maneras. Por ejemplo, en el ejemplo anterior, tenemos otra forma de obtener la misma alineación: ^[5]

ja NULL nie pôjde tak do do domu
Yo no voy a la casa
Yo no voy a la casa

El modelo 3 de IBM se puede expresar matemáticamente como:

P(S\mid E,A)=\prod _{i=1}^{I}\Phi _{i}!n(\Phi \mid e_{j})*\prod _{j=1}^{J}t(f_{j}\mid e_{a_{j}})*\prod _{j:a(j)\neq 0}^{J}d(j|a_{j},I,J){\binom {J-\Phi _{0}}{\Phi _{0}}}p_{0}^{\Phi _{0}}p_{1}^{J}

donde representa la fertilidad de , a cada palabra fuente se le asigna una distribución de fertilidad , y y se refieren a las longitudes absolutas de las oraciones de origen y destino, respectivamente. ^[6] $\Phi _{i}$ $e_{i}$ $s$ $n$ $I$ $J$

Consulte la sección 4.4.2 ^[3] para obtener una derivación y un algoritmo.

Modelo 4

En IBM Model 4, cada palabra depende de la palabra alineada previamente y de las clases de palabras de las palabras circundantes. Algunas palabras tienden a reordenarse durante la traducción más que otras (por ejemplo, la inversión de adjetivo-sustantivo al traducir del polaco al inglés). Los adjetivos a menudo se colocan antes del sustantivo que los precede. Las clases de palabras introducidas en el Modelo 4 resuelven este problema al condicionar las distribuciones de probabilidad de estas clases. El resultado de dicha distribución es un modelo lexicalizado. Dicha distribución se puede definir de la siguiente manera:

Para la palabra inicial del concepto: $d_{1}(j-\odot _{[i-1]}\lor A(f_{[i-1]}),B(e_{j}))$

Para palabras adicionales: $d_{1}(j-\pi _{i,k-1}\lor B(e_{j}))$

donde las funciones y asignan palabras a sus clases de palabras, y y son distribuciones de probabilidad de distorsión de las palabras. El cept se forma alineando cada palabra de entrada con al menos una palabra de salida. ^[7] $A(f)$ $B(e)$ $e_{j}$ $f_{[i-1]}$ $f_{i}$

Tanto el Modelo 3 como el Modelo 4 ignoran si se eligió una posición de entrada y si la masa de probabilidad se reservó para las posiciones de entrada fuera de los límites de la oración. Esta es la razón por la que las probabilidades de todas las alineaciones correctas no suman la unidad en estos dos modelos (modelos deficientes). ^[7]

Modelo 5

IBM Model 5 reformula IBM Model 4 mejorando el modelo de alineación con más parámetros de entrenamiento para superar la deficiencia del modelo. ^[8] Durante la traducción en el Modelo 3 y el Modelo 4 no hay heurísticas que prohíban la colocación de una palabra de salida en una posición ya ocupada. En el Modelo 5 es importante colocar palabras solo en posiciones libres. Esto se hace rastreando el número de posiciones libres y permitiendo la colocación solo en dichas posiciones. El modelo de distorsión es similar a IBM Model 4, pero se basa en posiciones libres. Si denota el número de posiciones libres en la salida, las probabilidades de distorsión de IBM Model 5 se definirían como: ^[9] $v_{j}$

Para la palabra inicial del concepto: $d_{1}(v_{j}\lor B(e_{j}),v_{\odot i-1},v_{max})$

Para palabras adicionales: $d_{1}(v_{j}-v_{\pi _{i,k-1}}\lor B(e_{j}),v_{max'})$

Los modelos de alineación que utilizan dependencias de primer orden, como el HMM o los modelos IBM 4 y 5, producen mejores resultados que los demás métodos de alineación. La idea principal del HMM es predecir la distancia entre las posiciones posteriores del idioma de origen. Por otro lado, el modelo IBM 4 intenta predecir la distancia entre las posiciones posteriores del idioma de destino. Como se esperaba lograr una mejor calidad de alineación al utilizar ambos tipos de dependencias, el HMM y el modelo 4 se combinaron de manera log-lineal en el modelo 6 de la siguiente manera: ^[10]

p_{6}(f,a\lor e)={\frac {p_{4}(f,a\lor e)^{\alpha }*p_{HMM}(f,a\lor e)}{\sum _{a',f'}p_{4}(f',a'\lor e)^{\alpha }*p_{HMM}(f',a'\lor e)}}

donde el parámetro de interpolación se utiliza para contar el peso del Modelo 4 en relación con el modelo oculto de Markov . Una combinación log-lineal de varios modelos se puede definir como : $\alpha$ $p_{k}(f,a\mid e)$ $k=1,2,\dotsc ,K$

p_{6}(f,a\lor e)={\frac {\prod _{k=1}^{K}p_{k}(f,a\lor e)^{\alpha _{k}}}{\sum _{a',f'}\prod _{k=1}^{K}p_{k}(f',a'\mid e)^{\alpha _{k}}}}

Se utiliza la combinación log-lineal en lugar de la combinación lineal porque los valores suelen ser diferentes en términos de sus órdenes de magnitud para HMM e IBM Modelo 4. ^[11] $P_{r}(f,a\mid e)$

Referencias

^ "Modelos IBM". Wiki de encuestas de investigación de SMT. 11 de septiembre de 2015. Consultado el 26 de octubre de 2015 .
^ Yarin Gal; Phil Blunsom (12 de junio de 2013). "Un tratamiento bayesiano sistemático de los modelos de alineación de IBM" (PDF) . Universidad de Cambridge. Archivado desde el original (PDF) el 4 de marzo de 2016. Consultado el 26 de octubre de 2015 .
^ abcd Koehn, Philipp (2010). "4. Modelos basados en palabras". Traducción automática estadística. Cambridge University Press. ISBN 978-0-521-87415-1.
^ "CS288, primavera de 2020, lección 05: Traducción automática estadística" (PDF) . Archivado (PDF) del original el 24 de octubre de 2020.
^ Wołk K., Marasek K. (2014). Sistemas de traducción automática estadística del habla polaco-inglés para el IWSLT 2014. Actas del 11.º Taller internacional sobre traducción del lenguaje hablado, Lake Tahoe, EE. UU. arXiv : 1509.08874 .
^ FERNÁNDEZ, Pablo Malvar. Mejorando la alineación palabra a palabra usando información morfológica. 2008. Tesis doctoral. San Diego State University.
^ ab Schoenemann, Thomas (2010). Cálculo de alineaciones óptimas para el modelo de traducción IBM-3 . Actas de la decimocuarta conferencia sobre aprendizaje computacional de lenguajes naturales. Asociación de Lingüística Computacional. págs. 98-106.
^ KNIGHT, Kevin. Manual de trabajo tutorial sobre traducción automática estadística. Manuscrito preparado para el taller de verano de la JHU de 1999.
^ Brown, Peter F. (1993). "Las matemáticas de la traducción automática estadística: estimación de parámetros". Computational Linguistics (19): 263–311.
^ Vulić I. (2010). "Alineación de términos. Descripción general del estado del arte" (PDF) . Universidad Católica de Lovaina . Consultado el 26 de octubre de 2015 .^{[ enlace muerto permanente ]}
^ Wołk, K. (2015). "Metodología de filtrado de corpus ruidosos-paralelos y comparables para la extracción de datos equivalentes bilingües a nivel de oración". Ciencias de la Computación . 16 (2): 169–184. arXiv : 1510.04500 . Código Bibliográfico :2015arXiv151004500W. doi :10.7494/csci.2015.16.2.169. S2CID 12860633.