Traducción automática neuronal

La traducción automática neuronal ( NMT ) es un enfoque de la traducción automática que utiliza una red neuronal artificial para predecir la probabilidad de una secuencia de palabras, generalmente modelando oraciones enteras en un único modelo integrado.

Es el enfoque dominante hoy en día ^[1]^{: 293}^[2]^{: 1} y puede producir traducciones que rivalizan con las traducciones humanas cuando se traduce entre idiomas con muchos recursos en condiciones específicas. ^[3] Sin embargo, aún quedan desafíos, especialmente con idiomas donde hay menos datos de alta calidad disponibles, ^[4]^[5]^[1]^{: 293} y con el cambio de dominio entre los datos con los que se entrenó un sistema y los textos que se supone que debe traducir. ^[1]^{: 293} Los sistemas NMT también tienden a producir traducciones bastante literales. ^[5]

Descripción general

En la tarea de traducción, una oración (que consta de tokens ) en el idioma de origen se debe traducir a una oración (que consta de tokens ) en el idioma de destino. Los tokens de origen y destino (que en el caso simple se usan entre sí para un juego en particular) son vectores, de modo que se puedan procesar matemáticamente. $\mathbf {x} = x_{1,I}$ $I$ $Estilo de visualización x_{i}}$ $\mathbf {y} = x_{1,J}$ ${\estilo de visualización J}$ $estilo de visualización x_{j}}$

Los modelos NMT asignan una probabilidad ^[2]^{: 5}^[6]^{: 1} a las traducciones potenciales y y luego buscan en un subconjunto de traducciones potenciales la que tenga la probabilidad más alta. La mayoría de los modelos NMT son autorregresivos : modelan la probabilidad de cada token objetivo como una función de la oración fuente y los tokens objetivo predichos previamente. La probabilidad de toda la traducción es entonces el producto de las probabilidades de los tokens predichos individuales: ^[2]^{: 5}^[6]^{: 2} $P(y|x)$

$P(y|x)=\prod _{j=1}^{J}P(y_{j}|y_{1,i-1},\mathbf {x} )$

Los modelos NMT difieren en cómo modelan exactamente esta función , pero la mayoría usa alguna variación de la arquitectura codificador-decodificador : ^[6]^{: 2}^[7]^{: 469} Primero usan una red de codificadores para procesarla y codificarla en una representación vectorial o matricial de la oración fuente. Luego usan una red de decodificadores que generalmente produce una palabra objetivo a la vez, teniendo en cuenta la representación fuente y los tokens que produjo previamente. Tan pronto como el decodificador produce un token especial de final de oración , el proceso de decodificación finaliza. Dado que el decodificador se refiere a sus propias salidas anteriores durante, esta forma de decodificación se llama autorregresiva . ${\estilo de visualización P}$ $\mathbf {x}$

Historia

Primeros enfoques

En 1987, Robert B. Allen demostró el uso de redes neuronales de propagación hacia adelante para traducir oraciones autogeneradas en inglés con un vocabulario limitado de 31 palabras al español. En este experimento, el tamaño de las capas de entrada y salida de la red se eligió para que fuera lo suficientemente grande para las oraciones más largas en el idioma de origen y el de destino, respectivamente, porque la red no tenía ningún mecanismo para codificar secuencias de longitud arbitraria en una representación de tamaño fijo. En su resumen, Allen también insinuó la posibilidad de utilizar modelos autoasociativos, uno para codificar el origen y otro para decodificar el destino. ^[8]

Lonnie Chrisman se basó en el trabajo de Allen en 1991 al entrenar redes de memoria autoasociativa recursiva (RAAM) separadas (desarrolladas por Jordan B. Pollack ^[9] ) para el idioma de origen y el de destino. Cada una de las redes RAAM se entrena para codificar una oración de longitud arbitraria en una representación oculta de tamaño fijo y para decodificar la oración original nuevamente a partir de esa representación. Además, las dos redes también se entrenan para compartir su representación oculta; de esta manera, el codificador de origen puede producir una representación que el decodificador de destino puede decodificar. ^[10] Forcada y Ñeco simplificaron este procedimiento en 1997 para entrenar directamente un codificador de origen y un decodificador de destino en lo que llamaron una memoria heteroasociativa recursiva . ^[11]

También en 1997, Castaño y Casacuberta emplearon una red neuronal recurrente de Elman en otra tarea de traducción automática con un vocabulario y una complejidad muy limitados. ^[12]^[13]

Aunque estos primeros enfoques ya eran similares a la NMT moderna, los recursos informáticos de la época no eran suficientes para procesar conjuntos de datos lo suficientemente grandes para la complejidad computacional del problema de traducción automática en textos del mundo real. ^[1]^{: 39}^[14]^{: 2} En cambio, otros métodos como la traducción automática estadística surgieron para convertirse en el estado del arte de las décadas de 1990 y 2000.

Enfoques híbridos

Durante la época en que prevalecía la traducción automática estadística, algunos trabajos utilizaban métodos neuronales para reemplazar varias partes de la traducción automática estadística mientras seguían utilizando el enfoque log-lineal para unirlas. ^[1]^{: 39}^[2]^{: 1} Por ejemplo, en varios trabajos junto con otros investigadores, Holger Schwenk reemplazó el modelo de lenguaje n-grama habitual por uno neuronal ^[15]^[16] y estimó las probabilidades de traducción de frases utilizando una red de propagación hacia adelante. ^[17]

secuencia a secuencia

En 2013 y 2014, la traducción automática neuronal de extremo a extremo tuvo su gran avance con Kalchbrenner y Blunsom utilizando una red neuronal convolucional (CNN) para codificar la fuente ^[18] y tanto Cho et al. como Sutskever et al. utilizando una red neuronal recurrente (RNN) en su lugar. ^[19]^[20] Los tres utilizaron una RNN condicionada a una codificación fija de la fuente como su decodificador para producir la traducción. Sin embargo, estos modelos funcionaron mal en oraciones más largas. ^[21]^{: 107}^[1]^{: 39}^[2]^{: 7} Este problema se abordó cuando Bahdanau et al. introdujeron la atención en su arquitectura de codificador-decodificador: en cada paso de decodificación, el estado del decodificador se utiliza para calcular una representación de la fuente que se centra en diferentes partes de la fuente y utiliza esa representación en el cálculo de las probabilidades para el siguiente token. ^[22] Basándose en estas arquitecturas basadas en RNN, Baidu lanzó el "primer sistema NMT a gran escala" ^[23]^{: 144} en 2015, seguido por Google Neural Machine Translation en 2016. ^[23]^{: 144}^[24] A partir de ese año, los modelos neuronales también se convirtieron en la opción predominante en la principal conferencia de traducción automática, Workshop on Statistical Machine Translation. ^[25]

Gehring et al. combinaron un codificador CNN con un mecanismo de atención en 2017, que manejó las dependencias de largo alcance en la fuente mejor que los enfoques anteriores y también aumentó la velocidad de traducción porque un codificador CNN es paralelizable, mientras que un codificador RNN tiene que codificar un token a la vez debido a su naturaleza recurrente. ^[26]^{: 230} En el mismo año, "Microsoft Translator lanzó la traducción automática neuronal en línea impulsada por IA (NMT). ^[27] DeepL Translator , que en ese momento se basaba en un codificador CNN, también se lanzó el mismo año y varios medios de comunicación juzgaron que superaba a sus competidores. ^[28]^[29]^[30] También se ha visto que el GPT-3 de OpenAI lanzado en 2020 puede funcionar como un sistema de traducción automática neuronal. También se puede ver que otros sistemas de traducción automática, como Microsoft Translator y SYSTRAN, han integrado redes neuronales en sus operaciones.

Transformador

Otra arquitectura de red que se presta a la paralelización es el transformador , que fue introducido por Vaswani et al. también en 2017. ^[31] Al igual que los modelos anteriores, el transformador todavía utiliza el mecanismo de atención para ponderar la salida del codificador para los pasos de decodificación. Sin embargo, las redes de codificador y decodificador del transformador también se basan en la atención en lugar de la recurrencia o la convolución: cada capa pondera y transforma la salida de la capa anterior en un proceso llamado autoatención . Dado que el mecanismo de atención no tiene ninguna noción de orden de token, pero el orden de las palabras en una oración es obviamente relevante, las incrustaciones de token se combinan con una codificación explícita de su posición en la oración . ^[2]^{: 15}^[6]^{: 7} Dado que tanto el codificador como el decodificador del transformador están libres de elementos recurrentes, ambos pueden paralelizarse durante el entrenamiento. Sin embargo, el decodificador del transformador original sigue siendo autorregresivo, lo que significa que la decodificación todavía debe realizarse un token a la vez durante la inferencia.

El modelo de transformador se convirtió rápidamente en la opción dominante para los sistemas de traducción automática ^[2]^{: 44} y sigue siendo, con diferencia, la arquitectura más utilizada en el Taller sobre traducción automática estadística en 2022 y 2023. ^[32]^{: 35–40}^[33]^{: 28–31}

Por lo general, los pesos de los modelos NMT se inicializan aleatoriamente y luego se aprenden mediante el entrenamiento en conjuntos de datos paralelos. Sin embargo, dado que el uso de modelos de lenguaje grandes (LLM) como BERT preentrenados en grandes cantidades de datos monolingües como punto de partida para aprender otras tareas ha demostrado ser muy exitoso en NLP más amplio , este paradigma también se está volviendo más frecuente en NMT. Esto es especialmente útil para idiomas de bajos recursos, donde no existen grandes conjuntos de datos paralelos. ^[4]^{: 689–690} Un ejemplo de esto es el modelo mBART, que primero entrena un transformador en un conjunto de datos multilingües para recuperar tokens enmascarados en oraciones y luego afina el autocodificador resultante en la tarea de traducción. ^[34]

LLM generativos

En lugar de ajustar un modelo de lenguaje entrenado previamente en la tarea de traducción, también se puede incitar directamente a modelos generativos suficientemente grandes a traducir una oración al idioma deseado. Este enfoque fue probado y evaluado exhaustivamente por primera vez para GPT 3.5 en 2023 por Hendy et al. Descubrieron que "los sistemas GPT pueden producir resultados de traducción altamente fluidos y competitivos incluso en el entorno de disparo cero , especialmente para las traducciones de idiomas de altos recursos". ^[35]^{: 22} El WMT23 evaluó el mismo enfoque (pero utilizando GPT-4 ) y descubrió que estaba a la par con el estado del arte al traducir al inglés, pero no del todo al traducir a idiomas de menores recursos. ^[33]^{: 16–17} Esto es plausible considerando que los modelos GPT se entrenan principalmente en texto en inglés. ^[36]

Comparación con la traducción automática estadística

La NMT ha superado varios desafíos que estaban presentes en la traducción automática estadística (SMT):

La dependencia total de NMT de la representación continua de tokens superó los problemas de escasez causados por palabras o frases raras. Los modelos pudieron generalizar de manera más efectiva. ^[18]^{: 1}^[37]^{: 900–901}
La longitud limitada de los n-gramas utilizados en los modelos de lenguaje de n-gramas de SMT provocó una pérdida de contexto. Los sistemas NMT superan esto al no tener un límite estricto después de una cantidad fija de tokens y al utilizar la atención para elegir en qué tokens enfocarse al generar el siguiente token. ^[37]^{: 900–901}
El entrenamiento de extremo a extremo de un único modelo mejoró el rendimiento de la traducción y también simplificó todo el proceso. ^{[ cita requerida ]}
Los enormes modelos de n-gramas (hasta 7-gramas) utilizados en SMT requerían grandes cantidades de memoria, ^[38]^{: 88} mientras que NMT requiere menos.

Procedimiento de entrenamiento

Pérdida de entropía cruzada

Los modelos NMT suelen entrenarse para maximizar la probabilidad de observar los datos de entrenamiento. Es decir, para un conjunto de datos de oraciones fuente y oraciones objetivo correspondientes , el objetivo es encontrar los parámetros del modelo que maximicen la suma de la probabilidad de cada oración objetivo en los datos de entrenamiento dada la oración fuente correspondiente: ${\estilo de visualización T}$ $X=\mathbf {x} ^{(1)},...,\mathbf {x} ^{(T)}$ $Y=\mathbf {y} ^{(1)},...,\mathbf {y} ^{(T)}$ $\theta ^{*}$

$\theta ^{*}={\underset {\theta }{\operatorname {arg\,max} }}\sum _{i}^{T}P_{\theta }(\mathbf {y} ^{(i)}|\mathbf {x} ^{(i)})$

La expansión a nivel de token produce:

$\theta ^{*}={\underset {\theta }{\operatorname {arg\,max} }}\sum _{i}^{T}\prod _{j=1}^{J^{(i)}}P(y_{j}^{(i)}|y_{1,j-1}^{(i)},\mathbf {x} ^{(i)})$

Dado que sólo nos interesa el máximo, también podemos buscar el máximo del logaritmo (lo que tiene la ventaja de que evita el desbordamiento de punto flotante que podría ocurrir con el producto de probabilidades bajas).

$\theta ^{*}={\underset {\theta }{\operatorname {arg\,max} }}\sum _{i}^{T}\log \prod _{j=1}^{J^{(i)}}P(y_{j}^{(i)}|y_{1,j-1}^{(i)},\mathbf {x} ^{(i)})$

Utilizando el hecho de que el logaritmo de un producto es la suma de los logaritmos de los factores y cambiando el signo se obtiene la clásica pérdida de entropía cruzada :

$\theta ^{*}={\underset {\theta }{\operatorname {arg\,min} }}-\sum _{i}^{T}\log \sum _{j=1}^{J^{(i)}}P(y_{j}^{(i)}|y_{1,j-1}^{(i)},\mathbf {x} ^{(i)})$

En la práctica, esta minimización se realiza iterativamente en pequeños subconjuntos (minilotes) del conjunto de entrenamiento utilizando el descenso de gradiente estocástico .

Profesor forzado

Durante la inferencia, los decodificadores autorregresivos utilizan el token generado en el paso anterior como token de entrada. Sin embargo, el vocabulario de tokens de destino suele ser muy amplio. Por lo tanto, al comienzo de la fase de entrenamiento, los modelos no entrenados elegirán el token incorrecto casi siempre; y los pasos posteriores tendrían que trabajar con tokens de entrada incorrectos, lo que ralentizaría considerablemente el entrenamiento. En cambio, se utiliza la imposición del profesor durante la fase de entrenamiento: el modelo (el "estudiante" en la metáfora de la imposición del profesor) siempre recibe los tokens de verdad fundamental anteriores como entrada para el siguiente token, independientemente de lo que haya predicho en el paso anterior.

Traducción por LLM de ingeniería rápida

Como se describe en la sección de historia anterior, en lugar de utilizar un sistema NMT que se entrena con texto paralelo, también se puede solicitar a un LLM generativo que traduzca un texto. Estos modelos difieren de un sistema NMT de codificador-decodificador en varias formas: ^[35]^{: 1}

Los modelos de lenguaje generativo no se entrenan en la tarea de traducción, y mucho menos en un conjunto de datos paralelos. En cambio, se entrenan en un objetivo de modelado de lenguaje, como predecir la siguiente palabra en una secuencia extraída de un gran conjunto de datos de texto. Este conjunto de datos puede contener documentos en muchos idiomas, pero en la práctica está dominado por texto en inglés. ^[36] Después de este preentrenamiento, se afinan en otra tarea , generalmente para seguir instrucciones. ^[39]
Como no están entrenados para la traducción, tampoco cuentan con una arquitectura de codificador-decodificador, sino que simplemente consisten en un decodificador de transformador.
Para ser competitivos en la tarea de traducción automática, los LLM deben ser mucho más grandes que otros sistemas NMT. Por ejemplo, GPT-3 tiene 175 mil millones de parámetros, ^[40]^{: 5} mientras que mBART tiene 680 millones ^[34]^{: 727} y el transformer-big original tiene “solo” 213 millones. ^[31]^{: 9} Esto significa que son computacionalmente más costosos de entrenar y usar.

Un LLM generativo puede ser incitado de manera cero , simplemente pidiéndole que traduzca un texto a otro idioma sin dar más ejemplos en la indicación. O se pueden incluir uno o varios ejemplos de traducción en la indicación antes de pedir que se traduzca el texto en cuestión. Esto se denomina aprendizaje de una sola vez o de pocas veces , respectivamente. Por ejemplo, Hendy et al. (2023) utilizaron las siguientes indicaciones para la traducción cero veces y de una sola vez: ^[35]

### Traduce esta oración del [idioma de origen] al [idioma de destino], Fuente:[oración fuente]### Objetivo:

Traducir esto al 1. [idioma de destino]:[fuente de la toma 1]1. [referencia a la toma 1]Traducir esto al 1. [idioma de destino]:[aporte]1.

Literatura

Koehn, Philipp (2020). Traducción automática neuronal. Cambridge University Press.
Stahlberg, Felix (2020). Traducción automática neuronal: una revisión y un estudio.

Véase también

Referencias

^ abcdef Koehn, Philipp (2020). Traducción automática neuronal. Cambridge University Press.
^ abcdefg Stahlberg, Felix (29 de septiembre de 2020). "Traducción automática neuronal: una revisión y un estudio". arXiv : 1912.02047v2 [cs.CL].
^ Popel, Martín; Tomkova, Marketa; Tomek, Jakub; Káiser, Łukasz; Uszkoreit, Jakob; Bojar, Ondřej; Žabokrtský, Zdeněk (1 de septiembre de 2020). "Transformar la traducción automática: un sistema de aprendizaje profundo alcanza una calidad de traducción de noticias comparable a la de los profesionales humanos". Comunicaciones de la naturaleza . 11 (1): 4381. doi : 10.1038/s41467-020-18073-9. hdl : 11346/BIBLIO@id=368112263610994118 . ISSN 2041-1723. PMC 7463233 . PMID 32873773.
^ ab Haddow, Barry; Bawden, Rachel; Miceli Barone, Antonio Valerio; Helcl, Jindřich; Birch, Alexandra (2022). "Estudio de traducción automática de bajos recursos". Lingüística computacional . 48 (3): 673–732. arXiv : 2109.00486 . doi :10.1162/coli_a_00446.
^ ab Poibeau, Thierry (2022). Calzolari, Nicoletta; Béchet, Frédéric; Blache, Philippe; Choukri, Khalid; Cieri, Christopher; Declerck, Thierry; Goggi, Sara; Isahara, Hitoshi; Maegaard, Bente (eds.). "Sobre la "paridad humana" y el "rendimiento superhumano" en la evaluación de la traducción automática". Actas de la decimotercera Conferencia sobre recursos lingüísticos y evaluación . Marsella, Francia: European Language Resources Association: 6018–6023.
^ abcd Bronceado, Zhixing; Wang, Shuo; Yang, Zonghan; Chen, pandilla; Huang, Xuancheng; Sol, Maosong; Liu, Yang (31 de diciembre de 2020). "Traducción automática neuronal: una revisión de métodos, recursos y herramientas". arXiv : 2012.15515 [cs.CL].
^ Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). "12.4.5 Traducción automática neuronal". Aprendizaje profundo. MIT Press. págs. 468–471 . Consultado el 29 de diciembre de 2022 .
^ Allen, Robert B. (1987). Varios estudios sobre lenguaje natural y retropropagación. Primera conferencia internacional sobre redes neuronales del IEEE. Vol. 2. San Diego. págs. 335–341 . Consultado el 30 de diciembre de 2022 .
^ Chrisman, Lonnie (1991). "Aprendizaje de representaciones distribuidas recursivas para computación holística". Connection Science . 3 (4): 345–366. doi :10.1080/09540099108946592. ISSN 0954-0091.
^ Pollack, Jordan B. (1990). "Representaciones distribuidas recursivas". Inteligencia artificial . 46 (1): 77–105. doi :10.1016/0004-3702(90)90005-K.
^ Forcada, Mikel L.; Ñeco, Ramón P. (1997). "Memorias heteroasociativas recursivas para traducción". Computación biológica y artificial: de la neurociencia a la tecnología . Lecture Notes in Computer Science. Vol. 1240. págs. 453–462. doi :10.1007/BFb0032504. ISBN. 978-3-540-63047-0.
^ Castaño, Asunción; Casacuberta, Francisco (1997). Un enfoque conexionista a la traducción automática. V Conferencia Europea sobre Comunicación y Tecnología del Habla (Eurospeech 1997). Rodas, Grecia. pp. 91–94. doi :10.21437/Eurospeech.1997-50.
^ Castaño, Asunción; Casacuberta, Francisco; Vidal, Enrique (1997-07-23). Traducción automática utilizando redes neuronales y modelos de estados finitos. Actas de la 7ª Conferencia sobre cuestiones teóricas y metodológicas en traducción automática de lenguas naturales. St John's College, Santa Fe.
^ Yang, Shuoheng; Wang, Yuxin; Chu, Xiaowen (18 de febrero de 2020). "Un estudio de técnicas de aprendizaje profundo para la traducción automática neuronal". arXiv : 2002.07526 [cs.CL].
^ Schwenk, Holger; Dechelotte, Daniel; Gauvain, Jean-Luc (2006). Modelos de lenguaje espacial continuo para traducción automática estadística. Actas de las sesiones de pósteres de la conferencia principal COLING/ACL 2006. Sídney, Australia. págs. 723–730.
^ Schwenk, Holger (2007). "Modelos de lenguaje en el espacio continuo". Lenguaje y habla por computadora . 3 (21): 492–518. doi :10.1016/j.csl.2006.09.003.
^ Schwenk, Holger (2012). Modelos de traducción espacial continua para traducción automática estadística basada en frases. Actas de COLING 2012: carteles. Bombay, India. págs. 1071–1080.
^ ab Kalchbrenner, Nal; Blunsom, Philip (2013). "Modelos de traducción continua recurrente". Actas de la Asociación de Lingüística Computacional : 1700-1709.
^ Cho, Kyunghyun; van Merriënboer, Bart; Gulcehre, Caglar; Bahdanau, Dzmitry; Bougares, Fethi; Schwenk, Holger; Bengio, Yoshua (2014). Aprendizaje de representaciones de frases mediante el codificador-decodificador RNN para traducción automática estadística . Actas de la Conferencia de 2014 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP). Doha, Qatar: Asociación de Lingüística Computacional. págs. 1724–1734. arXiv : 1406.1078 . doi :10.3115/v1/D14-1179.
^ Sutskever, Ilya; Vinyals, Oriol; Le, Quoc V. (2014). "Aprendizaje secuencia a secuencia con redes neuronales". Avances en sistemas de procesamiento de información neuronal . 27 . Curran Associates, Inc.
^ Cho, Kyunghyun; van Merriënboer, Bart; Bahdanau, Dzmitry; Bengio, Yoshua (2014). Sobre las propiedades de la traducción automática neuronal: enfoques de codificador-decodificador . Actas del SSST-8, octavo taller sobre sintaxis, semántica y estructura en la traducción estadística. Doha, Qatar: Asociación de Lingüística Computacional. págs. 103–111. arXiv : 1409.1259 . doi :10.3115/v1/W14-4012.
^ Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (2014). "Traducción automática neuronal mediante el aprendizaje conjunto de alineación y traducción". arXiv : 1409.0473 [cs.CL].
^ ab Wang, Haifeng; Wu, Hua; Él, Zhongjun; Huang, Liang; Iglesia, Kenneth Ward (1 de noviembre de 2022). "Avances en la traducción automática". Ingeniería . 18 : 143-153. doi :10.1016/j.eng.2021.03.023.
^ Wu, Yonghui; Schuster, Mike; Chen, Zhifeng; Le, Quoc V.; Norouzi, Mohammad; Macherey, Wolfgang; Krikun, Maxim; Cao, Yuan; Gao, Qin; Macherey, Klaus; Klingner, Jeff; Shah, Apurva; Johnson, Melvin; Liu, Xiaobing; Kaiser, Łukasz (2016). "El sistema de traducción automática neuronal de Google: cerrando la brecha entre la traducción humana y la traducción automática". arXiv : 1609.08144 [cs.CL].
^ Bojar, Ondrej; Chatterjee, Rajen; Federmann, Christian; Graham, Yvette; Haddow, Barry; Huck, Matthias; Yepes, Antonio Jimeno; Koehn, Philipp; Logacheva, Varvara; Monz, Christof; Negri, Matteo; Névéol, Aurélie; Neves, Mariana; Popel, Martin; Post, Matt; Rubino, Raphael; Scarton, Carolina; Specia, Lucia; Turchi, Marco; Verspoor, Karin; Zampieri, Marcos (2016). "Hallazgos de la Conferencia de 2016 sobre traducción automática" (PDF) . ACL 2016 Primera Conferencia sobre Traducción Automática (WMT16) . La Asociación de Lingüística Computacional: 131–198. Archivado desde el original (PDF) el 2018-01-27 . Consultado el 2018-01-27 .
^ Gehring, Jonas; Auli, Michael; Grangier, David; Dauphin, Yann (2017). Un modelo de codificador convolucional para la traducción automática neuronal. Actas de la 55.ª reunión anual de la Asociación de Lingüística Computacional (volumen 1: artículos extensos). Vancouver, Canadá: Asociación de Lingüística Computacional. págs. 123–135. arXiv : 1611.02344 . doi :10.18653/v1/P17-1012.
^ Translator, Microsoft (18 de abril de 2018). "Microsoft ofrece traducción basada en inteligencia artificial a los usuarios finales y desarrolladores, ya sea que estén en línea o fuera de línea". Blog de Microsoft Translator . Consultado el 19 de abril de 2024 . {{cite web}}: |last=tiene nombre genérico ( ayuda )
^ Coldewey, Devin (29 de agosto de 2017). "DeepL enseña a otros traductores en línea con un inteligente aprendizaje automático". TechCrunch . Consultado el 26 de diciembre de 2023 .
^ Leloup, Damián; Larousserie, David (29 de agosto de 2022). "¿Quel est le meilleur service de traduction en ligne?". El Mundo . Consultado el 10 de enero de 2023 .
^ Pakalski, Ingo (29 de agosto de 2017). "DeepL en Hands On: Nueva herramienta superada por Google y Microsoft". Gólem . Consultado el 10 de enero de 2023 .
^ ab Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Gomez, Aidan N.; Kaiser, Łukasz; Polosukhin, Illia (2017). La atención es todo lo que necesitas. Avances en sistemas de procesamiento de información neuronal 30 (NIPS 2017). págs. 5998–6008.
^ Kocmi, Tom; Bawden, Rachel; Bojar, Ondřej; Dvorkovich, Anton; Federmann, Christian; Fishel, Mark; Gowda, Thamme; Graham, Yvette; Grundkiewicz, Roman; Haddow, Barry; Knowles, Rebecca; Koehn, Philipp; Monz, Christof; Morishita, Makoto; Nagata, Masaaki (2022). Koehn, Philipp; Barrault, Loïc; Bojar, Ondřej; Bougares, Fethi; Chatterjee, Rajen; Costa-jussà, Marta R.; Federmann, Christian; Fishel, Mark; Fraser, Alexander (eds.). Hallazgos de la Conferencia de 2022 sobre traducción automática (WMT22). Actas de la Séptima Conferencia sobre Traducción Automática (WMT). Abu Dabi, Emiratos Árabes Unidos (Híbrido): Asociación de Lingüística Computacional. págs. 1–45.
^ ab Kocmi, Tom; Avramidis, Eleftherios; Bawden, Rachel; Bojar, Ondřej; Dvorkovich, Anton; Federmann, Christian; Fishel, Mark; Freitag, Markus; Gowda, Thamme; Grundkiewicz, Roman; Haddow, Barry; Koehn, Philipp; Marie, Benjamin; Monz, Christof; Morishita, Makoto (2023). Koehn, Philipp; Haddow, Barry; Kocmi, Tom; Monz, Christof (eds.). Hallazgos de la Conferencia de 2023 sobre traducción automática (WMT23): los LLM están aquí, pero aún no están del todo allí. Actas de la Octava Conferencia sobre Traducción Automática . Singapur: Asociación de Lingüística Computacional. págs. 1–42. doi : 10.18653/v1/2023.wmt-1.1 .
^ ab Liu, Yinhan; Gu, Jiatao; Goyal, Naman; Li, Xian; Edunov, Sergey; Ghazvininejad, Marjan; Lewis, Mike; Zettlemoyer, Luke (2020). "Preentrenamiento de eliminación de ruido multilingüe para traducción automática neuronal". Transacciones de la Asociación de Lingüística Computacional . 8 : 726–742. arXiv : 2001.08210 . doi :10.1162/tacl_a_00343.
^ abc Hendy, Amr; Abdelrehim, Mohamed; Sharaf, Amr; Raunak, Vikas; Gabr, Mohamed; Matsushita, Hitokazu; Kim, Young Jin; Afify, Mohamed; Awadalla, Hany (18 de febrero de 2023). "¿Qué tan buenos son los modelos GPT en la traducción automática? Una evaluación integral". arXiv : 2302.09210 [cs.CL].
^ ab "Estadísticas del conjunto de datos GPT 3: idiomas por cantidad de caracteres". OpenAI. 2020-06-01 . Consultado el 2023-12-23 .
^ ab Russell, Stuart; Norvig, Peter. Inteligencia artificial: un enfoque moderno (4.ª edición global). Pearson.
^ Federico, Marcello; Cettolo, Mauro (2007). Callison-Burch, Chris; Koehn, Philipp; Fordyce, Cameron Shaw; Monz, Christof (eds.). "Manejo eficiente de modelos de lenguaje de n-gramas para traducción automática estadística". Actas del segundo taller sobre traducción automática estadística . Praga, República Checa: Asociación de Lingüística Computacional: 88–95. doi :10.3115/1626355.1626367.
^ Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (2018). Mejorar la comprensión del lenguaje mediante el preentrenamiento generativo (PDF) (Informe técnico). OpenAI . Consultado el 26 de diciembre de 2023 .
^ Brown, Tom; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared D; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon (2020). "Los modelos de lenguaje son aprendices de pocas oportunidades". Avances en sistemas de procesamiento de información neuronal . 33 . Curran Associates, Inc.: 1877–1901.