Traducción automática neuronal

La traducción automática neuronal ( NMT ) es un enfoque de la traducción automática que utiliza una red neuronal artificial para predecir la probabilidad de una secuencia de palabras, generalmente modelando oraciones completas en un único modelo integrado.

Es el enfoque dominante hoy en día ^[1]^{: 293}^[2]^{: 1} y puede producir traducciones que rivalizan con las traducciones humanas cuando se traduce entre idiomas con altos recursos en condiciones específicas. ^[3] Sin embargo, aún quedan desafíos, especialmente con los idiomas donde hay menos datos de alta calidad disponibles, ^[4]^[5]^[1]^{: 293} y con el cambio de dominio entre los datos con los que se entrenó un sistema y los textos en los que se basa. se supone que debe traducir. ^[1]^{: 293} Los sistemas NMT también tienden a producir traducciones bastante literales. ^[5]

Descripción general

En la tarea de traducción, una oración (que consta de tokens ) en el idioma de origen debe traducirse a una oración (que consta de tokens ) en el idioma de destino. Los tokens de origen y de destino (que en el evento simple se usan entre sí para un juego en particular) son vectores, por lo que pueden procesarse matemáticamente. $\mathbf {x} =x_{1,I}$ $I$ $x_{i}$ $\mathbf {y} =x_{1,J}$ $J$ $x_{j}$

Los modelos NMT asignan una probabilidad ^[2]^{: 5}^[6]^{: 1} a las posibles traducciones y y luego buscan en un subconjunto de posibles traducciones la que tiene la mayor probabilidad. La mayoría de los modelos NMT son autorregresivos : modelan la probabilidad de cada token objetivo en función de la oración fuente y los tokens objetivo previamente predichos. La probabilidad de toda la traducción es entonces el producto de las probabilidades de los tokens predichos individuales: ^[2]^{: 5}^[6]^{: 2} $P(y|x)$

P(y|x)=\prod _{j=1}^{J}P(y_{j}|y_{1,i-1},\mathbf {x} )

Los modelos NMT difieren en cómo modelan exactamente esta función , pero la mayoría usa alguna variación de la arquitectura codificador-decodificador : ^[6]^{: 2}^[7]^{: 469} Primero usan una red codificadora para procesarla y codificarla en una representación vectorial o matricial. de la oración fuente. Luego utilizan una red decodificadora que generalmente produce una palabra de destino a la vez, teniendo en cuenta la representación de origen y los tokens que produjo previamente. Tan pronto como el decodificador produce un token especial de final de oración , el proceso de decodificación finaliza. Dado que el decodificador hace referencia a sus propias salidas anteriores durante, esta forma de decodificación se denomina autorregresiva . $P$ $\mathbf {x}$

Historia

Enfoques tempranos

En 1987, Robert B. Allen demostró el uso de redes neuronales de retroalimentación para traducir al español oraciones en inglés generadas automáticamente con un vocabulario limitado de 31 palabras. En este experimento, el tamaño de las capas de entrada y salida de la red se eligió para que fuera lo suficientemente grande para las oraciones más largas en el idioma de origen y de destino, respectivamente, porque la red no tenía ningún mecanismo para codificar secuencias de longitud arbitraria en un formato fijo. -representación de tamaño. En su resumen, Allen también insinuó la posibilidad de utilizar modelos autoasociativos, uno para codificar la fuente y otro para decodificar el destino. ^[8]

Lonnie Chrisman se basó en el trabajo de Allen en 1991 entrenando redes separadas de memoria autoasociativa recursiva (RAAM) (desarrolladas por Jordan B. Pollack ^[9] ) para el idioma de origen y el de destino. Cada una de las redes RAAM está entrenada para codificar una oración de longitud arbitraria en una representación oculta de tamaño fijo y decodificar nuevamente la oración original a partir de esa representación. Además, las dos redes también están entrenadas para compartir su representación oculta; De esta manera, el codificador de origen puede producir una representación que el decodificador de destino puede decodificar. ^[10] Forcada y Ñeco simplificaron este procedimiento en 1997 para entrenar directamente un codificador de origen y un decodificador de destino en lo que llamaron una memoria heteroasociativa recursiva . ^[11]

También en 1997, Castaño y Casacuberta emplearon una red neuronal recurrente de Elman en otra tarea de traducción automática con vocabulario y complejidad muy limitados. ^[12]^[13]

Aunque estos primeros enfoques ya eran similares a la NMT moderna, los recursos informáticos de la época no eran suficientes para procesar conjuntos de datos lo suficientemente grandes para la complejidad computacional del problema de la traducción automática de textos del mundo real. ^[1]^{: 39}^[14]^{: 2} En cambio, otros métodos, como la traducción automática estadística, surgieron hasta convertirse en el estado del arte de las décadas de 1990 y 2000.

Enfoques híbridos

Durante la época en que prevalecía la traducción automática estadística, algunos trabajos utilizaban métodos neuronales para reemplazar varias partes de la traducción automática estadística y al mismo tiempo utilizaban el enfoque log-lineal para unirlas. ^[1]^{: 39}^[2]^{: 1} Por ejemplo, en varios trabajos junto con otros investigadores, Holger Schwenk reemplazó el modelo de lenguaje de n-gramas habitual por uno neuronal ^[15]^[16] y estimó las probabilidades de traducción de frases utilizando un feed- red directa. ^[17]

NMT se vuelve dominante

CNN y RNN

En 2013 y 2014, la traducción automática neuronal de extremo a extremo tuvo su gran avance con Kalchbrenner & Blunsom utilizando una red neuronal convolucional (CNN) para codificar la fuente ^[18] y tanto Cho et al. y Sutskever et al. utilizando una red neuronal recurrente (RNN) en su lugar. ^[19]^[20] Los tres utilizaron un RNN condicionado a una codificación fija de la fuente como su decodificador para producir la traducción. Sin embargo, estos modelos obtuvieron malos resultados en sentencias más largas. ^[21]^{: 107}^[1]^{: 39}^[2]^{: 7} Este problema se abordó cuando Bahdanau et al. prestó atención a su arquitectura codificador-decodificador: en cada paso de decodificación, el estado del decodificador se utiliza para calcular una representación de la fuente que se centra en diferentes partes de la fuente y utiliza esa representación en el cálculo de las probabilidades para el siguiente token. ^[22] Basado en estas arquitecturas basadas en RNN, Baidu lanzó el "primer sistema NMT a gran escala" ^[23]^{: 144} en 2015, seguido de Google en 2016. ^[23]^{: 144}^[24] A partir de ese año, neural Los modelos también se convirtieron en la opción predominante en la principal conferencia de traducción automática, el Taller sobre traducción automática estadística. ^[25]

Gehring et al. combinó un codificador CNN con un mecanismo de atención en 2017, que manejó dependencias de largo alcance en la fuente mejor que los enfoques anteriores y también aumentó la velocidad de traducción porque un codificador CNN es paralelizable, mientras que un codificador RNN tiene que codificar un token a la vez debido a su carácter recurrente. ^[26]^{: 230} Ese mismo año, “Microsoft Translator lanzó la traducción automática neuronal (NMT) en línea impulsada por IA. ^[27] DeepL Translator , que en ese momento se basaba en un codificador de CNN, también se lanzó el mismo año y varios medios de noticias consideraron que superaba a sus competidores. ^[28]^[29]^[30] También se ha visto que el GPT-3 de OpenAI lanzado en 2020 puede funcionar como un sistema de traducción automática neuronal. También se puede ver que algunos otros sistemas de traducción automática, como el traductor de Microsoft y SYSTRAN, han integrado redes neuronales en sus operaciones.

el transformador

Otra arquitectura de red que se presta a la paralelización es el transformador , que fue introducido por Vaswani et al. también en 2017. ^[31] Al igual que los modelos anteriores, el transformador todavía utiliza el mecanismo de atención para ponderar la salida del codificador para los pasos de decodificación. Sin embargo, las redes codificadoras y decodificadoras del transformador también se basan en la atención en lugar de la recurrencia o la convolución: cada capa pondera y transforma la salida de la capa anterior en un proceso llamado autoatención . Dado que el mecanismo de atención no tiene ninguna noción de orden de los tokens, pero el orden de las palabras en una oración es obviamente relevante, las incrustaciones de tokens se combinan con una codificación explícita de su posición en la oración . ^[2]^{: 15}^[6]^{: 7} Dado que tanto el codificador como el decodificador del transformador están libres de elementos recurrentes, ambos pueden paralelizarse durante el entrenamiento. Sin embargo, el decodificador del transformador original sigue siendo autorregresivo, lo que significa que la decodificación aún debe realizarse token por token durante la inferencia.

El modelo transformador se convirtió rápidamente en la opción dominante para los sistemas de traducción automática ^[2]^{: 44} y seguía siendo, con diferencia, la arquitectura más utilizada en el Taller sobre traducción automática estadística en 2022 y 2023. ^[32]^{: 35–40}^[33]^{: 28–31}

Por lo general, los pesos de los modelos NMT se inicializan aleatoriamente y luego se aprenden entrenando en conjuntos de datos paralelos. Sin embargo, dado que el uso de modelos de lenguaje grande (LLM), como BERT previamente entrenado en grandes cantidades de datos monolingües como punto de partida para aprender otras tareas, ha demostrado ser muy exitoso en la PNL en general , este paradigma también se está volviendo más frecuente en la NMT. Esto es especialmente útil para lenguajes de bajos recursos, donde no existen grandes conjuntos de datos paralelos. ^[4]^{: 689–690} Un ejemplo de esto es el modelo mBART, que primero entrena un transformador en un conjunto de datos multilingüe para recuperar tokens enmascarados en oraciones y luego ajusta el codificador automático resultante en la tarea de traducción. ^[34]

LLM generativos

En lugar de ajustar un modelo de lenguaje previamente entrenado en la tarea de traducción, también se puede solicitar directamente a modelos generativos suficientemente grandes que traduzcan una oración al idioma deseado. Este enfoque fue probado y evaluado exhaustivamente por primera vez para GPT 3.5 en 2023 por Hendy et al. Descubrieron que "los sistemas GPT pueden producir resultados de traducción altamente fluidos y competitivos incluso en la configuración de cero disparos, especialmente para las traducciones de idiomas de altos recursos". ^[35]^{: 22} El WMT23 evaluó el mismo enfoque (pero usando GPT-4 ) y encontró que estaba a la par con el estado del arte cuando se traducía al inglés, pero no del todo cuando se traducía a idiomas de menores recursos. ^[33]^{: 16–17} Esto es plausible considerando que los modelos GPT se entrenan principalmente en texto en inglés. ^[36]

Comparación con la traducción automática estadística

NMT ha superado varios desafíos que estaban presentes en la traducción automática estadística (SMT):

La total dependencia de NMT de la representación continua de tokens superó los problemas de escasez causados por palabras o frases raras. Los modelos pudieron generalizar de manera más efectiva. ^[18]^{: 1}^[37]^{: 900–901}
La longitud limitada de n-gramas utilizada en los modelos de lenguaje de n-gramas de SMT provocó una pérdida de contexto. Los sistemas NMT superan esto al no tener un límite estricto después de una cantidad fija de tokens y al prestar atención a la elección de en qué tokens centrarse al generar el siguiente token. ^[37]^{: 900–901}
La capacitación integral de un único modelo mejoró el rendimiento de la traducción y también simplificó todo el proceso. ^{[ cita necesaria ]}
Los enormes modelos de n-gramas (hasta 7 gramos) utilizados en SMT requerían grandes cantidades de memoria, ^[38]^{: 88} mientras que NMT requiere menos.

Procedimiento de entrenamiento

Pérdida de entropía cruzada

Los modelos NMT generalmente se entrenan para maximizar la probabilidad de observar los datos de entrenamiento. Es decir, para un conjunto de datos de oraciones fuente y oraciones objetivo correspondientes , el objetivo es encontrar los parámetros del modelo que maximicen la suma de la probabilidad de cada oración objetivo en los datos de entrenamiento dada la oración fuente correspondiente: $T$ $X=\mathbf {x} ^{(1)},...,\mathbf {x} ^{(T)}$ $Y=\mathbf {y} ^{(1)},...,\mathbf {y} ^{(T)}$ $\theta ^{*}$

\theta ^{*}={\underset {\theta }{\operatorname {arg\,max} }}\sum _{i}^{T}P_{\theta }(\mathbf {y} ^ {(i)}|\mathbf {x} ^{(i)})

La expansión a nivel de token produce:

\theta ^{*}={\underset {\theta }{\operatorname {arg\,max} }}\sum _{i}^{T}\prod _{j=1}^{J^ {(i)}}P(y_{j}^{(i)}|y_{1,j-1}^{(i)},\mathbf {x} ^{(i)})

Como sólo estamos interesados en el máximo, también podemos buscar el máximo del logaritmo (lo que tiene la ventaja de que evita el desbordamiento de coma flotante que podría ocurrir con el producto de probabilidades bajas).

\theta ^{*}={\underset {\theta }{\operatorname {arg\,max} }}\sum _{i}^{T}\log \prod _{j=1}^{ J^{(i)}}P(y_{j}^{(i)}|y_{1,j-1}^{(i)},\mathbf {x} ^{(i)})

Utilizando el hecho de que el logaritmo de un producto es la suma de los logaritmos de los factores y cambiando el signo se obtiene la clásica pérdida de entropía cruzada :

\theta ^{*}={\underset {\theta }{\operatorname {arg\,min} }}-\sum _{i}^{T}\log \sum _{j=1}^ {J^{(i)}}P(y_{j}^{(i)}|y_{1,j-1}^{(i)},\mathbf {x} ^{(i)})

En la práctica, esta minimización se realiza de forma iterativa en pequeños subconjuntos (minilotes) del conjunto de entrenamiento mediante un descenso de gradiente estocástico .

Maestro forzando

Durante la inferencia, los decodificadores autorregresivos utilizan el token generado en el paso anterior como token de entrada. Sin embargo, el vocabulario de los tokens de destino suele ser muy amplio. Por lo tanto, al comienzo de la fase de entrenamiento, los modelos no entrenados casi siempre elegirán el token incorrecto; y los pasos posteriores tendrían que funcionar con tokens de entrada incorrectos, lo que ralentizaría considerablemente el entrenamiento. En cambio, el forzado del profesor se utiliza durante la fase de formación: el modelo (el “estudiante” en la metáfora del forzado del profesor) siempre recibe los tokens de verdad fundamentales anteriores como entrada para el siguiente token, independientemente de lo que predijo en el paso anterior.

Traducción por LLM de ingeniería rápida

Como se describe en la sección de historia anterior, en lugar de utilizar un sistema NMT entrenado en texto paralelo, también se puede solicitar a un LLM generativo que traduzca un texto. Estos modelos se diferencian de un sistema NMT codificador-decodificador en varios aspectos: ^[35]^{: 1}

Los modelos de lenguaje generativo no están entrenados en la tarea de traducción, y mucho menos en un conjunto de datos paralelo. En cambio, se les entrena con un objetivo de modelado del lenguaje, como predecir la siguiente palabra en una secuencia extraída de un gran conjunto de datos de texto. Este conjunto de datos puede contener documentos en muchos idiomas, pero en la práctica está dominado por texto en inglés. ^[36] Después de este entrenamiento previo, se les afina en otra tarea , generalmente para seguir instrucciones. ^[39]
Como no están capacitados en traducción, tampoco cuentan con una arquitectura codificador-decodificador. En cambio, consisten simplemente en un decodificador de transformador.
Para ser competitivos en la tarea de traducción automática, los LLM deben ser mucho más grandes que otros sistemas NMT. Por ejemplo, GPT-3 tiene 175 mil millones de parámetros, ^[40]^{: 5} mientras que mBART tiene 680 millones ^[34]^{: 727} y el transformador grande original tiene “sólo” 213 millones. ^[31]^{: 9} Esto significa que son computacionalmente más costosos de entrenar y utilizar.

A un LLM generativo se le puede solicitar de forma inmediata simplemente pidiéndole que traduzca un texto a otro idioma sin dar más ejemplos en el mensaje. O se pueden incluir una o varias traducciones de ejemplo en el mensaje antes de solicitar la traducción del texto en cuestión. A esto se le llama aprendizaje de una sola vez o de pocas oportunidades , respectivamente. Por ejemplo, Hendy et al. utilizaron las siguientes indicaciones. (2023) para traducción de una sola vez y cero: ^[35]

### Traducir esta oración del [idioma de origen] al [idioma de destino], Fuente:[frase fuente]### Objetivo:

Traduce esto al 1. [idioma de destino]:[disparo 1 fuente]1. [referencia del tiro 1]Traduce esto al 1. [idioma de destino]:[aporte]1.

Literatura

Koehn, Philipp (2020). Traducción automática neuronal. Prensa de la Universidad de Cambridge.
Stahlberg, Félix (2020). Traducción automática neuronal: revisión y encuesta.

Ver también

Referencias

^ abcdef Koehn, Philipp (2020). Traducción automática neuronal. Prensa de la Universidad de Cambridge.
^ abcdefg Stahlberg, Félix (29 de septiembre de 2020). "Traducción automática neuronal: revisión y encuesta". arXiv : 1912.02047v2 [cs.CL].
^ Popel, Martín; Tomkova, Marketa; Tomek, Jakub; Káiser, Łukasz; Uszkoreit, Jakob; Bojar, Ondřej; Žabokrtský, Zdeněk (1 de septiembre de 2020). "Transformar la traducción automática: un sistema de aprendizaje profundo alcanza una calidad de traducción de noticias comparable a la de los profesionales humanos". Comunicaciones de la naturaleza . 11 (1): 4381. doi : 10.1038/s41467-020-18073-9. hdl : 11346/BIBLIO@id=368112263610994118 . ISSN 2041-1723. PMC 7463233 . PMID 32873773.
^ ab Haddow, Barry; Bawden, Raquel; Miceli Barone, Antonio Valerio; Helcl, Jindřich; Abedul, Alexandra (2022). "Encuesta sobre traducción automática de bajos recursos". Ligüística computacional . 48 (3): 673–732. arXiv : 2109.00486 . doi :10.1162/coli_a_00446.
^ ab Poibeau, Thierry (2022). Calzolari, Nicoletta; Béchet, Frédéric; Blache, Philippe; Choukri, Khalid; Cieri, Cristóbal; Declerk, Thierry; Goggi, Sara; Isahara, Hitoshi; Maegaard, Bente (eds.). "Sobre la "paridad humana" y el "rendimiento superhumano" en la evaluación de la traducción automática". Actas de la decimotercera conferencia de evaluación y recursos lingüísticos . Marsella, Francia: Asociación Europea de Recursos Lingüísticos: 6018–6023.
^ abcd Bronceado, Zhixing; Wang, Shuo; Yang, Zonghan; Chen, pandilla; Huang, Xuancheng; Sol, Maosong; Liu, Yang (31 de diciembre de 2020). "Traducción automática neuronal: una revisión de métodos, recursos y herramientas". arXiv : 2012.15515 [cs.CL].
^ Buen compañero, Ian; Bengio, Yoshua; Courville, Aarón (2016). "12.4.5 Traducción automática neuronal". Aprendizaje profundo. Prensa del MIT. págs. 468–471 . Consultado el 29 de diciembre de 2022 .
^ Allen, Robert B. (1987). Varios estudios sobre lenguaje natural y retropropagación. Primera Conferencia Internacional del IEEE sobre Redes Neuronales. vol. 2.San Diego. págs. 335–341 . Consultado el 30 de diciembre de 2022 .
^ Chrisman, Lonnie (1991). "Aprendizaje de representaciones distribuidas recursivas para la computación holística". Ciencia de la conexión . 3 (4): 345–366. doi :10.1080/09540099108946592. ISSN 0954-0091.
^ Pollack, Jordan B. (1990). "Representaciones distribuidas recursivas". Inteligencia artificial . 46 (1): 77-105. doi :10.1016/0004-3702(90)90005-K.
^ Forcada, Mikel L.; Ñeco, Ramón P. (1997). Memorias heteroasociativas recursivas para traducción . Apuntes de conferencias sobre informática. vol. 1240, págs. 453–462. doi :10.1007/BFb0032504. ISBN 978-3-540-63047-0. {{cite book}}: |journal=ignorado ( ayuda )
^ Castaño, Asunción; Casacuberta, Francisco (1997). Un enfoque conexionista de la traducción automática. Quinta Conferencia Europea sobre Tecnología y Comunicación del Habla (Eurospeech 1997). Rodas, Grecia. págs. 91–94. doi :10.21437/Eurospeech.1997-50.
^ Castaño, Asunción; Casacuberta, Francisco; Vidal, Enrique (23 de julio de 1997). Traducción automática mediante redes neuronales y modelos de estados finitos. Actas del VII Congreso sobre cuestiones teóricas y metodológicas de la traducción automática de lenguajes naturales. Colegio de San Juan, Santa Fe.
^ Yang, Shuoheng; Wang, Yuxin; Chu, Xiaowen (18 de febrero de 2020). "Un estudio sobre técnicas de aprendizaje profundo para la traducción automática neuronal". arXiv : 2002.07526 [cs.CL].
^ Schwenk, Holger; Dechelotte, Daniel; Gauvain, Jean-Luc (2006). Modelos de lenguaje espacial continuo para traducción automática estadística. Actas de las sesiones de carteles de la conferencia principal de COLING/ACL 2006. Sydney, Australia. págs. 723–730.
^ Schwenk, Holger (2007). "Modelos de lenguaje espacial continuo". Habla y lenguaje informático . 3 (21): 492–518. doi : 10.1016/j.csl.2006.09.003.
^ Schwenk, Holger (2012). Modelos de traducción espacial continua para traducción automática estadística basada en frases. Actas de COLING 2012: Carteles. Mumbai, India. págs. 1071-1080.
^ ab Kalchbrenner, Nal; Blunsom, Felipe (2013). "Modelos de traducción continua recurrentes". Actas de la Asociación de Lingüística Computacional : 1700-1709.
^ Cho, Kyunghyun; van Merriënboer, Bart; Gulcehre, Caglar; Bahdanau, Dzmitry; Bougarés, Fethi; Schwenk, Holger; Bengio, Yoshua (2014). Aprendizaje de representaciones de frases mediante codificador-decodificador RNN para traducción automática estadística . Actas de la Conferencia de 2014 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP). Doha, Qatar: Asociación de Lingüística Computacional. págs. 1724-1734. arXiv : 1406.1078 . doi :10.3115/v1/D14-1179.
^ Sutskever, Ilya; Vinyals, Oriol; Le, Quoc V. (2014). "Aprendizaje secuencia a secuencial con redes neuronales". Avances en los sistemas de procesamiento de información neuronal . 27 . Curran asociados, Inc.
^ Cho, Kyunghyun; van Merriënboer, Bart; Bahdanau, Dzmitry; Bengio, Yoshua (2014). "Sobre las propiedades de la traducción automática neuronal: enfoques codificador-decodificador" . Actas de SSST-8, Octavo taller sobre sintaxis, semántica y estructura en traducción estadística. Doha, Qatar: Asociación de Lingüística Computacional. págs. 103-111. arXiv : 1409.1259 . doi :10.3115/v1/W14-4012.
^ Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (2014). "Traducción automática neuronal mediante el aprendizaje conjunto de alinear y traducir". arXiv : 1409.0473 [cs.CL].
^ ab Wang, Haifeng; Wu, Hua; Él, Zhongjun; Huang, Liang; Iglesia, Kenneth Ward (1 de noviembre de 2022). "Avances en la traducción automática". Ingeniería . 18 : 143-153. doi :10.1016/j.eng.2021.03.023.
^ Wu, Yonghui; Schuster, Mike; Chen, Zhifeng; Le, Quoc V.; Norouzi, Mohammad; Macherey, Wolfgang; Krikún, Maxim; Cao, Yuan; Gao, Qin; Macherey, Klaus; Klingner, Jeff; Shah, Apurva; Johnson, Melvin; Liu, Xiaobing; Kaiser, Lukasz (2016). "Sistema de traducción automática neuronal de Google: reduciendo la brecha entre la traducción humana y automática". arXiv : 1609.08144 [cs.CL].
^ Bojar, Ondrej; Chatterjee, Rajen; Federmann, cristiano; Graham, Yvette; Haddow, Barry; Huck, Matías; Yepes, Antonio Jimeno; Koehn, Philipp; Logacheva, Varvara; Monz, Christof; Negri, Mateo; Nevéol, Aurélie; Neves, Mariana; Popel, Martín; Publicar, Matt; Rubino, Rafael; Scarton, Carolina; Specia, Lucía; Turchi, Marco; Verspoor, Karin; Zampieri, Marcos (2016). "Hallazgos de la Conferencia sobre traducción automática de 2016" (PDF) . Primera Conferencia ACL 2016 sobre Traducción Automática (WMT16) . La Asociación de Lingüística Computacional: 131–198. Archivado desde el original (PDF) el 27 de enero de 2018 . Consultado el 27 de enero de 2018 .
^ Gehring, Jonás; Auli, Michael; Granger, David; Delfín, Yann (2017). Un modelo de codificador convolucional para traducción automática neuronal. Actas de la 55ª Reunión Anual de la Asociación de Lingüística Computacional (Volumen 1: Artículos extensos). Vancouver, Canadá: Asociación de Lingüística Computacional. págs. 123-135. arXiv : 1611.02344 . doi :10.18653/v1/P17-1012.
^ Traductor, Microsoft (18 de abril de 2018). "Microsoft ofrece traducción basada en IA a usuarios finales y desarrolladores, ya sea que estén en línea o fuera de línea". Blog del traductor de Microsoft . Consultado el 19 de abril de 2024 . {{cite web}}: |last=tiene nombre genérico ( ayuda )
^ Coldewey, Devin (29 de agosto de 2017). "DeepL enseña a otros traductores en línea con aprendizaje automático inteligente". TechCrunch . Consultado el 26 de diciembre de 2023 .
^ Leloup, Damián; Larousserie, David (29 de agosto de 2022). "¿Quel est le meilleur service de traduction en ligne?". El Mundo . Consultado el 10 de enero de 2023 .
^ Pakalski, Ingo (29 de agosto de 2017). "DeepL en Hands On: Nueva herramienta superada por Google y Microsoft". Gólem . Consultado el 10 de enero de 2023 .
^ ab Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Gómez, Aidán N.; Káiser, Łukasz; Polosukhin, Illia (2017). Atención es todo lo que necesita. Avances en sistemas de procesamiento de información neuronal 30 (NIPS 2017). págs. 5998–6008.
^ Kocmi, Tom; Bawden, Raquel; Bojar, Ondřej; Dvorkovich, Antón; Federmann, cristiano; Fishel, Marcos; Gowda, Thammé; Graham, Yvette; Grundkiewicz, romano; Haddow, Barry; Knowles, Rebeca; Koehn, Philipp; Monz, Christof; Morishita, Makoto; Nagata, Masaaki (2022). Koehn, Philipp; Barrault, Loïc; Bojar, Ondřej; Bougarés, Fethi; Chatterjee, Rajen; Costa-jussà, Marta R.; Federmann, cristiano; Fishel, Marcos; Fraser, Alejandro (eds.). Hallazgos de la Conferencia sobre traducción automática de 2022 (WMT22). Actas de la Séptima Conferencia sobre Traducción Automática (WMT). Abu Dhabi, Emiratos Árabes Unidos (híbrido): Asociación de Lingüística Computacional. págs. 1–45.
^ ab Kocmi, Tom; Avramidis, Eleftherios; Bawden, Raquel; Bojar, Ondřej; Dvorkovich, Antón; Federmann, cristiano; Fishel, Marcos; Freitag, Markus; Gowda, Thammé; Grundkiewicz, romano; Haddow, Barry; Koehn, Philipp; María, Benjamín; Monz, Christof; Morishita, Makoto (2023). Koehn, Philipp; Haddow, Barry; Kocmi, Tom; Monz, Christof (eds.). Hallazgos de la Conferencia sobre traducción automática de 2023 (WMT23): los LLM están aquí, pero aún no han llegado. Actas de la Octava Conferencia sobre Traducción Automática . Singapur: Asociación de Lingüística Computacional. págs. 1–42. doi : 10.18653/v1/2023.wmt-1.1 .
^ ab Liu, Yinhan; Gu, Jiatao; Goyal, Naman; Li, Xian; Edunov, Sergey; Ghazvininejad, Marjan; Lewis, Mike; Zettlemoyer, Lucas (2020). "Preentrenamiento multilingüe de eliminación de ruido para traducción automática neuronal". Transacciones de la Asociación de Lingüística Computacional . 8 : 726–742. arXiv : 2001.08210 . doi :10.1162/tacl_a_00343.
^ abc Hendy, Amr; Abdelrehim, Mohamed; Sharaf, Amr; Raunak, Vikas; Gabr, Mohamed; Matsushita, Hitokazu; Kim, joven Jin; Afify, Mohamed; Awadalla, Hany (18 de febrero de 2023). "¿Qué tan buenos son los modelos GPT en traducción automática? Una evaluación completa". arXiv : 2302.09210 [cs.CL].
^ ab "Estadísticas del conjunto de datos GPT 3: idiomas por recuento de caracteres". OpenAI. 2020-06-01 . Consultado el 23 de diciembre de 2023 .
^ ab Russell, Estuardo; Norvig, Peter. Inteligencia artificial: un enfoque moderno (cuarta edición global). Pearson.
^ Federico, Marcello; Cettolo, Mauro (2007). Callison-Burch, Chris; Koehn, Philipp; Fordyce, Cameron Shaw; Monz, Christof (eds.). "Manejo eficiente de modelos de lenguaje N-gram para traducción automática estadística". Actas del segundo taller sobre traducción automática estadística . Praga, República Checa: Asociación de Lingüística Computacional: 88–95. doi :10.3115/1626355.1626367.
^ Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (2018). Mejora de la comprensión del lenguaje mediante la formación previa generativa (PDF) (Informe técnico). AbiertoAI . Consultado el 26 de diciembre de 2023 .
^ Marrón, Tom; Mann, Benjamín; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared D; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Satry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Niño, Rewon (2020). "Los modelos de lenguaje aprenden con pocas posibilidades". Avances en los sistemas de procesamiento de información neuronal . 33 . Curran Associates, Inc.: 1877–1901.