Traducción automática

Una aplicación para teléfonos móviles que traduce textos del español al inglés

La traducción automática es el uso de técnicas computacionales para traducir texto o voz de un idioma a otro, incluidos los matices contextuales, idiomáticos y pragmáticos de ambos idiomas.

Los primeros métodos se basaban principalmente en reglas o en métodos estadísticos . Desde entonces, estos métodos han sido reemplazados por la traducción automática neuronal ^[1] y los grandes modelos lingüísticos ^[2] .

Historia

Orígenes

Los orígenes de la traducción automática se remontan al trabajo de Al-Kindi , un criptógrafo árabe del siglo IX que desarrolló técnicas para la traducción sistemática de idiomas, incluyendo el criptoanálisis , el análisis de frecuencia y la probabilidad y estadística , que se utilizan en la traducción automática moderna. ^[3] La idea de la traducción automática apareció más tarde en el siglo XVII. En 1629, René Descartes propuso un lenguaje universal, con ideas equivalentes en diferentes lenguas que compartían un símbolo. ^[4]

La idea de utilizar ordenadores digitales para traducir lenguajes naturales fue propuesta en 1947 por el inglés AD Booth ^[5] y Warren Weaver en la Fundación Rockefeller ese mismo año. "El memorando escrito por Warren Weaver en 1949 es quizás la publicación más influyente en los primeros días de la traducción automática". ^[6]^[7] Otros siguieron su ejemplo. En 1954 se hizo una demostración en la máquina APEXC del Birkbeck College ( Universidad de Londres ) de una traducción rudimentaria del inglés al francés. En esa época se publicaron varios artículos sobre el tema, e incluso artículos en revistas populares (por ejemplo, un artículo de Cleave y Zacharov en la edición de septiembre de 1955 de Wireless World ). Una aplicación similar, también iniciada en el Birkbeck College en esa época, era la lectura y composición de textos en Braille por ordenador.

Década de 1950

El primer investigador en este campo, Yehoshua Bar-Hillel , comenzó su investigación en el MIT (1951). Un equipo de investigación de MT de la Universidad de Georgetown , dirigido por el profesor Michael Zarechnak, siguió (1951) con una demostración pública de su sistema experimental Georgetown-IBM en 1954. Los programas de investigación de MT surgieron en Japón ^[8]^[9] y Rusia (1955), y la primera conferencia de MT se celebró en Londres (1956). ^[10]^[11]

David G. Hays "escribió sobre el procesamiento del lenguaje asistido por ordenador ya en 1957" y "fue líder del proyecto de lingüística computacional en Rand entre 1955 y 1968". ^[12]

1960–1975

Los investigadores siguieron sumándose al campo a medida que se formaba la Asociación para la Traducción Automática y la Lingüística Computacional en los EE. UU. (1962) y la Academia Nacional de Ciencias formó el Comité Asesor de Procesamiento Automático del Lenguaje (ALPAC) para estudiar la traducción automática (TA) (1964). Sin embargo, el progreso real fue mucho más lento y después del informe de ALPAC (1966), que concluyó que la investigación de diez años de duración no había cumplido las expectativas, la financiación se redujo considerablemente. ^[13] Según un informe de 1972 del Director de Investigación e Ingeniería de Defensa (DDR&E), la viabilidad de la traducción automática a gran escala se restableció gracias al éxito del sistema Logos MT en la traducción de manuales militares al vietnamita durante ese conflicto.

El Instituto Textil Francés también utilizó la traducción automática para traducir resúmenes desde y hacia el francés, el inglés, el alemán y el español (1970); la Universidad Brigham Young inició un proyecto para traducir textos mormones mediante traducción automática (1971).

1975 y más allá

SYSTRAN , que "fue pionero en el campo bajo contratos del gobierno de los EE. UU." ^[14] en la década de 1960, fue utilizado por Xerox para traducir manuales técnicos (1978). A partir de finales de la década de 1980, a medida que la potencia computacional aumentó y se volvió menos costosa, se mostró más interés en los modelos estadísticos para la traducción automática . La TA se volvió más popular después del advenimiento de las computadoras. ^[15] El primer sistema de implementación de SYSTRAN fue implementado en 1988 por el servicio en línea del Servicio Postal Francés llamado Minitel. ^[16] También se lanzaron varias empresas de traducción basadas en computadora, incluida Trados (1984), que fue la primera en desarrollar y comercializar la tecnología de memoria de traducción (1989), aunque esto no es lo mismo que la TA. El primer sistema de TA comercial para ruso / inglés / alemán-ucraniano se desarrolló en la Universidad Estatal de Járkov (1991).

En 1998, "por tan sólo 29,95 dólares" uno podía "comprar un programa para traducir en una dirección entre el inglés y un idioma europeo importante de su elección" para ejecutarlo en un PC. ^[14]

La traducción automática en la web comenzó con SYSTRAN, que ofrecía traducción gratuita de textos pequeños (1996) y luego la proporcionó a través de AltaVista Babelfish, ^[14] que acumuló 500.000 solicitudes al día (1997). ^[17] El segundo servicio de traducción gratuito en la web fue GlobaLink de Lernout & Hauspie . ^[14] La revista Atlantic escribió en 1998 que "Babelfish de Systran y Comprende de GlobaLink" manejaron el problema de "No cuente con ello" con un "rendimiento competente". ^[18]

Franz Josef Och (el futuro director de Desarrollo de Traducción de Google) ganó la competencia de traducción automática rápida de DARPA (2003). ^[19] Otras innovaciones durante esta época incluyeron MOSES, el motor de traducción automática estadística de código abierto (2007), un servicio de traducción de texto/SMS para móviles en Japón (2008) y un teléfono móvil con funcionalidad de traducción de voz a voz incorporada para inglés, japonés y chino (2009). En 2012, Google anunció que Google Translate traduce aproximadamente suficiente texto para llenar un millón de libros en un día.

Aproches

Antes de la llegada de los métodos de aprendizaje profundo , los métodos estadísticos requerían muchas reglas acompañadas de anotaciones morfológicas , sintácticas y semánticas .

Basado en reglas

El enfoque de traducción automática basada en reglas se utilizó principalmente en la creación de diccionarios y programas de gramática. Su mayor inconveniente era que todo tenía que ser explícito: las variaciones ortográficas y las entradas erróneas debían formar parte del analizador del idioma de origen para poder lidiar con ellas, y se debían escribir reglas de selección léxica para todos los casos de ambigüedad.

Traducción automática basada en transferencia

La traducción automática basada en transferencia era similar a la traducción automática interlingüística en el sentido de que creaba una traducción a partir de una representación intermedia que simulaba el significado de la oración original. A diferencia de la traducción automática interlingüística, dependía parcialmente del par de idiomas involucrado en la traducción.

Interlingüístico

La traducción automática interlingüística fue un ejemplo de enfoques de traducción automática basados en reglas. En este enfoque, el idioma de origen, es decir, el texto que se va a traducir, se transformó en un idioma interlingüístico, es decir, una representación "neutral" que es independiente de cualquier idioma. Luego, el idioma de destino se generó a partir de la interlingua . El único sistema de traducción automática interlingüística que se puso en funcionamiento a nivel comercial fue el sistema KANT (Nyberg y Mitamura, 1992), que fue diseñado para traducir el inglés técnico de Caterpillar (CTE) a otros idiomas.

Basado en diccionario

La traducción automática utiliza un método basado en entradas de diccionario , lo que significa que las palabras se traducen tal como están en el diccionario.

Estadístico

La traducción automática estadística intentó generar traducciones utilizando métodos estadísticos basados en corpus de textos bilingües, como el corpus Hansard canadiense , el registro inglés-francés del parlamento canadiense y EUROPARL , el registro del Parlamento Europeo . Cuando se disponía de dichos corpus, se lograron buenos resultados traduciendo textos similares, pero dichos corpus eran poco frecuentes para muchos pares de idiomas. El primer software de traducción automática estadística fue CANDIDE de IBM . En 2005, Google mejoró sus capacidades de traducción interna utilizando aproximadamente 200 mil millones de palabras de materiales de las Naciones Unidas para entrenar su sistema; la precisión de la traducción mejoró. ^[20]

Las mayores desventajas de SMT incluían su dependencia de enormes cantidades de textos paralelos, sus problemas con idiomas ricos en morfología (especialmente con la traducción a dichos idiomas) y su incapacidad para corregir errores singleton.

Se han realizado algunos trabajos en el uso de corpus multiparalelos , es decir, un conjunto de textos que se han traducido a tres o más idiomas. Mediante estos métodos, un texto que se ha traducido a dos o más idiomas se puede utilizar en combinación para proporcionar una traducción más precisa a un tercer idioma en comparación con si se utilizara solo uno de esos idiomas de origen. ^[21]^[22]^[23]

MT neuronal

La traducción automática neuronal , un enfoque basado en el aprendizaje profundo para la traducción automática, ha avanzado rápidamente en los últimos años. Sin embargo, el consenso actual es que la denominada paridad humana lograda no es real, ya que se basa completamente en dominios limitados, pares de idiomas y ciertos puntos de referencia de prueba ^[24], es decir, carece de poder de significación estadística. ^[25]

Las traducciones realizadas mediante herramientas de traducción automática neuronal como DeepL Translator , que se cree que suele ofrecer los mejores resultados de traducción automática a partir de 2022, normalmente todavía necesitan posedición por parte de un humano. ^[26]^[27]^[28]

En lugar de entrenar modelos de traducción especializados en conjuntos de datos paralelos, también se pueden solicitar directamente modelos generativos de lenguaje grande como GPT para traducir un texto. ^[29]^[30]^[31] Este enfoque se considera prometedor, ^[32] pero aún requiere más recursos que los modelos de traducción especializados.

Asuntos

Los estudios que utilizan la evaluación humana (por ejemplo, por parte de traductores literarios profesionales o lectores humanos) han identificado sistemáticamente varios problemas con los últimos resultados avanzados de TA. ^[31] Los problemas comunes incluyen la traducción de partes ambiguas cuya traducción correcta requiere un procesamiento del lenguaje semántico o un contexto similar al sentido común. ^[31] También puede haber errores en los textos fuente, falta de datos de entrenamiento de alta calidad y la gravedad de la frecuencia de varios tipos de problemas puede no reducirse con las técnicas utilizadas hasta la fecha, lo que requiere cierto nivel de participación activa humana.

Desambiguación

La desambiguación del sentido de las palabras se refiere a la búsqueda de una traducción adecuada cuando una palabra puede tener más de un significado. El problema fue planteado por primera vez en la década de 1950 por Yehoshua Bar-Hillel . ^[33] Señaló que sin una "enciclopedia universal", una máquina nunca podría distinguir entre los dos significados de una palabra. ^[34] Hoy en día existen numerosos enfoques diseñados para superar este problema. Se pueden dividir aproximadamente en enfoques "superficiales" y enfoques "profundos".

Los métodos superficiales presuponen que no se conoce el texto y simplemente aplican métodos estadísticos a las palabras que rodean la palabra ambigua. Los métodos profundos presuponen un conocimiento exhaustivo de la palabra. Hasta ahora, los métodos superficiales han tenido más éxito. ^[35]

Claude Piron , traductor de larga trayectoria para las Naciones Unidas y la Organización Mundial de la Salud , escribió que la traducción automática, en el mejor de los casos, automatiza la parte más fácil del trabajo de un traductor; la parte más difícil y que requiere más tiempo suele implicar realizar una investigación exhaustiva para resolver ambigüedades en el texto de origen , que las exigencias gramaticales y léxicas del idioma de destino requieren resolver:

¿Por qué un traductor necesita una jornada laboral completa para traducir cinco páginas, y no una o dos horas? ..... Aproximadamente el 90% de un texto medio responde a estas sencillas condiciones. Pero, por desgracia, existe el otro 10%. Es esa parte la que requiere seis [más] horas de trabajo. Hay ambigüedades que hay que resolver. Por ejemplo, el autor del texto original, un médico australiano, citó el ejemplo de una epidemia que se declaró durante la Segunda Guerra Mundial en un "campo de prisioneros de guerra japoneses". ¿Se refería a un campo americano con prisioneros japoneses o a un campo japonés con prisioneros americanos? El inglés tiene dos sentidos. Es necesario, por tanto, investigar, tal vez hasta el punto de llamar por teléfono a Australia. ^[36]

El enfoque profundo ideal requeriría que el software de traducción hiciera por sí solo toda la investigación necesaria para este tipo de desambiguación, pero esto requeriría un grado de inteligencia artificial mayor que el alcanzado hasta ahora. Un enfoque superficial que simplemente adivinara el sentido de la frase ambigua en inglés que menciona Piron (basándose, quizás, en qué tipo de campo de prisioneros de guerra se menciona con más frecuencia en un corpus determinado) tendría una probabilidad razonable de equivocarse con bastante frecuencia. Un enfoque superficial que implicara "preguntar al usuario sobre cada ambigüedad" automatizaría, según los cálculos de Piron, solo alrededor del 25% del trabajo de un traductor profesional, dejando el 75% más difícil para que lo hiciera un humano.

Discurso no estándar

Una de las principales desventajas de la traducción automática es su incapacidad para traducir un lenguaje no estándar con la misma precisión que un lenguaje estándar. La traducción automática basada en heurística o estadística toma información de varias fuentes en la forma estándar de un idioma. La traducción basada en reglas, por naturaleza, no incluye usos no estándar comunes. Esto provoca errores en la traducción desde una fuente vernácula o hacia un lenguaje coloquial. Las limitaciones en la traducción del habla informal presentan problemas en el uso de la traducción automática en dispositivos móviles.

Entidades nombradas

En la extracción de información , las entidades nombradas, en sentido estricto, se refieren a entidades concretas o abstractas del mundo real, como personas, organizaciones, empresas y lugares que tienen un nombre propio: George Washington, Chicago, Microsoft. También se refieren a expresiones de tiempo, espacio y cantidad, como 1 de julio de 2011, $500.

En la oración "Smith es el presidente de Fabrionix", tanto Smith como Fabrionix son entidades nombradas y pueden calificarse con más detalle mediante el nombre de pila u otra información; "presidente" no lo es, ya que Smith podría haber ocupado anteriormente otro puesto en Fabrionix, por ejemplo, vicepresidente. El término designador rígido es lo que define estos usos para el análisis en la traducción automática estadística.

Las entidades nombradas deben primero identificarse en el texto; de lo contrario, pueden traducirse erróneamente como sustantivos comunes, lo que probablemente no afectaría la calificación BLEU de la traducción, pero cambiaría la legibilidad humana del texto. ^[37] Pueden omitirse de la traducción de salida, lo que también tendría implicaciones para la legibilidad y el mensaje del texto.

La transliteración incluye la búsqueda de las letras en el idioma de destino que más se corresponden con el nombre en el idioma de origen. Sin embargo, se ha señalado que esto a veces empeora la calidad de la traducción. ^[38] En el caso de "Southern California", la primera palabra debe traducirse directamente, mientras que la segunda debe transliterarse. Las máquinas a menudo transliteran ambas palabras porque las tratan como una sola entidad. Palabras como estas son difíciles de procesar para los traductores automáticos, incluso para aquellos con un componente de transliteración.

El uso de una lista de “no traducir”, que tiene el mismo objetivo final (la transliteración en lugar de la traducción), ^[39] todavía depende de la identificación correcta de las entidades nombradas.

Un tercer enfoque es un modelo basado en clases. Las entidades nombradas se reemplazan con un token para representar su "clase"; "Ted" y "Erica" se reemplazarían con el token de clase "persona". Luego, la distribución estadística y el uso de los nombres de personas, en general, se pueden analizar en lugar de observar las distribuciones de "Ted" y "Erica" individualmente, de modo que la probabilidad de un nombre dado en un idioma específico no afecte la probabilidad asignada de una traducción. Un estudio de Stanford sobre la mejora de esta área de la traducción da los ejemplos de que se asignarán diferentes probabilidades a "David va a caminar" y "Ankit va a caminar" para el inglés como idioma de destino debido al diferente número de ocurrencias para cada nombre en los datos de entrenamiento. Un resultado frustrante del mismo estudio de Stanford (y otros intentos de mejorar la traducción de reconocimiento de nombres) es que muchas veces, una disminución en las puntuaciones BLEU para la traducción resultará de la inclusión de métodos para la traducción de entidades nombradas. ^[39]

Aplicaciones

Si bien ningún sistema ofrece el ideal de una traducción automática de alta calidad de texto sin restricciones, muchos sistemas totalmente automatizados producen resultados razonables. ^[40]^[41]^[42] La calidad de la traducción automática mejora sustancialmente si el dominio está restringido y controlado. ^[43] Esto permite utilizar la traducción automática como una herramienta para acelerar y simplificar las traducciones, así como para producir traducciones defectuosas pero útiles, de bajo costo o ad hoc.

Viajar

También se han lanzado aplicaciones de traducción automática para la mayoría de los dispositivos móviles, incluidos teléfonos móviles, Pocket PC, PDA, etc. Debido a su portabilidad, estos instrumentos han llegado a ser designados como herramientas de traducción móvil que permiten la creación de redes comerciales móviles entre socios que hablan diferentes idiomas, o facilitan tanto el aprendizaje de idiomas extranjeros como los viajes sin acompañante a países extranjeros sin la necesidad de la intermediación de un traductor humano.

Por ejemplo, la aplicación Google Translate permite a los extranjeros traducir rápidamente el texto de su entorno a través de la realidad aumentada usando la cámara del teléfono inteligente que superpone el texto traducido sobre el texto. ^[44] También puede reconocer el habla y luego traducirla. ^[45]

Administración pública

A pesar de sus limitaciones inherentes, los programas de traducción automática se utilizan en todo el mundo. Probablemente el mayor usuario institucional sea la Comisión Europea . En 2012, con el objetivo de reemplazar una traducción automática basada en reglas por una traducción automática más nueva basada en estadísticas, la Comisión Europea contribuyó con 3,072 millones de euros (a través de su programa ISA). ^[46]

Wikipedia

La traducción automática también se ha utilizado para traducir artículos de Wikipedia y podría desempeñar un papel más importante en la creación, actualización, expansión y mejora general de los artículos en el futuro, especialmente a medida que mejoren las capacidades de traducción automática. Existe una "herramienta de traducción de contenido" que permite a los editores traducir artículos más fácilmente en varios idiomas seleccionados. ^[47]^[48]^[49] Se cree que los artículos en inglés suelen ser más completos y menos sesgados que sus equivalentes no traducidos en otros idiomas. ^[50] En 2022, la Wikipedia en inglés tiene más de 6,5 millones de artículos, mientras que las Wikipedias en alemán y sueco solo tienen cada una más de 2,5 millones de artículos, ^[51] cada una de ellas a menudo mucho menos completa.

Vigilancia y militar

Tras los ataques terroristas en países occidentales, incluido el 11 de septiembre , Estados Unidos y sus aliados han estado muy interesados en desarrollar programas de traducción automática árabe , pero también en traducir los idiomas pastún y dari . ^{[ cita requerida ]} Dentro de estos idiomas, el enfoque está en frases clave y comunicación rápida entre miembros militares y civiles mediante el uso de aplicaciones de teléfonos móviles. ^[52] La Oficina de Tecnología de Procesamiento de Información en DARPA albergó programas como TIDES y Babylon translater . La Fuerza Aérea de Estados Unidos ha otorgado un contrato de $ 1 millón para desarrollar una tecnología de traducción de idiomas. ^[53]

Redes sociales

El notable auge de las redes sociales en la web en los últimos años ha creado otro nicho para la aplicación de software de traducción automática (en utilidades como Facebook o clientes de mensajería instantánea como Skype , Google Talk , MSN Messenger , etc.) permitiendo a usuarios que hablan diferentes idiomas comunicarse entre sí.

Juegos en línea

Lineage W ganó popularidad en Japón debido a sus funciones de traducción automática que permitían a jugadores de diferentes países comunicarse. ^[54]

Medicamento

A pesar de que en 1966 el Comité Asesor sobre Procesamiento Automático del Lenguaje creado por el gobierno de los Estados Unidos la calificó de competidora indigna de la traducción humana, ^[55] la calidad de la traducción automática ha mejorado hasta tal punto que se está investigando su aplicación en la colaboración en línea y en el campo médico. La aplicación de esta tecnología en entornos médicos donde no hay traductores humanos es otro tema de investigación, pero surgen dificultades debido a la importancia de las traducciones precisas en los diagnósticos médicos. ^[56]

Los investigadores advierten que el uso de la traducción automática en medicina podría generar errores de traducción que pueden ser peligrosos en situaciones críticas. ^[57]^[58] La traducción automática puede facilitar la comunicación de los médicos con sus pacientes en las actividades cotidianas, pero se recomienda utilizar la traducción automática solo cuando no haya otra alternativa y que los textos médicos traducidos sean revisados por traductores humanos para comprobar su precisión. ^[59]^[60]

Ley

El lenguaje jurídico plantea un desafío importante para las herramientas de traducción automática debido a su naturaleza precisa y al uso atípico de palabras normales. Por este motivo, se han desarrollado algoritmos especializados para su uso en contextos legales. ^[61] Debido al riesgo de errores de traducción que surgen de los traductores automáticos, los investigadores recomiendan que las traducciones automáticas sean revisadas por traductores humanos para comprobar su precisión, y algunos tribunales prohíben su uso en procedimientos formales . ^[62]

El uso de la traducción automática en el ámbito jurídico ha suscitado inquietudes sobre los errores de traducción y la confidencialidad del cliente . Los abogados que utilizan herramientas de traducción gratuitas como Google Translate pueden violar accidentalmente la confidencialidad del cliente al exponer información privada a los proveedores de las herramientas de traducción. ^[61] Además, se ha argumentado que el consentimiento para un registro policial obtenido con traducción automática no es válido, y distintos tribunales han emitido veredictos diferentes sobre si estos argumentos son válidos o no. ^[57]

Lenguas antiguas

Los avances en redes neuronales convolucionales en los últimos años y en la traducción automática de bajos recursos (cuando solo hay una cantidad muy limitada de datos y ejemplos disponibles para el entrenamiento) permitieron la traducción automática de idiomas antiguos, como el acadio y sus dialectos, el babilónico y el asirio. ^[63]

Evaluación

Existen muchos factores que afectan la forma en que se evalúan los sistemas de traducción automática. Estos factores incluyen el uso previsto de la traducción, la naturaleza del software de traducción automática y la naturaleza del proceso de traducción.

Diferentes programas pueden funcionar bien para diferentes propósitos. Por ejemplo, la traducción automática estadística (SMT) generalmente supera a la traducción automática basada en ejemplos (EBMT), pero los investigadores descubrieron que al evaluar la traducción del inglés al francés, la EBMT funciona mejor. ^[64] El mismo concepto se aplica a los documentos técnicos, que se pueden traducir más fácilmente mediante SMT debido a su lenguaje formal.

Sin embargo, en ciertas aplicaciones, por ejemplo, descripciones de productos escritas en un lenguaje controlado , un sistema de traducción automática basado en diccionario ha producido traducciones satisfactorias que no requieren intervención humana salvo para la inspección de calidad. ^[65]

Existen varios métodos para evaluar la calidad de los resultados de los sistemas de traducción automática. El más antiguo es el uso de jueces humanos ^[66] para evaluar la calidad de una traducción. Si bien la evaluación humana requiere mucho tiempo, sigue siendo el método más confiable para comparar diferentes sistemas, como los basados en reglas y los estadísticos. ^{[67] Los medios} automáticos de evaluación incluyen BLEU , NIST , METEOR y LEPOR . ^[68]

Confiar exclusivamente en la traducción automática sin editar ignora el hecho de que la comunicación en el lenguaje humano está arraigada en el contexto y que se necesita una persona para comprender el contexto del texto original con un grado razonable de probabilidad. Es ciertamente cierto que incluso las traducciones generadas puramente por humanos son propensas a errores. Por lo tanto, para garantizar que una traducción generada por una máquina sea útil para un ser humano y que se logre una traducción de calidad publicable, dichas traducciones deben ser revisadas y editadas por un humano. ^[69] El difunto Claude Piron escribió que la traducción automática, en el mejor de los casos, automatiza la parte más fácil del trabajo de un traductor; la parte más difícil y que requiere más tiempo generalmente implica realizar una investigación exhaustiva para resolver ambigüedades en el texto fuente , que las exigencias gramaticales y léxicas del idioma de destino requieren que se resuelvan. Dicha investigación es un preludio necesario para la preedición necesaria para proporcionar información para el software de traducción automática de modo que el resultado no sea sin sentido . ^[70]

Además de los problemas de desambiguación, la precisión puede disminuir debido a los diferentes niveles de datos de entrenamiento para los programas de traducción automática. Tanto la traducción automática basada en ejemplos como la traducción automática estadística dependen de una amplia gama de oraciones de ejemplo reales como base para la traducción, y cuando se analizan demasiadas o muy pocas oraciones, la precisión se ve comprometida. Los investigadores descubrieron que cuando un programa se entrena con 203.529 pares de oraciones, la precisión en realidad disminuye. ^[64] El nivel óptimo de datos de entrenamiento parece ser un poco más de 100.000 oraciones, posiblemente porque a medida que aumentan los datos de entrenamiento, aumenta la cantidad de oraciones posibles, lo que dificulta encontrar una coincidencia de traducción exacta.

Las fallas en la traducción automática se han notado por su valor de entretenimiento . Dos videos subidos a YouTube en abril de 2017 involucran dos caracteres hiragana japonesesえぐ ( e y gu ) que se pegan repetidamente en Google Translate, y las traducciones resultantes se degradan rápidamente a frases sin sentido como "DECEARING EGG" y "Deep-sea squeeze trees", que luego se leen en voces cada vez más absurdas; ^[71]^[72] la versión completa del video actualmente tiene 6,9 millones de vistas a marzo de 2022. ^[73]^[actualizar]

Traducción automática y lenguajes de señas

A principios de la década de 2000, las opciones de traducción automática entre lenguajes hablados y de señas eran muy limitadas. Era una creencia común que las personas sordas podían utilizar traductores tradicionales. Sin embargo, el acento, la entonación, el tono y el ritmo se transmiten de manera muy diferente en los idiomas hablados en comparación con los lenguajes de señas. Por lo tanto, una persona sorda puede malinterpretar o confundirse sobre el significado de un texto escrito basado en un lenguaje hablado. ^[74]

Los investigadores Zhao, et al. (2000) desarrollaron un prototipo llamado TEAM (traducción del inglés al ASL por máquina) que completaba traducciones del inglés al lenguaje de señas americano (ASL). El programa primero analizaba los aspectos sintácticos, gramaticales y morfológicos del texto en inglés. Después de este paso, el programa accedía a un sintetizador de señas, que actuaba como un diccionario para el ASL. Este sintetizador albergaba el proceso que uno debe seguir para completar las señas del ASL, así como los significados de estas señas. Una vez que se analizaba todo el texto y se ubicaban en el sintetizador las señas necesarias para completar la traducción, aparecía un humano generado por computadora que usaba el ASL para firmar el texto en inglés para el usuario. ^[74]

Derechos de autor

Sólo las obras originales están sujetas a protección de derechos de autor , por lo que algunos académicos afirman que los resultados de la traducción automática no tienen derecho a protección de derechos de autor porque la traducción automática no implica creatividad . [ ^75] Los derechos de autor en cuestión son para una obra derivada ; el autor de la obra original en el idioma original no pierde sus derechos cuando se traduce una obra: un traductor debe tener permiso para publicar una traducción. ^[^{cita requerida}^]

Véase también

Notas

^ "Google Translate obtiene una actualización de aprendizaje profundo". IEEE Spectrum . 3 de octubre de 2016 . Consultado el 7 de julio de 2024 .
^ "Google Translate vs. ChatGPT: ¿cuál es el mejor traductor de idiomas?". PCMag UK . 23 de febrero de 2024. Consultado el 7 de julio de 2024 .
^ DuPont, Quinn (enero de 2018). «Los orígenes criptológicos de la traducción automática: de Al-Kindi a Weaver». Amodern . Archivado desde el original el 14 de agosto de 2019 . Consultado el 2 de septiembre de 2019 .
^ Knowlson, James (1975). Esquemas lingüísticos universales en Inglaterra y Francia, 1600-1800 . Toronto: University of Toronto Press. ISBN 0-8020-5296-7.
^ Booth, Andrew D. (1 de mayo de 1953). "TRADUCCIÓN MECÁNICA". Computers and Automation 1953-05: Vol 2 Iss 4. Berkeley Enterprises. pág. 6.
^ J. Hutchins (2000). "Warren Weaver y el lanzamiento de la traducción automática". Early Years in Machine Translation (PDF) . Estudios de historia de las ciencias del lenguaje. Vol. 97. pág. 17. doi :10.1075/sihols.97.05hut. ISBN 978-90-272-4586-1. S2CID 163460375. Archivado desde el original (PDF) el 28 de febrero de 2020 – vía Semantic Scholar .
^ "Warren Weaver, matemático estadounidense". 13 de julio de 2020. Archivado desde el original el 6 de marzo de 2021. Consultado el 7 de agosto de 2020 .
^ 上野, 俊夫 (13 de agosto de 1986).パーソナルコンピュータによる機械翻訳プログラムの制作(en japonés). Tokio: (株)ラッセル社. pag. 16.ISBN 494762700X.わが国では1956年、当時の電気試験所が英和翻訳専用機「ヤマト」を実験している。この機械は19 62年頃には中学1年の教科書で90以上の能力に達したと報告されている. (con la ayuda de Google Translate ): en 1959 Japón, el Instituto Nacional de Ciencia y Tecnología Industrial Avanzada (AIST) probó la máquina traductora adecuada inglés-japonés Yamato , que informó en 1964 que alcanzó un nivel de potencia superior a los 90 puntos en el libro de texto de primer grado de secundaria. -escuela.)
^ "機械翻訳専用機「やまと」-コンピュータ博物館". Archivado desde el original el 19 de octubre de 2016 . Consultado el 4 de abril de 2017 .
^ Nye, Mary Jo (2016). «Speaking in Tongues: Science's century-long hunt for a common language» (Hablar en lenguas: la búsqueda de siglos de la ciencia por un lenguaje común). Destilaciones . 2 (1): 40–43. Archivado desde el original el 3 de agosto de 2020 . Consultado el 20 de marzo de 2018 .
^ Gordin, Michael D. (2015). Babel científica: cómo se hacía ciencia antes y después del inglés global . Chicago, Illinois: University of Chicago Press. ISBN 9780226000299.
^ Wolfgang Saxon (28 de julio de 1995). «David G. Hays, 66, un desarrollador del estudio del lenguaje por computadora». The New York Times . Archivado desde el original el 7 de febrero de 2020. Consultado el 7 de agosto de 2020. escribió sobre el procesamiento del lenguaje asistido por computadora ya en 1957 .. fue líder del proyecto de lingüística computacional en Rand de 1955 a 1968.
^ 上野, 俊夫 (13 de agosto de 1986).パーソナルコンピュータによる機械翻訳プログラムの制作(en japonés). Tokio: (株)ラッセル社. pag. 16.ISBN 494762700X.
^ abcd Budiansky, Stephen (diciembre de 1998). "Lost in Translation". Revista Atlantic . pp. 81–84.
^ Schank, Roger C. (2014). Procesamiento de Información Conceptual . Nueva York: Elsevier. pag. 5.ISBN 9781483258799.
^ Farwell, David; Gerber, Laurie; Hovy, Eduard (29 de junio de 2003). Traducción automática y la sopa de información: Tercera conferencia de la Asociación para la Traducción Automática en las Américas, AMTA'98, Langhorne, PA, EE. UU., 28-31 de octubre de 1998. Actas . Berlín: Springer. pág. 276. ISBN. 3540652590.
^ Barron, Brenda (18 de noviembre de 2019). "Babel Fish: What Happened To The Original Translation Application?: We Investigate". Digital.com . Archivado desde el original el 20 de noviembre de 2019. Consultado el 22 de noviembre de 2019 .
^ y dio otros ejemplos también
^ Chan, Sin-Wai (2015). Enciclopedia Routledge de Tecnología de la Traducción . Oxon: Routledge. pág. 385. ISBN 9780415524841.
^ "Google Translator: The Universal Language". Blog.outer-court.com. 25 de enero de 2007. Archivado desde el original el 20 de noviembre de 2008. Consultado el 12 de junio de 2012 .
^ Schwartz, Lane (2008). Métodos de traducción de múltiples fuentes (PDF) . Ponencia presentada en la 8.ª Conferencia Bienal de la Asociación de Traducción Automática en las Américas. Archivado (PDF) desde el original el 29 de junio de 2016. Consultado el 3 de noviembre de 2017 .
^ Cohn, Trevor; Lapata, Mirella (2007). Traducción automática por triangulación: uso eficaz de corpus multiparalelos (PDF) . Documento presentado en la 45.ª reunión anual de la Asociación de Lingüística Computacional, del 23 al 30 de junio de 2007, Praga (República Checa). Archivado (PDF) desde el original el 10 de octubre de 2015. Consultado el 3 de febrero de 2015 .
^ Nakov, Preslav; Ng, Hwee Tou (2012). "Mejora de la traducción automática estadística para un lenguaje pobre en recursos utilizando lenguajes relacionados ricos en recursos". Revista de investigación en inteligencia artificial . 44 : 179–222. arXiv : 1401.6876 . doi : 10.1613/jair.3540 .
^ Antonio Toral, Sheila Castilho, Ke Hu y Andy Way. 2018. ¿Lograr lo inalcanzable? Reevaluación de las afirmaciones de paridad humana en la traducción automática neuronal. CoRR, abs/1808.10432.
^ Yvette, Graham; Barry, Haddow; Koehn, Philipp (2019). "Traductología en la evaluación de la traducción automática". arXiv : 1906.09833 [cs.CL].
^ Katsnelson, Alla (29 de agosto de 2022). «¿Pocas habilidades en inglés? Las nuevas IA ayudan a los investigadores a escribir mejor». Nature . 609 (7925): 208–209. Bibcode :2022Natur.609..208K. doi : 10.1038/d41586-022-02767-9 . PMID 36038730. S2CID 251931306.
^ Korab, Petr (18 de febrero de 2022). «DeepL: un traductor de idiomas excepcionalmente magnífico». Medium . Consultado el 9 de enero de 2023 .
^ "DeepL supera a Google Translate – DW – 12/05/2018". Deutsche Welle . Consultado el 9 de enero de 2023 .
^ Hendy, Amr; Abdelrehim, Mohamed; Sharaf, Amr; Raunak, Vikas; Gabr, Mohamed; Matsushita, Hitokazu; Kim, Young Jin; Afify, Mohamed; Awadalla, Hany (18 de febrero de 2023). "¿Qué tan buenos son los modelos GPT en la traducción automática? Una evaluación integral". arXiv : 2302.09210 [cs.CL].
^ Fadelli, Ingrid. «Estudio evalúa la calidad de las traducciones literarias realizadas con IA comparándolas con las traducciones realizadas por humanos». techxplore.com . Consultado el 18 de diciembre de 2022 .
^ abc Thai, Katherine; Karpinska, Marzena; Krishna, Kalpesh; Ray, Bill; Inghilleri, Moira; Wieting, John; Iyyer, Mohit (25 de octubre de 2022). "Exploración de la traducción automática literaria a nivel de documento con párrafos paralelos de la literatura mundial". arXiv : 2210.14250 [cs.CL].
^ Kocmi, Tom; Avramidis, Eleftherios; Bawden, Rachel; Bojar, Ondřej; Dvorkovich, Anton; Federmann, Christian; Fishel, Mark; Freitag, Markus; Gowda, Thamme; Grundkiewicz, Roman; Haddow, Barry; Koehn, Philipp; Marie, Benjamin; Monz, Christof; Morishita, Makoto (2023). Koehn, Philipp; Haddow, Barry; Kocmi, Tom; Monz, Christof (eds.). Hallazgos de la Conferencia de 2023 sobre traducción automática (WMT23): los LLM están aquí, pero aún no están del todo allí. Actas de la Octava Conferencia sobre Traducción Automática . Singapur: Asociación de Lingüística Computacional. págs. 1–42. doi : 10.18653/v1/2023.wmt-1.1 .
^ Hitos en la traducción automática – N.º 6: Bar-Hillel y la inviabilidad de FAHQT Archivado el 12 de marzo de 2007 en Wayback Machine por John Hutchins
^ Bar-Hillel (1960), "Traducción automática de idiomas". Disponible en línea en http://www.mt-archive.info/Bar-Hillel-1960.pdf Archivado el 28 de septiembre de 2011 en Wayback Machine.
^ Enfoques híbridos para la traducción automática . Costa-jussà, Marta R., Rapp, Reinhard, Lambert, Patrik, Eberle, Kurt, Banchs, Rafael E., Babych, Bogdan. Suiza. 21 de julio de 2016. ISBN 9783319213101.OCLC 953581497 .{{cite book}}: CS1 maint: falta la ubicación del editor ( enlace ) CS1 maint: otros ( enlace )
^ Claude Piron , Le défi des langues (El desafío del idioma), París, L'Harmattan, 1994.
^ Babych, Bogdan; Hartley, Anthony (2003). Mejorar la calidad de la traducción automática con reconocimiento automático de entidades nombradas (PDF) . Documento presentado en el 7.º Taller internacional EAMT sobre traducción automática y otras herramientas de tecnología del lenguaje... Archivado desde el original (PDF) el 14 de mayo de 2006 . Consultado el 4 de noviembre de 2013 .
^ Hermajakob, U., Knight, K. y Hal, D. (2008). Traducción de nombres en la traducción automática estadística: aprendizaje de cuándo transliterar Archivado el 4 de enero de 2018 en Wayback Machine . Asociación de Lingüística Computacional. 389–397.
^ ab Neeraj Agrawal; Ankush Singla. Uso del reconocimiento de entidades con nombre para mejorar la traducción automática (PDF) . Archivado (PDF) del original el 21 de mayo de 2013 . Consultado el 4 de noviembre de 2013 .
^ Melby, Alan. La posibilidad del lenguaje (Ámsterdam: Benjamins, 1995, 27–41). Benjamins.com. 1995. ISBN 9789027216144Archivado desde el original el 25 de mayo de 2011 . Consultado el 12 de junio de 2012 .
^ Wooten, Adam (14 de febrero de 2006). "Un modelo simple que describe la tecnología de traducción". T&I Business . Archivado desde el original el 16 de julio de 2012. Consultado el 12 de junio de 2012 .
^ "Apéndice III de 'El estado actual de la traducción automática de idiomas', Advances in Computers, vol. 1 (1960), p. 158-163. Reimpreso en Y. Bar-Hillel: Language and information (Reading, Mass.: Addison-Wesley, 1964), p. 174-179" (PDF) . Archivado desde el original (PDF) el 28 de septiembre de 2018. Consultado el 12 de junio de 2012 .
^ "Solución de traducción automática de calidad humana de Ta with you" (en español). Tauyou.com. 15 de abril de 2009. Archivado desde el original el 22 de septiembre de 2009. Consultado el 12 de junio de 2012 .
^ "Google Translate añade 20 idiomas a su aplicación de realidad aumentada". Popular Science . 30 de julio de 2015 . Consultado el 9 de enero de 2023 .
^ Whitney, Lance. "Se dice que la actualización de la aplicación Google Translate hará que la conversión de voz a texto sea aún más sencilla". CNET . Consultado el 9 de enero de 2023 .
^ "Servicio de traducción automática". 5 de agosto de 2011. Archivado desde el original el 8 de septiembre de 2013. Consultado el 13 de septiembre de 2013 .
^ Wilson, Kyle (8 de mayo de 2019). «Wikipedia tiene un problema con Google Translate». The Verge . Consultado el 9 de enero de 2023 .
^ "Wikipedia recurre a Google para ayudar a los editores a traducir artículos". VentureBeat . 9 de enero de 2019 . Consultado el 9 de enero de 2023 .
^ "La herramienta de traducción de contenido ayuda a crear más de medio millón de artículos de Wikipedia". Fundación Wikimedia . 23 de septiembre de 2019 . Consultado el 10 de enero de 2023 .
^ Revista, Undark (12 de agosto de 2021). «Wikipedia tiene un problema de idioma. Aquí te explicamos cómo solucionarlo». Revista Undark . Consultado el 9 de enero de 2023 .
^ "Lista de Wikipedias - Meta". meta.wikimedia.org . Consultado el 9 de enero de 2023 .
^ Gallafent, Alex (26 de abril de 2011). "Traducción automática para el ejército". PRI's the World . Archivado desde el original el 9 de mayo de 2013. Consultado el 17 de septiembre de 2013 .
^ Jackson, William (9 de septiembre de 2003). «GCN – La Fuerza Aérea quiere construir un traductor universal». Gcn.com. Archivado desde el original el 16 de junio de 2011. Consultado el 12 de junio de 2012 .
^ Young-sil, Yoon (26 de junio de 2023). "Los juegos coreanos están ganando popularidad en el difícil mercado de los juegos japoneses". BusinessKorea . Consultado el 8 de agosto de 2023 .
^ Comité Asesor de Procesamiento Automático del Lenguaje, División de Ciencias del Comportamiento, Academia Nacional de Ciencias, Consejo Nacional de Investigación (1966). Lenguaje y máquinas: computadoras en traducción y lingüística (PDF) (Informe). Washington, DC: Consejo Nacional de Investigación, Academia Nacional de Ciencias. Archivado (PDF) desde el original el 21 de octubre de 2013 . Consultado el 21 de octubre de 2013 .{{cite report}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ Randhawa, Gurdeeshpal; Ferreyra, Mariella; Ahmed, Rukhsana; Ezzat, Omar; Pottie, Kevin (abril de 2013). "Uso de la traducción automática en la práctica clínica". Canadian Family Physician . 59 (4): 382–383. PMC 3625087 . PMID 23585608. Archivado desde el original el 4 de mayo de 2013 . Consultado el 21 de octubre de 2013 .
^ ab Vieira, Lucas Nunes; O'Hagan, Minako; O'Sullivan, Carol (18 de agosto de 2021). "Entender los impactos sociales de la traducción automática: una revisión crítica de la literatura sobre casos de uso médico y legal". Información, comunicación y sociedad . 24 (11): 1515–1532. doi : 10.1080/1369118X.2020.1776370 . hdl : 1983/29727bd1-a1ae-4600-9e8e-018f11ec75fb . ISSN 1369-118X. S2CID 225694304.
^ Khoong, Elaine C.; Steinbrook, Eric; Brown, Cortlyn; Fernandez, Alicia (1 de abril de 2019). "Evaluación del uso de Google Translate para traducciones al español y al chino de instrucciones de alta del servicio de urgencias". JAMA Internal Medicine . 179 (4): 580–582. doi :10.1001/jamainternmed.2018.7653. ISSN 2168-6106. PMC 6450297 . PMID 30801626.
^ Piccoli, Vanessa (5 de julio de 2022). «Plurilingüismo, multimodalidad y traducción automática en consultas médicas: un estudio de caso». Estudios de traducción e interpretación . 17 (1): 42–65. doi :10.1075/tis.21012.pic. ISSN 1932-2798. S2CID 246780731.
^ Herrera-Espejel, Paula Sofia; Rach, Stefan (20 de noviembre de 2023). "El uso de la traducción automática para la divulgación y la comunicación sanitaria en epidemiología y salud pública: revisión del alcance". JMIR Salud pública y vigilancia . 9 : e50814. doi : 10.2196/50814 . ISSN 2369-2960. PMC 10696499 . PMID 37983078.
^ ab legalj (2 de enero de 2023). «El hombre contra la máquina: implicaciones sociales y jurídicas de la traducción automática». Princeton Legal Journal . Consultado el 4 de diciembre de 2023 .
^ Chavez, Edward L. (2008). "El éxito de Nuevo México con jurados que no hablan inglés". Journal of Court Innovation . 1 : 303.
^ Gutherz, Gai; Gordin, Shai; Sáenz, Luis; Levy, Omer; Berant, Jonathan (2 de mayo de 2023). Kearns, Michael (ed.). "Traducción del acadio al inglés con traducción automática neuronal". PNAS Nexus . 2 (5): pgad096. doi :10.1093/pnasnexus/pgad096. ISSN 2752-6542. PMC 10153418 . PMID 37143863.
^ ab Way, Andy; Nano Gough (20 de septiembre de 2005). "Comparación de la traducción automática basada en ejemplos y la traducción automática estadística". Ingeniería del lenguaje natural . 11 (3): 295–309. doi :10.1017/S1351324905003888 (inactivo el 1 de noviembre de 2024). S2CID 3242163.{{cite journal}}: CS1 maint: DOI inactivo a partir de noviembre de 2024 ( enlace )
^ Muegge (2006), "Traducción automática de alta calidad de texto restringido: un estudio de caso Archivado el 17 de octubre de 2011 en Wayback Machine ", en La traducción y la computadora 28. Actas de la vigésimo octava conferencia internacional sobre la traducción y la computadora, 16-17 de noviembre de 2006, Londres , Londres: Aslib. ISBN 978-0-85142-483-5 .
^ "Comparación de sistemas de traducción automática por evaluación humana, mayo de 2008". Morphologic.hu. Archivado desde el original el 19 de abril de 2012. Consultado el 12 de junio de 2012 .
^ Anderson, DD (1995). La traducción automática como herramienta en el aprendizaje de una segunda lengua Archivado el 4 de enero de 2018 en Wayback Machine . Revista CALICO. 13(1). 68–96.
^ Han et al. (2012), "LEPOR: una métrica de evaluación robusta para la traducción automática con factores aumentados Archivado el 4 de enero de 2018 en Wayback Machine ", en Actas de la 24.ª Conferencia Internacional sobre Lingüística Computacional (COLING 2012): carteles, páginas 441–450 , Mumbai, India.
^ JM Cohen observa (p.14): "La traducción científica es el objetivo de una era que reduciría todas las actividades a técnicas . Sin embargo, es imposible imaginar una máquina de traducción literaria menos compleja que el cerebro humano, con todo su conocimiento, capacidad de lectura y discriminación".
^ Consulte las pruebas NIST realizadas anualmente desde 2001 Archivado el 22 de marzo de 2009 en Wayback Machine y Estudio de evaluación bilingüe
^ Abadi, Mark. "4 veces que Google Translate falló por completo". Business Insider .
^ "回数を重ねるほど狂っていく Google翻訳で「えぐ」を英訳すると奇妙な世界に迷い込むと話題に".ねとらぼ.
^ "えぐ". 12 de abril de 2017 - a través de www.youtube.com.
^ ab Zhao, L., Kipper, K., Schuler, W., Vogler, C. y Palmer, M. (2000). Un sistema de traducción automática del inglés al lenguaje de señas americano Archivado el 20 de julio de 2018 en Wayback Machine . Lecture Notes in Computer Science, 1934: 54–67.
^ "Traducción automática: ¿no hay derechos de autor sobre el resultado?". SEO Translator, citando a Zimbabwe Independent . Archivado desde el original el 29 de noviembre de 2012. Consultado el 24 de noviembre de 2012 .

Lectura adicional

Cohen, JM (1986), "Traducción", Enciclopedia Americana , vol. 27, págs. 12-15
Hutchins, W. John y Somers, Harold L. (1992). Introducción a la traducción automática . Londres: Academic Press. ISBN 0-12-362830-X.
Lewis-Kraus, Gideon (7 de junio de 2015). "Tower of Babble". Revista del New York Times , págs. 48-52.
Weber, Steven; Mehandru, Nikita (2022). "La economía política de la traducción automática en la década de 2020". Negocios y política . 24 (1): 96–112. arXiv : 2011.01007 . doi :10.1017/bap.2021.17. S2CID 226236853.

Enlaces externos

Wikiversidad tiene recursos de aprendizaje sobre el tema:Lingüística computacional

Las ventajas y desventajas de la traducción automática
Asociación Internacional de Traducción Automática (IAMT) Archivado el 24 de junio de 2010 en Wayback Machine
Archivo de traducción automática Archivado el 1 de abril de 2019 en Wayback Machine por John Hutchins . Un repositorio electrónico (y bibliografía) de artículos, libros y documentos en el campo de la traducción automática y la tecnología de traducción basada en computadora
Traducción automática (traducción basada en computadora): publicaciones de John Hutchins (incluye archivos PDF de varios libros sobre traducción automática)
La traducción automática y las lenguas minoritarias
John Hutchins 1999 Archivado el 7 de septiembre de 2007 en Wayback Machine.
Noticias de Slator y análisis de los últimos avances en traducción automática
Del aula al mundo real: cómo la traducción automática está cambiando el panorama del aprendizaje de lenguas extranjeras