La traducción automática es el uso de enfoques de aprendizaje automático basados en reglas o probabilísticos (es decir, estadísticos y, más recientemente, basados en redes neuronales) para la traducción de texto o voz de un idioma a otro, incluidos los matices contextuales, idiomáticos y pragmáticos de ambos idiomas. .
Los orígenes de la traducción automática se remontan al trabajo de Al-Kindi , un criptógrafo árabe del siglo IX que desarrolló técnicas para la traducción sistémica de idiomas, incluido el criptoanálisis , el análisis de frecuencia y la probabilidad y estadística , que se utilizan en la traducción automática moderna. [1] La idea de la traducción automática apareció más tarde en el siglo XVII. En 1629, René Descartes propuso un lenguaje universal, en el que ideas equivalentes en diferentes lenguas compartían un símbolo. [2]
La idea de utilizar computadoras digitales para la traducción de lenguajes naturales fue propuesta ya en 1947 por AD Booth [3] de Inglaterra y Warren Weaver de la Fundación Rockefeller ese mismo año. "El memorando escrito por Warren Weaver en 1949 es quizás la publicación más influyente en los primeros días de la traducción automática". [4] [5] Otros siguieron. En 1954 se hizo una demostración en la máquina APEXC del Birkbeck College ( Universidad de Londres ) de una traducción rudimentaria del inglés al francés. En ese momento se publicaron varios artículos sobre el tema, e incluso artículos en revistas populares (por ejemplo, un artículo de Cleave y Zacharov en la edición de septiembre de 1955 de Wireless World ). Una aplicación similar, también pionera en Birkbeck College en ese momento, consistía en leer y componer textos en Braille por computadora.
El primer investigador en este campo, Yehoshua Bar-Hillel , inició sus investigaciones en el MIT (1951). Un equipo de investigación de MT de la Universidad de Georgetown , dirigido por el profesor Michael Zarechnak, siguió (1951) con una demostración pública de su sistema experimental Georgetown-IBM en 1954. Surgieron programas de investigación de MT en Japón [6] [7] y Rusia (1955). y la primera conferencia MT se celebró en Londres (1956). [8] [9]
David G. Hays "escribió sobre el procesamiento del lenguaje asistido por computadora ya en 1957" y "fue líder de proyecto sobre lingüística computacional en Rand de 1955 a 1968". [10]
Los investigadores continuaron uniéndose a este campo cuando se formó la Asociación para la Traducción Automática y la Lingüística Computacional en los EE. UU. (1962) y la Academia Nacional de Ciencias formó el Comité Asesor de Procesamiento Automático del Lenguaje (ALPAC) para estudiar la MT (1964). Sin embargo, el progreso real fue mucho más lento y después del informe ALPAC (1966), que encontró que la investigación de diez años no había cumplido las expectativas, la financiación se redujo considerablemente. [11] Según un informe de 1972 del Director de Investigación e Ingeniería de Defensa (DDR&E), la viabilidad de la MT a gran escala se restableció gracias al éxito del sistema Logos MT en la traducción de manuales militares al vietnamita durante ese conflicto.
El Instituto Textil Francés también utilizó MT para traducir resúmenes del francés, inglés, alemán y español (1970); La Universidad Brigham Young inició un proyecto para traducir textos mormones mediante traducción automática (1971).
SYSTRAN , que "fue pionero en este campo gracias a contratos del gobierno de Estados Unidos" [12] en los años 1960, fue utilizado por Xerox para traducir manuales técnicos (1978). A partir de finales de la década de 1980, a medida que la potencia computacional aumentó y se volvió menos costosa, se mostró más interés en los modelos estadísticos para la traducción automática . La MT se hizo más popular después de la llegada de las computadoras. [13] El primer sistema de implementación de SYSTRAN fue implementado en 1988 por el servicio en línea del Servicio Postal Francés llamado Minitel. [14] También se lanzaron varias empresas de traducción por computadora, incluida Trados (1984), que fue la primera en desarrollar y comercializar tecnología de memoria de traducción (1989), aunque no es lo mismo que la traducción automática. El primer sistema de traducción automática comercial para ruso, inglés y alemán-ucraniano se desarrolló en la Universidad Estatal de Jarkov (1991).
En 1998, "por tan solo 29,95 dólares" se podía "comprar un programa para traducir en una dirección entre el inglés y uno de los principales idiomas europeos de su elección" para ejecutarlo en una PC. [12]
La MT en la web comenzó con SYSTRAN ofreciendo traducción gratuita de textos pequeños (1996) y luego ofreciéndola a través de AltaVista Babelfish, [12] que acumuló 500.000 solicitudes por día (1997). [15] El segundo servicio de traducción gratuito en la web fue GlobaLink de Lernout & Hauspie . [12] Atlantic Magazine escribió en 1998 que "Babelfish de Systran y Comprende de GlobaLink" manejaron "Don't bank on it" con un "desempeño competente". [dieciséis]
Franz Josef Och (futuro director de Desarrollo de Traducción de Google) ganó el concurso de MT rápida de DARPA (2003). [17] Más innovaciones durante este tiempo incluyeron MOSES, el motor estadístico de traducción automática de código abierto (2007), un servicio de traducción de texto/SMS para móviles en Japón (2008) y un teléfono móvil con traducción de voz a voz incorporada. funcionalidad para inglés, japonés y chino (2009). En 2012, Google anunció que Google Translate traduce aproximadamente suficiente texto para llenar 1 millón de libros en un día.
Antes de la llegada de los métodos de aprendizaje profundo , los métodos estadísticos requerían muchas reglas acompañadas de anotaciones morfológicas , sintácticas y semánticas .
El enfoque de traducción automática basado en reglas se utilizó principalmente en la creación de diccionarios y programas gramaticales. Su mayor inconveniente fue que todo tenía que ser explícito: la variación ortográfica y la entrada errónea debían formar parte del analizador de la lengua fuente para poder hacer frente a ello, y debían escribirse reglas de selección léxica para todos los casos de ambigüedad.
La traducción automática basada en transferencias era similar a la traducción automática interlingüística en que creaba una traducción a partir de una representación intermedia que simulaba el significado de la oración original. A diferencia de la traducción automática interlingüística, dependía parcialmente del par de idiomas involucrados en la traducción.
La traducción automática interlingüística fue un ejemplo de enfoques de traducción automática basados en reglas. En este enfoque, la lengua de origen, es decir, el texto a traducir, se transformó en una lengua interlingüística, es decir, una representación "lenguaje neutral" que es independiente de cualquier lengua. A continuación, se generó la lengua de destino a partir de la interlingua . El único sistema de traducción automática interlingüístico que se puso operativo a nivel comercial fue el sistema KANT (Nyberg y Mitamura, 1992), que fue diseñado para traducir el inglés técnico (CTE) de Caterpillar a otros idiomas.
La traducción automática utilizó un método basado en entradas de diccionario , lo que significa que las palabras fueron traducidas tal como están por un diccionario.
La traducción automática estadística intentó generar traducciones utilizando métodos estadísticos basados en corpus de textos bilingües, como el corpus canadiense Hansard , el registro inglés-francés del parlamento canadiense y EUROPARL , el registro del Parlamento Europeo . Cuando dichos corpus estaban disponibles, se lograron buenos resultados al traducir textos similares, pero dichos corpus eran raros en muchos pares de idiomas. El primer software de traducción automática estadística fue CANDIDE de IBM . En 2005, Google mejoró sus capacidades de traducción interna utilizando aproximadamente 200 mil millones de palabras de materiales de las Naciones Unidas para entrenar su sistema; Se mejoró la precisión de la traducción. [18]
La mayor caída de SMT incluyó su dependencia de grandes cantidades de textos paralelos, sus problemas con lenguajes ricos en morfología (especialmente con la traducción a dichos idiomas) y su incapacidad para corregir errores únicos.
La traducción automática neuronal, un enfoque de la traducción automática basado en el aprendizaje profundo , ha progresado rápidamente en los últimos años. Sin embargo, el consenso actual es que la llamada paridad humana lograda no es real, ya que se basa totalmente en dominios limitados, pares de idiomas y ciertos puntos de referencia de prueba [19] , es decir, carece de poder de significación estadística. [20]
Las traducciones realizadas mediante herramientas de traducción automática neuronal como DeepL Translator , que se cree que suele ofrecer los mejores resultados de traducción automática a partir de 2022, normalmente todavía necesitan una posedición por parte de un humano. [21] [22] [23]
En lugar de entrenar modelos de traducción especializados en conjuntos de datos paralelos, también se pueden solicitar directamente modelos generativos de lenguaje grande como GPT para traducir un texto. [24] [25] [26] Este enfoque se considera prometedor, [27] pero aún requiere más recursos que los modelos de traducción especializados.
Los estudios que utilizan evaluación humana (por ejemplo, por traductores literarios profesionales o lectores humanos) han identificado sistemáticamente varios problemas con los últimos resultados avanzados de MT. [26] Los problemas comunes incluyen la traducción de partes ambiguas cuya traducción correcta requiere un procesamiento o contexto del lenguaje semántico similar al sentido común. [26] También puede haber errores en los textos fuente, falta de datos de capacitación de alta calidad y la gravedad de la frecuencia de varios tipos de problemas puede no reducirse con las técnicas utilizadas hasta la fecha, lo que requiere cierto nivel de participación humana activa.
La desambiguación del sentido de las palabras implica encontrar una traducción adecuada cuando una palabra puede tener más de un significado. El problema fue planteado por primera vez en la década de 1950 por Yehoshua Bar-Hillel . [28] Señaló que sin una "enciclopedia universal", una máquina nunca sería capaz de distinguir entre los dos significados de una palabra. [29] Hoy en día existen numerosos enfoques diseñados para superar este problema. Se pueden dividir aproximadamente en enfoques "superficiales" y enfoques "profundos".
Los enfoques superficiales suponen que no se tiene ningún conocimiento del texto. Simplemente aplican métodos estadísticos a las palabras que rodean la palabra ambigua. Los enfoques profundos suponen un conocimiento integral de la palabra. Hasta ahora, los enfoques superficiales han tenido más éxito. [30]
Claude Piron , traductor desde hace mucho tiempo de las Naciones Unidas y la Organización Mundial de la Salud , escribió que la traducción automática, en el mejor de los casos, automatiza la parte más fácil del trabajo de un traductor; la parte más difícil y que requiere más tiempo generalmente implica realizar una investigación exhaustiva para resolver ambigüedades en el texto de origen , que las exigencias gramaticales y léxicas del idioma de destino requieren ser resueltas:
¿Por qué un traductor necesita toda una jornada laboral para traducir cinco páginas y no una o dos horas? ..... Aproximadamente el 90% de un texto medio corresponde a estas sencillas condiciones. Pero lamentablemente queda el otro 10%. Es esa parte la que requiere seis [más] horas de trabajo. Hay ambigüedades que uno tiene que resolver. Por ejemplo, el autor del texto original, un médico australiano, citó el ejemplo de una epidemia que se declaró durante la Segunda Guerra Mundial en un "campo de prisioneros de guerra japoneses". ¿Estaba hablando de un campo estadounidense con prisioneros japoneses o de un campo japonés con prisioneros estadounidenses? El inglés tiene dos sentidos. Por lo tanto, es necesario investigar, tal vez hasta el punto de hacer una llamada telefónica a Australia. [31]
El enfoque profundo ideal requeriría que el software de traducción hiciera por sí solo toda la investigación necesaria para este tipo de desambiguación; pero esto requeriría un grado de IA mayor que el que se ha alcanzado hasta ahora. Un enfoque superficial que simplemente adivinara el sentido de la ambigua frase inglesa que menciona Piron (basándose, tal vez, en qué tipo de campo de prisioneros de guerra se menciona con más frecuencia en un corpus determinado) tendría una probabilidad razonable de adivinar bastante mal. a menudo. Un enfoque superficial que implique "preguntar al usuario sobre cada ambigüedad", según la estimación de Piron, sólo automatizaría alrededor del 25% del trabajo de un traductor profesional, dejando el 75% más difícil aún para que lo haga un humano.
Uno de los principales problemas de la traducción automática es su incapacidad para traducir un lenguaje no estándar con la misma precisión que el lenguaje estándar. La MT basada en heurística o estadística recibe información de varias fuentes en la forma estándar de un lenguaje. La traducción basada en reglas, por naturaleza, no incluye usos comunes no estándar. Esto provoca errores en la traducción de una fuente vernácula o al lenguaje coloquial. Las limitaciones a la traducción del discurso informal presentan problemas en el uso de la traducción automática en dispositivos móviles.
En extracción de información , las entidades nombradas, en sentido estricto, se refieren a entidades concretas o abstractas del mundo real como personas, organizaciones, empresas y lugares que tienen un nombre propio: George Washington, Chicago, Microsoft. También se refiere a expresiones de tiempo, espacio y cantidad como el 1 de julio de 2011, 500 dólares.
En la oración "Smith es el presidente de Fabrionix", tanto Smith como Fabrionix son entidades nombradas y pueden calificarse aún más mediante el nombre u otra información; "presidente" no lo es, ya que Smith podría haber ocupado antes otro puesto en Fabrionix, por ejemplo, vicepresidente. El término designador rígido es lo que define estos usos para el análisis en la traducción automática estadística.
Las entidades nombradas primero deben identificarse en el texto; de lo contrario, pueden traducirse erróneamente como sustantivos comunes, lo que probablemente no afectaría la calificación BLEU de la traducción, pero sí cambiaría la legibilidad humana del texto. [32] Pueden omitirse en la traducción resultante, lo que también tendría implicaciones para la legibilidad y el mensaje del texto.
La transliteración incluye encontrar las letras en el idioma de destino que más se correspondan con el nombre en el idioma de origen. Sin embargo, se ha citado que esto a veces empeora la calidad de la traducción. [33] Para "California del Sur", la primera palabra debe traducirse directamente, mientras que la segunda palabra debe transliterarse. Las máquinas a menudo transliteran ambos porque los tratan como una sola entidad. Palabras como estas son difíciles de procesar para los traductores automáticos, incluso aquellos con un componente de transliteración.
Uso de una lista de "no traducir", que tiene el mismo objetivo final: transliteración en lugar de traducción. [34] todavía se basa en la identificación correcta de las entidades nombradas.
Un tercer enfoque es un modelo basado en clases. Las entidades nombradas se reemplazan con un token para representar su "clase"; "Ted" y "Erica" serían reemplazados por un token de clase "persona". Entonces, la distribución estadística y el uso de nombres de personas, en general, se pueden analizar en lugar de observar las distribuciones de "Ted" y "Erica" individualmente, de modo que la probabilidad de un nombre determinado en un idioma específico no afectará la probabilidad asignada. de una traducción. Un estudio de Stanford sobre la mejora de esta área de la traducción da ejemplos de que se asignarán diferentes probabilidades a "David va a caminar" y "Ankit va a caminar" para el inglés como idioma de destino debido al diferente número de apariciones. para cada nombre en los datos de entrenamiento. Un resultado frustrante del mismo estudio de Stanford (y otros intentos de mejorar la traducción de reconocimiento de nombres) es que muchas veces, una disminución en las puntuaciones BLEU para la traducción resultará de la inclusión de métodos para la traducción de entidades nombradas. [34]
Se han realizado algunos trabajos en la utilización de corpus multiparalelos , es decir, un cuerpo de texto que ha sido traducido a 3 o más idiomas. Usando estos métodos, un texto que ha sido traducido a 2 o más idiomas se puede utilizar en combinación para proporcionar una traducción más precisa a un tercer idioma en comparación con si solo uno de esos idiomas de origen se usara solo. [35] [36] [37]
Una ontología es una representación formal del conocimiento que incluye los conceptos (como objetos, procesos, etc.) en un dominio y algunas relaciones entre ellos. Si la información almacenada es de naturaleza lingüística, se puede hablar de léxico. [38] En PNL , las ontologías se pueden utilizar como fuente de conocimiento para sistemas de traducción automática. Con acceso a una gran base de conocimientos, se puede permitir que los sistemas resuelvan muchas ambigüedades (especialmente léxicas) por sí solos. En los siguientes ejemplos clásicos, como humanos, podemos interpretar la frase preposicional según el contexto porque utilizamos nuestro conocimiento del mundo, almacenado en nuestro léxico:
Vi un hombre/estrella/molécula con un microscopio/telescopio/binoculares. [38]
Inicialmente, un sistema de traducción automática no sería capaz de diferenciar los significados porque la sintaxis no cambia. Sin embargo, con una ontología lo suficientemente grande como fuente de conocimiento, se pueden reducir las posibles interpretaciones de palabras ambiguas en un contexto específico. Otras áreas de uso de las ontologías dentro de la PNL incluyen la recuperación de información , la extracción de información y el resumen de texto . [38]
La ontología generada para el sistema de traducción automática basado en el conocimiento PANGLOSS en 1993 puede servir como ejemplo de cómo se puede compilar una ontología para fines de PNL : [39] [40]
Si bien ningún sistema ofrece el ideal de traducción automática de alta calidad de texto sin restricciones, muchos sistemas totalmente automatizados producen resultados razonables. [41] [42] [43] La calidad de la traducción automática mejora sustancialmente si el dominio está restringido y controlado. [44] Esto permite utilizar la traducción automática como herramienta para acelerar y simplificar las traducciones, así como producir traducciones ad hoc o de bajo costo defectuosas pero útiles.
También se han lanzado aplicaciones de traducción automática para la mayoría de los dispositivos móviles, incluidos teléfonos móviles, PC de bolsillo, PDA, etc. Debido a su portabilidad, estos instrumentos han llegado a designarse como herramientas de traducción móviles que permiten establecer contactos comerciales móviles entre socios que hablan diferentes idiomas, o facilitando tanto el aprendizaje de idiomas extranjeros como los viajes no acompañados a países extranjeros sin la necesidad de la intermediación de un traductor humano.
Por ejemplo, la aplicación Google Translate permite a los extranjeros traducir rápidamente texto de su entorno a través de realidad aumentada utilizando la cámara del teléfono inteligente que superpone el texto traducido sobre el texto. [45] También puede reconocer el habla y luego traducirla. [46]
A pesar de sus limitaciones inherentes, los programas de TA se utilizan en todo el mundo. Probablemente el mayor usuario institucional sea la Comisión Europea . En 2012, con el objetivo de sustituir un MT basado en reglas por un MT@EC más nuevo y basado en estadísticas, la Comisión Europea aportó 3.072 millones de euros (a través de su programa ISA). [47]
La traducción automática también se ha utilizado para traducir artículos de Wikipedia y podría desempeñar un papel más importante en la creación, actualización, ampliación y mejora general de artículos en el futuro, especialmente a medida que las capacidades de traducción automática puedan mejorar. Existe una "herramienta de traducción de contenido" que permite a los editores traducir más fácilmente artículos en varios idiomas seleccionados. [48] [49] [50] Se cree que los artículos en inglés suelen ser más completos y menos sesgados que sus equivalentes no traducidos en otros idiomas. [51] A partir de 2022, la Wikipedia en inglés tiene más de 6,5 millones de artículos, mientras que las Wikipedias en alemán y sueco solo tienen cada una más de 2,5 millones de artículos, [52] cada una de ellas a menudo mucho menos completa.
Después de los ataques terroristas en los países occidentales, incluido el 11 de septiembre , Estados Unidos y sus aliados han estado muy interesados en desarrollar programas de traducción automática al árabe , pero también en traducir los idiomas pashto y dari . [ cita necesaria ] Dentro de estos idiomas, la atención se centra en frases clave y comunicación rápida entre miembros militares y civiles mediante el uso de aplicaciones de teléfonos móviles. [53] La Oficina de Tecnología de Procesamiento de Información de DARPA albergaba programas como TIDES y el traductor Babylon . La Fuerza Aérea de EE. UU. ha adjudicado un contrato de 1 millón de dólares para desarrollar una tecnología de traducción de idiomas. [54]
El notable auge de las redes sociales en la web en los últimos años ha creado otro nicho más para la aplicación de software de traducción automática (en utilidades como Facebook o clientes de mensajería instantánea como Skype , Google Talk , MSN Messenger , etc.) que permiten a los usuarios Hablar diferentes idiomas para comunicarse entre sí.
Lineage W ganó popularidad en Japón debido a sus funciones de traducción automática que permiten comunicarse a jugadores de diferentes países. [55]
A pesar de haber sido etiquetada como un competidor indigno de la traducción humana en 1966 por el Comité Asesor sobre Procesamiento Automatizado de Idiomas creado por el gobierno de los Estados Unidos, [56] la calidad de la traducción automática ha mejorado ahora a niveles tales que su aplicación en la colaboración en línea y en el campo médico está siendo investigado. La aplicación de esta tecnología en entornos médicos donde no hay traductores humanos es otro tema de investigación, pero surgen dificultades debido a la importancia de traducciones precisas en los diagnósticos médicos. [57]
Los investigadores advierten que el uso de la traducción automática en medicina podría provocar errores de traducción que pueden ser peligrosos en situaciones críticas. [58] [59] La traducción automática puede facilitar que los médicos se comuniquen con sus pacientes en las actividades diarias, pero se recomienda utilizar la traducción automática sólo cuando no haya otra alternativa, y que los textos médicos traducidos deben ser revisados por traductores humanos para mayor precisión. [60] [61]
El lenguaje jurídico plantea un desafío importante para las herramientas de traducción automática debido a su naturaleza precisa y al uso atípico de palabras normales. Por este motivo, se han desarrollado algoritmos especializados para su uso en contextos legales. [62] Debido al riesgo de errores de traducción que surgen de los traductores automáticos, los investigadores recomiendan que las traducciones automáticas sean revisadas por traductores humanos para verificar su precisión, y algunos tribunales prohíben su uso en procedimientos formales . [63]
El uso de la traducción automática en el ámbito jurídico ha generado preocupaciones sobre errores de traducción y confidencialidad del cliente . Los abogados que utilizan herramientas de traducción gratuitas como Google Translate pueden violar accidentalmente la confidencialidad del cliente al exponer información privada a los proveedores de las herramientas de traducción. [62] Además, ha habido argumentos de que el consentimiento para un registro policial que se obtiene con traducción automática no es válido, y diferentes tribunales han emitido diferentes veredictos sobre si estos argumentos son válidos o no. [64]
Los avances en las redes neuronales convolucionales en los últimos años y en la traducción automática de bajos recursos (cuando solo hay una cantidad muy limitada de datos y ejemplos disponibles para la capacitación) permitieron la traducción automática de idiomas antiguos, como el acadio y sus dialectos babilónico y asirio. [sesenta y cinco]
Hay muchos factores que afectan la forma en que se evalúan los sistemas de traducción automática. Estos factores incluyen el uso previsto de la traducción, la naturaleza del software de traducción automática y la naturaleza del proceso de traducción.
Diferentes programas pueden funcionar bien para diferentes propósitos. Por ejemplo, la traducción automática estadística (SMT) suele superar a la traducción automática basada en ejemplos (EBMT), pero los investigadores descubrieron que al evaluar la traducción del inglés al francés, la EBMT funciona mejor. [66] El mismo concepto se aplica a los documentos técnicos, que SMT puede traducir más fácilmente debido a su lenguaje formal.
Sin embargo, en determinadas aplicaciones, por ejemplo, descripciones de productos escritas en un lenguaje controlado , un sistema de traducción automática basado en diccionarios ha producido traducciones satisfactorias que no requieren intervención humana salvo la inspección de calidad. [67]
Existen varios medios para evaluar la calidad de los resultados de los sistemas de traducción automática. El más antiguo es el uso de jueces humanos [68] para evaluar la calidad de una traducción. Aunque la evaluación humana requiere mucho tiempo, sigue siendo el método más confiable para comparar diferentes sistemas, como los basados en reglas y los estadísticos. [69] Los medios automatizados de evaluación incluyen BLEU , NIST , METEOR y LEPOR . [70]
Depender exclusivamente de la traducción automática sin editar ignora el hecho de que la comunicación en el lenguaje humano está incrustada en el contexto y que se necesita una persona para comprender el contexto del texto original con un grado razonable de probabilidad. Es cierto que incluso las traducciones puramente generadas por humanos son propensas a errores. Por lo tanto, para garantizar que una traducción generada automáticamente sea útil para un ser humano y que se logre una traducción de calidad publicable, dichas traducciones deben ser revisadas y editadas por un humano. [71] El difunto Claude Piron escribió que la traducción automática, en el mejor de los casos, automatiza la parte más fácil del trabajo de un traductor; la parte más difícil y que requiere más tiempo generalmente implica realizar una investigación exhaustiva para resolver ambigüedades en el texto de origen , que las exigencias gramaticales y léxicas del idioma de destino requieren que se resuelvan. Esta investigación es un preludio necesario a la preedición necesaria para proporcionar información para el software de traducción automática de modo que el resultado no carezca de significado . [72]
Además de los problemas de desambiguación, puede producirse una menor precisión debido a los diferentes niveles de datos de entrenamiento para los programas de traducción automática. Tanto la traducción automática basada en ejemplos como la estadística se basan en una amplia gama de oraciones de ejemplo reales como base para la traducción, y cuando se analizan demasiadas o muy pocas oraciones, se pone en peligro la precisión. Los investigadores descubrieron que cuando un programa se entrena con 203.529 pares de oraciones, la precisión en realidad disminuye. [66] El nivel óptimo de datos de entrenamiento parece ser un poco más de 100.000 oraciones, posiblemente porque a medida que aumentan los datos de entrenamiento, aumenta el número de oraciones posibles, lo que hace que sea más difícil encontrar una traducción exacta.
Los defectos de la traducción automática se han destacado por su valor de entretenimiento . Dos videos subidos a YouTube en abril de 2017 involucran dos caracteres hiragana japonesesえぐ ( e y gu ) que se pegan repetidamente en Google Translate, y las traducciones resultantes se degradan rápidamente en frases sin sentido como "DECEARING HUEVO" y "Árboles exprimidores de aguas profundas". que luego se leen con voces cada vez más absurdas; [73] [74] la versión completa del video tiene actualmente 6,9 millones de visitas en marzo de 2022. [75]
A principios de la década de 2000, las opciones de traducción automática entre lenguas hablada y de señas eran muy limitadas. Era una creencia común que las personas sordas podían utilizar traductores tradicionales. Sin embargo, el acento, la entonación, el tono y el tiempo se transmiten de manera muy diferente en las lenguas habladas que en las lenguas de señas. Por lo tanto, una persona sorda puede malinterpretar o confundirse acerca del significado de un texto escrito basado en un lenguaje hablado. [76]
Los investigadores Zhao, et al. (2000), desarrollaron un prototipo llamado TEAM (traducción automática del inglés al ASL) que completaba traducciones del inglés al lenguaje de señas americano (ASL). El programa analizaría primero los aspectos sintácticos, gramaticales y morfológicos del texto en inglés. Tras este paso, el programa accedió a un sintetizador de signos, que actuaba como diccionario para ASL. Este sintetizador albergaba el proceso que se debe seguir para completar los signos de ASL, así como el significado de estos signos. Una vez que se analiza todo el texto y se ubican en el sintetizador los signos necesarios para completar la traducción, apareció un humano generado por computadora que usaría ASL para firmar el texto en inglés al usuario. [76]
Sólo las obras originales están sujetas a protección de derechos de autor , por lo que algunos académicos afirman que los resultados de la traducción automática no tienen derecho a protección de derechos de autor porque la traducción automática no implica creatividad . [77] El derecho de autor en cuestión se refiere a una obra derivada ; el autor de la obra original en el idioma original no pierde sus derechos cuando se traduce una obra: un traductor debe tener permiso para publicar una traducción.
わが国では1956年、当時の電気試験所が英和翻訳専用機「ヤマト」を実験している。この機械は1962年頃には中学1年の教科書で90点以上の能力に達したと報告されている。(traducción (asistido por Google Translate ): En 1959 Japón, el Instituto Nacional de Ciencia y Tecnología Industrial Avanzada (AIST) probó la máquina de traducción inglés-japonés adecuada Yamato , que informó en 1964 que había alcanzado el nivel de potencia superior a la partitura. de 90 puntos en el libro de texto del primer grado de la escuela secundaria).
Escribió sobre el procesamiento del lenguaje asistido por computadora ya en 1957. Fue líder de proyecto sobre lingüística computacional en Rand de 1955 a 1968.
{{cite book}}
: CS1 maint: location missing publisher (link) CS1 maint: others (link){{cite report}}
: CS1 maint: multiple names: authors list (link)