La traducción automática puede utilizar un método basado en entradas de diccionario , lo que significa que las palabras se traducirán como lo hace un diccionario: palabra por palabra, generalmente sin mucha correlación de significado entre ellas. Las búsquedas en el diccionario se pueden realizar con o sin análisis morfológico o lematización . Si bien este enfoque de traducción automática es probablemente el menos sofisticado, la traducción automática basada en diccionario es ideal para la traducción de largas listas de frases en el nivel suboracional (es decir, no una oración completa), por ejemplo, inventarios o catálogos simples de productos y servicios. [1]
También se puede utilizar para acelerar la traducción manual, si la persona que la realiza domina ambos idiomas y, por tanto, es capaz de corregir la sintaxis y la gramática.
LMT, introducido alrededor de 1990, [2] es un sistema de traducción automática basado en Prolog que funciona con diccionarios bilingües especialmente diseñados, como el Collins English-German (CEG), que han sido reescritos en una forma indexada que es fácilmente legible por computadoras. Este método utiliza una base de datos léxica estructurada (LDB) para identificar correctamente las categorías de palabras del idioma de origen, construyendo así una oración coherente en el idioma de destino, basada en un análisis morfológico rudimentario. Este sistema utiliza "marcos" [2] para identificar la posición que debe tener una determinada palabra, desde un punto de vista sintáctico, en una oración. Estos "marcos" [2] se asignan mediante convenciones lingüísticas, como UDICT en el caso del inglés.
En su forma inicial (prototipo), LMT [2] utiliza tres léxicos a los que se accede simultáneamente: origen, transferencia y destino, aunque es posible encapsular toda esta información en un único léxico. El programa utiliza una configuración léxica que consta de dos elementos principales. El primer elemento es un apéndice léxico codificado a mano que contiene posibles traducciones incorrectas. El segundo elemento consta de varios diccionarios bilingües y monolingües relacionados con los dos idiomas, que son el idioma de origen y el de destino.
Este método de traducción automática basada en diccionarios explora un paradigma diferente al de sistemas como LMT. Un sistema de traducción automática basado en ejemplos se suministra únicamente con un "corpus bilingüe alineado con las oraciones". [3] Con estos datos, el programa de traducción genera un "diccionario bilingüe palabra por palabra" [3] que se utiliza para la traducción posterior.
Aunque este sistema se consideraría en general como una forma de traducción automática totalmente diferente a la traducción automática basada en diccionarios, es importante comprender la naturaleza complementaria de estos paradigmas. Con la potencia combinada inherente a ambos sistemas, junto con el hecho de que una traducción automática basada en diccionarios funciona mejor con listas de palabras de un "diccionario bilingüe palabra por palabra" [3], se demuestra que la combinación de estos dos motores de traducción generaría una herramienta de traducción muy poderosa que, además de ser semánticamente precisa, es capaz de mejorar sus propias funcionalidades a través de bucles de retroalimentación perpetuos.
Un sistema que combina ambos paradigmas de forma similar a lo descrito en el párrafo anterior es el motor de traducción automática Pangloss Example-Based Machine Translation Engine (PanEBMT) [3] . PanEBMT utiliza una tabla de correspondencias entre idiomas para crear su corpus. Además, PanEBMT admite múltiples operaciones incrementales sobre su corpus, lo que facilita una traducción sesgada utilizada con fines de filtrado.
Douglas Hofstadter, en su libro "Le Ton beau de Marot: In Praise of the Music of Language", demuestra lo compleja que es la tarea de traducir. El autor produjo y analizó docenas y docenas de traducciones posibles para un poema francés de dieciocho versos, revelando así complejos mecanismos internos de sintaxis, morfología y significado. [4] A diferencia de la mayoría de los motores de traducción que eligen una única traducción basándose en la comparación de los textos en ambos idiomas, el de origen y el de destino, el trabajo de Douglas Hofstadter demuestra el nivel inherente de error que está presente en cualquier forma de traducción, cuando el significado del texto de origen es demasiado detallado o complejo. De este modo, se pone de manifiesto el problema de la alineación del texto y las "estadísticas del lenguaje" [4] .
Estas discrepancias dieron lugar a las opiniones de Martin Kay sobre la traducción y los motores de traducción en su conjunto. Como dice Kay, "para lograr éxitos más sustanciales en estas empresas se requerirá una imagen más nítida del mundo que la que se puede obtener simplemente a partir de las estadísticas del uso del lenguaje" [(página xvii) Procesamiento de texto paralelo: alineación y uso de corpus de traducción]. [4] De este modo, Kay ha vuelto a sacar a la luz la cuestión del significado dentro del lenguaje y la distorsión del significado a través de los procesos de traducción.
Uno de los posibles usos de la traducción automática basada en diccionarios es facilitar la "tutoría de lenguas extranjeras" (FLT). Esto se puede lograr utilizando la tecnología de traducción automática, así como la lingüística, la semántica y la morfología para producir "diccionarios a gran escala" [5] en prácticamente cualquier idioma. El desarrollo de la semántica léxica y la lingüística computacional durante el período comprendido entre 1990 y 1996 hizo posible que el "procesamiento del lenguaje natural" (NLP) floreciera, adquiriendo nuevas capacidades, pero beneficiando a la traducción automática en general. [5]
La "estructura conceptual léxica" (LCS) es una representación que no depende del lenguaje. Se utiliza principalmente en la enseñanza de lenguas extranjeras, especialmente en el componente de procesamiento del lenguaje natural de FLT. La LCS también ha demostrado ser una herramienta indispensable para la traducción automática de cualquier tipo, como la traducción automática basada en diccionarios. En general, uno de los objetivos principales de la LCS es "demostrar que los sentidos de los verbos sinónimos comparten patrones de distribución". [5]
"DKvec es un método para extraer léxicos bilingües de corpus paralelos ruidosos basándose en las distancias de llegada de las palabras en corpus paralelos ruidosos". Este método surgió como respuesta a dos problemas que afectan a la extracción estadística de léxicos bilingües: "(1) ¿Cómo se pueden utilizar corpus paralelos ruidosos? (2) ¿Cómo se pueden utilizar corpus no paralelos pero comparables?" [6]
El método "DKvec" ha demostrado ser inestimable para la traducción automática en general, debido al asombroso éxito que ha tenido en pruebas realizadas en corpus paralelos ruidosos tanto en inglés como en japonés y en inglés y chino. Las cifras de precisión "muestran una precisión del 55,35 % a partir de un corpus pequeño y del 89,93 % a partir de un corpus más grande". [6] Con cifras tan impresionantes, es seguro asumir el inmenso impacto que métodos como "DKvec" han tenido en la evolución de la traducción automática en general, especialmente en la traducción automática basada en diccionarios.
Los algoritmos utilizados para extraer corpus paralelos en formato bilingüe explotan las siguientes reglas para lograr una precisión satisfactoria y una calidad general: [6]
Estos métodos se pueden utilizar para generar o buscar patrones de ocurrencia que a su vez se utilizan para producir vectores de ocurrencia binarios que son utilizados por el método "DKvec".
La historia de la traducción automática (TA) comienza a mediados de la década de 1940. Probablemente, la traducción automática fue la primera vez que se utilizaron las computadoras para fines no numéricos. La traducción automática gozó de un gran interés de investigación durante las décadas de 1950 y 1960, a lo que siguió un estancamiento hasta la década de 1980. [7] Después de la década de 1980, la traducción automática volvió a ser la corriente principal, disfrutando de una popularidad incluso mayor que en las décadas de 1950 y 1960, así como de una rápida expansión, basada en gran medida en el enfoque de corpus de textos.
El concepto básico de traducción automática se remonta al siglo XVII, en las especulaciones en torno a los "lenguajes universales y diccionarios mecánicos". [7] Las primeras sugerencias prácticas de traducción automática fueron hechas en 1933 por Georges Artsrouni en Francia y Petr Trojanskij en Rusia. Ambos habían patentado máquinas que creían que podían usarse para traducir el significado de un idioma a otro. "En junio de 1952, Yehoshua Bar-Hillel convocó la primera conferencia de traducción automática en el MIT". [7] El 7 de enero de 1954, una convención de traducción automática en Nueva York, patrocinada por IBM, sirvió para popularizar el campo. La popularidad de la convención se debió a la traducción de oraciones cortas del inglés al ruso. Esta hazaña de ingeniería cautivó al público y a los gobiernos de los EE. UU. y la URSS, quienes, por lo tanto, estimularon la financiación a gran escala de la investigación de la traducción automática. [7] Aunque el entusiasmo por la traducción automática era extremadamente alto, las limitaciones técnicas y de conocimiento llevaron a desilusionarse con respecto a lo que la traducción automática era realmente capaz de hacer, al menos en ese momento. Así, la traducción automática perdió popularidad hasta la década de 1980, cuando los avances en lingüística y tecnología ayudaron a revitalizar el interés en este campo.
"La recuperación de información translingüística (TLIR) consiste en proporcionar una consulta en un idioma y buscar colecciones de documentos en uno o más idiomas diferentes". La mayoría de los métodos de TLIR se pueden cuantificar en dos categorías, a saber, los enfoques de IR estadísticos y la traducción de consultas. La TLIR basada en traducción automática funciona de una de dos maneras. O bien la consulta se traduce al idioma de destino, o bien se utiliza la consulta original para buscar mientras que la colección de posibles resultados se traduce al idioma de la consulta y se utiliza para la referencia cruzada. Ambos métodos tienen ventajas y desventajas, a saber: [8]
Todos estos puntos demuestran que la traducción automática basada en diccionarios es la forma más eficiente y confiable de traducción cuando se trabaja con TLIR. Esto se debe a que el proceso "busca cada término de consulta en un diccionario bilingüe de uso general y utiliza todas sus traducciones posibles". [8]
Los ejemplos de RUSLAN, un sistema de traducción automática basado en diccionario entre checo y ruso, y CESILKO, un sistema de traducción automática basado en diccionario checo-eslovaco, muestran que en el caso de idiomas muy próximos, los métodos de traducción más simples son más eficientes, rápidos y fiables. [9]
El sistema RUSLAN se creó para demostrar la hipótesis de que los idiomas relacionados son más fáciles de traducir. El desarrollo del sistema comenzó en 1985 y se interrumpió cinco años después debido a la falta de financiación. Las lecciones que dejó el experimento RUSLAN son que un enfoque de traducción basado en la transferencia conserva su calidad independientemente de lo cercanos que sean los idiomas. Los dos principales obstáculos de los "sistemas completos basados en la transferencia" [9] son la complejidad y la falta de fiabilidad del análisis sintáctico. [10]
"Los sistemas de recuperación de información clasifican los documentos según medidas de similitud estadística basadas en la coocurrencia de términos en consultas y documentos". El sistema MLIR fue creado y optimizado de tal manera que facilita la traducción de consultas basada en diccionarios. Esto se debe a que las consultas tienden a ser cortas, un par de palabras, lo que, a pesar de no proporcionar mucho contexto, es más factible que traducir documentos completos, por razones prácticas. A pesar de todo esto, el sistema MLIR depende en gran medida de muchos recursos, como software de detección automática de idioma . [11]
{{cite journal}}
: Requiere citar revista |journal=
( ayuda ){{cite book}}
: |journal=
ignorado ( ayuda ){{cite book}}
: |journal=
ignorado ( ayuda ) ; faltante o vacío |title=
( ayuda )