Una memoria de traducción ( TM ) es una base de datos que almacena "segmentos", que pueden ser oraciones, párrafos o unidades similares a oraciones (encabezados, títulos o elementos de una lista) que han sido traducidos previamente, para ayudar a los traductores humanos . La memoria de traducción almacena el texto fuente y su correspondiente traducción en pares de idiomas llamados “unidades de traducción”. Las palabras individuales se manejan mediante bases terminológicas y no están dentro del dominio de la MT.
Los programas de software que utilizan memorias de traducción a veces se conocen como administradores de memorias de traducción ( TMM ) o sistemas de memorias de traducción ( TM Systems , que no debe confundirse con un sistema de gestión de traducción ( TMS ), que es otro tipo de software centrado en gestionar el proceso de traducción. ).
Las memorias de traducción se utilizan normalmente junto con una herramienta de traducción asistida por computadora (TAO) dedicada, un programa de procesamiento de textos , sistemas de gestión terminológica , un diccionario multilingüe o incluso resultados de traducción automática sin procesar .
Las investigaciones indican que muchas empresas que producen documentación multilingüe utilizan sistemas de memoria de traducción. En una encuesta realizada a profesionales de la lengua en 2006, el 82,5% de 874 respuestas confirmaron el uso de una MT. [1] El uso de la MT se correlaciona con el tipo de texto caracterizado por términos técnicos y estructuras de oraciones simples (técnicas, en menor grado, de marketing y financieras), habilidades informáticas y repetitividad del contenido. [1]
El programa divide el texto fuente (el texto a traducir) en segmentos, busca coincidencias entre los segmentos y la mitad fuente de los pares fuente-destino previamente traducidos almacenados en una memoria de traducción , y presenta pares coincidentes como coincidencias totales y parciales de traducción . El traductor puede aceptar una coincidencia, reemplazarla con una traducción nueva o modificarla para que coincida con la fuente. En los dos últimos casos, la traducción nueva o modificada ingresa a la base de datos.
Algunos sistemas de memorias de traducción buscan sólo coincidencias del 100%, es decir, sólo pueden recuperar segmentos de texto que coincidan exactamente con las entradas de la base de datos, mientras que otros emplean algoritmos de coincidencia difusa para recuperar segmentos similares, que se presentan al traductor con las diferencias marcadas. Los sistemas de memorias de traducción típicos solo buscan texto en el segmento de origen.
La flexibilidad y solidez del algoritmo de coincidencia determinan en gran medida el rendimiento de la memoria de traducción, aunque para algunas aplicaciones la tasa de recuperación de coincidencias exactas puede ser lo suficientemente alta como para justificar el enfoque de coincidencia del 100%.
Los segmentos en los que no se encuentren coincidencias deberán ser traducidos manualmente por el traductor. Estos segmentos recién traducidos se almacenan en la base de datos donde se pueden utilizar para futuras traducciones, así como para repeticiones de ese segmento en el texto actual.
Las memorias de traducción funcionan mejor en textos muy repetitivos, como los manuales técnicos. También son útiles para traducir cambios incrementales en un documento previamente traducido, correspondientes, por ejemplo, a cambios menores en una nueva versión de un manual de usuario. Tradicionalmente, las memorias de traducción no se han considerado apropiadas para textos literarios o creativos, por la sencilla razón de que hay muy poca repetición en el idioma utilizado. Sin embargo, otros los encuentran valiosos incluso para textos no repetitivos, porque los recursos de bases de datos creados tienen valor para las búsquedas de concordancia para determinar el uso apropiado de los términos, para el control de calidad (sin segmentos vacíos) y la simplificación del proceso de revisión (fuente y segmento de destino siempre se muestran juntos, mientras que los traductores tienen que trabajar con dos documentos en un entorno de revisión tradicional).
Los administradores de memorias de traducción son más adecuados para traducir documentación técnica y documentos que contienen vocabularios especializados. Sus beneficios incluyen:
Los principales problemas que obstaculizan un uso más amplio de los administradores de memorias de traducción incluyen:
El uso de sistemas de MT puede afectar la calidad de los textos traducidos. Su efecto principal está claramente relacionado con la llamada "propagación de errores": si la traducción de un segmento concreto es incorrecta, es más probable que la traducción incorrecta se reutilice la próxima vez que se reproduzca el mismo texto fuente, o uno similar. texto fuente, se traduce, perpetuándose así el error. Tradicionalmente se han descrito dos efectos principales sobre la calidad de los textos traducidos: el efecto "ensalada de frase" (Bédard 2000; citado en O'Hagan 2009: 50) y el efecto "mirilla" (Heyn 1998). El primero se refiere a una falta de coherencia a nivel textual cuando un texto se traduce utilizando frases de una MT que han sido traducidas por diferentes traductores con diferentes estilos. Según este último, los traductores pueden adaptar su estilo al uso del sistema de MT para que estos no contengan referencias intratextuales, de modo que los segmentos puedan ser mejor reutilizados en textos futuros, afectando así a la cohesión y legibilidad (O'Hagan 2009).
Existe un efecto potencial y, si está presente, probablemente inconsciente, en el texto traducido. Diferentes idiomas utilizan diferentes secuencias para los elementos lógicos dentro de una oración y es menos probable que un traductor al que se le presenta una oración de cláusulas múltiples que está medio traducida reconstruya completamente una oración. Evidencias empíricas consistentes (Martín-Mor 2011) muestran que lo más probable es que los traductores modifiquen la estructura de una oración de cláusulas múltiples cuando trabajan con un procesador de textos en lugar de con un sistema de MT.
También existe la posibilidad de que el traductor trate el texto mecánicamente frase por frase, en lugar de centrarse en cómo se relaciona cada frase con quienes la rodean y con el texto en su conjunto. Los investigadores (Dragsted 2004) han identificado este efecto, que se relaciona con la característica de segmentación automática de estos programas, pero no necesariamente tiene un efecto negativo en la calidad de las traducciones.
Estos efectos están estrechamente relacionados con la formación y no son inherentes a la herramienta. Según Martín-Mor (2011), el uso de sistemas de MT sí tiene un efecto en la calidad de los textos traducidos, especialmente en los principiantes, pero los traductores experimentados pueden evitarlo. Pym (2013) recuerda que "los traductores que utilizan MT/MT tienden a revisar cada segmento a medida que avanzan, dejando poco tiempo para una revisión final de todo el texto al final", lo que podría ser la causa última de algunos de los efectos descritos. aquí.
A continuación se presenta un resumen de las principales funciones de una memoria de traducción.
Esta función se utiliza para transferir un texto y su traducción desde un archivo de texto a la TM. La importación se puede realizar desde un formato sin formato , en el que un texto fuente externo está disponible para importar a una memoria de traducción junto con su traducción. En ocasiones los textos tienen que ser reprocesados por el usuario. Existe otro formato que se puede utilizar para importar: el formato nativo . Este formato es el que utiliza la TM para guardar memorias de traducción en un archivo.
El proceso de análisis implica los siguientes pasos:
Exportar transfiere el texto de la TM a un archivo de texto externo. La importación y la exportación deberían ser inversas.
Al traducir, uno de los objetivos principales de la MT es recuperar las coincidencias más útiles en la memoria para que el traductor pueda elegir la mejor. La MT debe mostrar tanto el texto de origen como el de destino señalando las identidades y diferencias.
Se pueden recuperar varios tipos diferentes de coincidencias desde una TM.
Una MT se actualiza con una nueva traducción cuando ha sido aceptada por el traductor. Como siempre al actualizar una base de datos, surge la pregunta de qué hacer con el contenido anterior de la base de datos. Una MT se puede modificar cambiando o eliminando entradas en la MT. Algunos sistemas permiten a los traductores guardar múltiples traducciones del mismo segmento fuente.
Las herramientas de memoria de traducción suelen proporcionar recuperación y sustitución automáticas.
La creación de redes permite a un grupo de traductores traducir un texto juntos más rápido que si cada uno trabajara de forma aislada, porque las oraciones y frases traducidas por un traductor están disponibles para los demás. Además, si las memorias de traducción se comparten antes de la traducción final, existe la posibilidad de que otros miembros del equipo corrijan los errores de un traductor.
La "memoria de texto" es la base del estándar propuesto Lisa OSCAR xml:tm. La memoria de texto comprende la memoria de autor y la memoria de traducción.
Los identificadores únicos se recuerdan durante la traducción para que el documento del idioma de destino esté "exactamente" alineado al nivel de la unidad de texto. Si el documento de origen se modifica posteriormente, aquellas unidades de texto que no hayan cambiado se pueden transferir directamente a la nueva versión de destino del documento sin necesidad de interacción del traductor. Éste es el concepto de coincidencia "exacta" o "perfecta" con la memoria de traducción. xml:tm también puede proporcionar mecanismos para la coincidencia aproximada y apalancada en el documento.
La década de 1970 es la etapa inicial de los sistemas de MT en la que los académicos llevaron a cabo una ronda preliminar de discusiones exploratorias. A menudo se atribuye la idea original de los sistemas de MT [ ¿según quién? ] al artículo "Proper Place" de Martin Kay, [2] pero los detalles del mismo no se dan en su totalidad. En este artículo, se ha mostrado el concepto básico del sistema de almacenamiento: "El traductor podría comenzar emitiendo un comando que haga que el sistema muestre cualquier cosa en el almacén que pueda ser relevante para... Antes de continuar, puede examinar el pasado. y futuros fragmentos de texto que contengan material similar". Esta observación de Kay en realidad estuvo influenciada por la sugerencia de Peter Arthern de que los traductores pueden utilizar documentos similares, ya traducidos, en línea. En su artículo de 1978 [3] hizo una demostración completa de lo que hoy llamamos sistemas de MT: cualquier texto nuevo se teclearía en una estación de procesamiento de textos y, a medida que se tecleaba, el sistema compararía este texto con los textos anteriores almacenados en su memoria, junto con su traducción a todas las demás lenguas oficiales [de la Comunidad Europea]. ... Una ventaja sobre la traducción automática propiamente dicha sería que todos los pasajes así recuperados serían gramaticalmente correctos. En efecto, deberíamos aplicar un proceso electrónico de "cortar y pegar" que, según mis cálculos, ahorraría al menos el 15 por ciento del tiempo que los traductores emplean actualmente para producir traducciones de manera eficaz.
La idea se incorporó de las herramientas ALPS (Sistemas automatizados de procesamiento de lenguaje) desarrolladas por primera vez por un investigador de la Universidad Brigham Young, y en ese momento la idea de los sistemas TM se mezcló con una herramienta llamada "Procesamiento de repeticiones" que solo tenía como objetivo encontrar cadenas coincidentes. Sólo después de mucho tiempo surgió el concepto de la llamada memoria de traducción.
La verdadera etapa exploratoria de los sistemas de MT sería la década de 1980. Una de las primeras implementaciones del sistema TM apareció en el Banco de conocimientos bilingües de Sadler y Vendelmans. Un banco de conocimientos bilingüe es un par de corpus estructurados sintáctica y referencialmente, siendo uno una traducción del otro, en el que las unidades de traducción están codificadas de forma cruzada entre los corpus. El objetivo del Bilingual Knowledge Bank es desarrollar una fuente de conocimiento de propósito general basada en corpus para aplicaciones en traducción automática y traducción asistida por computadora (Sadler & Vendelman, 1987). Otro paso importante lo dio Brian Harris con su "Bi-text". Ha definido el bitexto como "un texto único en dos dimensiones" (1988), los textos de origen y de destino relacionados por la actividad del traductor a través de unidades de traducción que tuvieron ecos similares con el Banco de Conocimiento Bilingüe de Sadler. Y en el trabajo de Harris propuso algo así como un sistema de traducción automática sin usar este nombre: una base de datos de traducciones pareadas, que se puede buscar por palabra individual o por "unidad de traducción completa", en el último caso la búsqueda permite recuperar unidades similares en lugar de idénticas. .
La tecnología de MT no estuvo disponible comercialmente a gran escala hasta finales de la década de 1990, de ahí los esfuerzos realizados por varios ingenieros y traductores. Es de destacar la primera herramienta de MT llamada Trados ( hoy SDL Trados ). En esta herramienta, al abrir el archivo de origen y aplicar la memoria de traducción, cualquier "coincidencia al 100%" (coincidencias idénticas) o "coincidencias aproximadas" (coincidencias similares, pero no idénticas) dentro del texto se extrae instantáneamente y se coloca dentro del archivo de destino. archivo. Luego, las "coincidencias" sugeridas por la memoria de traducción pueden aceptarse o anularse con nuevas alternativas. Si una unidad de traducción se actualiza manualmente, se almacena en la memoria de traducción para uso futuro y para repetición en el texto actual. De manera similar, todos los segmentos del archivo de destino que no coincidan se traducirían manualmente y luego se agregarían automáticamente a la memoria de traducción.
En la década de 2000, los servicios de traducción en línea comenzaron a incorporar la MT. Los servicios de traducción automática como Google Translate , así como los servicios de traducción profesionales e "híbridos" proporcionados por sitios como Gengo y Ackuna , incorporan bases de datos de memorias de traducción proporcionadas por traductores y voluntarios para hacer conexiones más eficientes entre idiomas y brindar servicios de traducción más rápidos a los usuarios finales. . [4]
Un desarrollo reciente es el concepto de "memoria de texto" en contraste con la memoria de traducción. [5] Esta es también la base de la norma propuesta LISA OSCAR. [6] La memoria de texto dentro de xml:tm comprende la 'memoria de autor' y la 'memoria de traducción'. La memoria de autor se utiliza para realizar un seguimiento de los cambios durante el ciclo de creación. La memoria de traducción utiliza la información de la memoria del autor para implementar la coincidencia de la memoria de traducción. Aunque está dirigido principalmente a documentos XML, xml:tm se puede utilizar en cualquier documento que pueda convertirse al formato XLIFF [7] .
Mucho más potentes que los sistemas de MT de primera generación, incluyen un motor de análisis lingüístico , utilizan tecnología de fragmentos para dividir segmentos en grupos terminológicos inteligentes y generan automáticamente glosarios específicos.
Translation Memory eXchange (TMX) es un estándar que permite el intercambio de memorias de traducción entre proveedores de traducción. TMX ha sido adoptado por la comunidad de traducción como la mejor manera de importar y exportar memorias de traducción [ cita requerida ] . La versión actual es 1.4b: permite la recreación de los documentos de origen y de destino originales a partir de los datos de TMX.
Intercambio de TermBase . Esta norma LISA , que fue revisada y republicada como ISO 30042, permite el intercambio de datos terminológicos, incluida información léxica detallada. El marco para TBX lo proporcionan tres estándares ISO: ISO 12620 , ISO 12200 e ISO 16642. ISO 12620 proporciona un inventario de “categorías de datos” bien definidas con nombres estandarizados que funcionan como tipos de elementos de datos o como valores predefinidos. ISO 12200 (también conocida como MARTIF) proporciona la base para la estructura central de TBX. ISO 16642 (también conocido como Marco de marcado terminológico) incluye un metamodelo estructural para los lenguajes de marcado terminológico en general.
El formato Universal Terminology eXchange (UTX) es un estándar diseñado específicamente para usarse en diccionarios de usuario de traducción automática , pero se puede usar para glosarios generales legibles por humanos. El propósito de UTX es acelerar el intercambio y la reutilización de diccionarios mediante su especificación extremadamente simple y práctica.
El intercambio de reglas de segmentación (SRX) tiene como objetivo mejorar el estándar TMX para que los datos de la memoria de traducción que se intercambian entre aplicaciones se puedan utilizar de manera más efectiva. La capacidad de especificar las reglas de segmentación que se utilizaron en la traducción anterior puede aumentar el aprovechamiento que se puede lograr.
Métricas doradas . GILT significa (Globalización, Internacionalización, Localización y Traducción). El estándar GILT Metrics consta de tres partes: GMX-V para métricas de volumen, GMX-C para métricas de complejidad y GMX-Q para métricas de calidad. El estándar GILT Metrics propuesto tiene la tarea de cuantificar la carga de trabajo y los requisitos de calidad para cualquier tarea GILT determinada.
Formato de intercambio de léxico abierto . OLIF es un estándar abierto compatible con XML para el intercambio de datos terminológicos y léxicos. Aunque originalmente se pensó como un medio para el intercambio de datos léxicos entre léxicos de traducción automática propietarios, ha evolucionado hasta convertirse en un estándar más general para el intercambio de terminología. [8]
El formato de archivo de intercambio de localización XML (XLIFF) tiene como objetivo proporcionar un formato de archivo de intercambio único que pueda ser comprendido por cualquier proveedor de localización. XLIFF es la forma preferida [9] [10] de intercambiar datos en formato XML en la industria de la traducción. [11]
Servicios web de traducción . TransWS especifica las llamadas necesarias para utilizar servicios web para el envío y recuperación de archivos y mensajes relacionados con proyectos de localización. Está pensado como un marco detallado para la automatización de gran parte del proceso de localización actual mediante el uso de servicios web. [12]
El enfoque xml:tm (memoria de texto basada en XML) para la memoria de traducción se basa en el concepto de memoria de texto que comprende la memoria de autor y la memoria de traducción. [13] xml:tm ha sido donado a Lisa OSCAR por XML-INTL.
Formato de objeto portátil Gettext . Aunque a menudo no se consideran un formato de memoria de traducción, los archivos PO de Gettext son archivos bilingües que también se utilizan en procesos de memorias de traducción de la misma manera que se utilizan las memorias de traducción. Normalmente, un sistema de memoria de traducción de PO constará de varios archivos separados en una estructura de árbol de directorios. Las herramientas comunes que funcionan con archivos PO incluyen GNU Gettext Tools y Translate Toolkit . También existen varias herramientas y programas que editan archivos PO como si fueran simples archivos de texto fuente .
{{cite web}}
: Mantenimiento CS1: copia archivada como título ( enlace )En el núcleo de xml:tm se encuentran los siguientes conceptos que juntos conforman la 'Memoria de texto': Memoria de autor y Memoria de traducción.