stringtranslate.com

Memoria de traducción

Una memoria de traducción ( TM ) es una base de datos que almacena "segmentos", que pueden ser oraciones, párrafos o unidades similares a oraciones (encabezados, títulos o elementos de una lista) que han sido traducidos previamente, para ayudar a los traductores humanos . La memoria de traducción almacena el texto fuente y su correspondiente traducción en pares de idiomas llamados “unidades de traducción”. Las palabras individuales se manejan mediante bases terminológicas y no están dentro del dominio de la MT.

Los programas de software que utilizan memorias de traducción a veces se conocen como administradores de memorias de traducción ( TMM ) o sistemas de memorias de traducción ( TM Systems , que no debe confundirse con un sistema de gestión de traducción ( TMS ), que es otro tipo de software centrado en gestionar el proceso de traducción. ).

Las memorias de traducción se utilizan normalmente junto con una herramienta de traducción asistida por computadora (TAO) dedicada, un programa de procesamiento de textos , sistemas de gestión terminológica , un diccionario multilingüe o incluso resultados de traducción automática sin procesar .

Las investigaciones indican que muchas empresas que producen documentación multilingüe utilizan sistemas de memoria de traducción. En una encuesta realizada a profesionales de la lengua en 2006, el 82,5% de 874 respuestas confirmaron el uso de una MT. [1] El uso de la MT se correlaciona con el tipo de texto caracterizado por términos técnicos y estructuras de oraciones simples (técnicas, en menor grado, de marketing y financieras), habilidades informáticas y repetitividad del contenido. [1]

Usando MT

El programa divide el texto fuente (el texto a traducir) en segmentos, busca coincidencias entre los segmentos y la mitad fuente de los pares fuente-destino previamente traducidos almacenados en una memoria de traducción , y presenta pares coincidentes como coincidencias totales y parciales de traducción . El traductor puede aceptar una coincidencia, reemplazarla con una traducción nueva o modificarla para que coincida con la fuente. En los dos últimos casos, la traducción nueva o modificada ingresa a la base de datos.

Algunos sistemas de memorias de traducción buscan sólo coincidencias del 100%, es decir, sólo pueden recuperar segmentos de texto que coincidan exactamente con las entradas de la base de datos, mientras que otros emplean algoritmos de coincidencia difusa para recuperar segmentos similares, que se presentan al traductor con las diferencias marcadas. Los sistemas de memorias de traducción típicos solo buscan texto en el segmento de origen.

La flexibilidad y solidez del algoritmo de coincidencia determinan en gran medida el rendimiento de la memoria de traducción, aunque para algunas aplicaciones la tasa de recuperación de coincidencias exactas puede ser lo suficientemente alta como para justificar el enfoque de coincidencia del 100%.

Los segmentos en los que no se encuentren coincidencias deberán ser traducidos manualmente por el traductor. Estos segmentos recién traducidos se almacenan en la base de datos donde se pueden utilizar para futuras traducciones, así como para repeticiones de ese segmento en el texto actual.

Las memorias de traducción funcionan mejor en textos muy repetitivos, como los manuales técnicos. También son útiles para traducir cambios incrementales en un documento previamente traducido, correspondientes, por ejemplo, a cambios menores en una nueva versión de un manual de usuario. Tradicionalmente, las memorias de traducción no se han considerado apropiadas para textos literarios o creativos, por la sencilla razón de que hay muy poca repetición en el idioma utilizado. Sin embargo, otros los encuentran valiosos incluso para textos no repetitivos, porque los recursos de bases de datos creados tienen valor para las búsquedas de concordancia para determinar el uso apropiado de los términos, para el control de calidad (sin segmentos vacíos) y la simplificación del proceso de revisión (fuente y segmento de destino siempre se muestran juntos, mientras que los traductores tienen que trabajar con dos documentos en un entorno de revisión tradicional).

Principales beneficios

Los administradores de memorias de traducción son más adecuados para traducir documentación técnica y documentos que contienen vocabularios especializados. Sus beneficios incluyen:

Principales obstáculos

Los principales problemas que obstaculizan un uso más amplio de los administradores de memorias de traducción incluyen:

Efectos sobre la calidad

El uso de sistemas de MT puede afectar la calidad de los textos traducidos. Su efecto principal está claramente relacionado con la llamada "propagación de errores": si la traducción de un segmento concreto es incorrecta, es más probable que la traducción incorrecta se reutilice la próxima vez que se reproduzca el mismo texto fuente, o uno similar. texto fuente, se traduce, perpetuándose así el error. Tradicionalmente se han descrito dos efectos principales sobre la calidad de los textos traducidos: el efecto "ensalada de frase" (Bédard 2000; citado en O'Hagan 2009: 50) y el efecto "mirilla" (Heyn 1998). El primero se refiere a una falta de coherencia a nivel textual cuando un texto se traduce utilizando frases de una MT que han sido traducidas por diferentes traductores con diferentes estilos. Según este último, los traductores pueden adaptar su estilo al uso del sistema de MT para que estos no contengan referencias intratextuales, de modo que los segmentos puedan ser mejor reutilizados en textos futuros, afectando así a la cohesión y legibilidad (O'Hagan 2009).

Existe un efecto potencial y, si está presente, probablemente inconsciente, en el texto traducido. Diferentes idiomas utilizan diferentes secuencias para los elementos lógicos dentro de una oración y es menos probable que un traductor al que se le presenta una oración de cláusulas múltiples que está medio traducida reconstruya completamente una oración. Evidencias empíricas consistentes (Martín-Mor 2011) muestran que lo más probable es que los traductores modifiquen la estructura de una oración de cláusulas múltiples cuando trabajan con un procesador de textos en lugar de con un sistema de MT.

También existe la posibilidad de que el traductor trate el texto mecánicamente frase por frase, en lugar de centrarse en cómo se relaciona cada frase con quienes la rodean y con el texto en su conjunto. Los investigadores (Dragsted 2004) han identificado este efecto, que se relaciona con la característica de segmentación automática de estos programas, pero no necesariamente tiene un efecto negativo en la calidad de las traducciones.

Estos efectos están estrechamente relacionados con la formación y no son inherentes a la herramienta. Según Martín-Mor (2011), el uso de sistemas de MT sí tiene un efecto en la calidad de los textos traducidos, especialmente en los principiantes, pero los traductores experimentados pueden evitarlo. Pym (2013) recuerda que "los traductores que utilizan MT/MT tienden a revisar cada segmento a medida que avanzan, dejando poco tiempo para una revisión final de todo el texto al final", lo que podría ser la causa última de algunos de los efectos descritos. aquí.

Tipos de sistemas de MT

Funciones

A continuación se presenta un resumen de las principales funciones de una memoria de traducción.

Funciones sin conexión

Importar

Esta función se utiliza para transferir un texto y su traducción desde un archivo de texto a la TM. La importación se puede realizar desde un formato sin formato , en el que un texto fuente externo está disponible para importar a una memoria de traducción junto con su traducción. En ocasiones los textos tienen que ser reprocesados ​​por el usuario. Existe otro formato que se puede utilizar para importar: el formato nativo . Este formato es el que utiliza la TM para guardar memorias de traducción en un archivo.

Análisis

El proceso de análisis implica los siguientes pasos:

análisis textual
Es muy importante reconocer correctamente la puntuación para distinguir entre, por ejemplo, un punto al final de una frase y un punto en una abreviatura. Por tanto, el marcado es una especie de preedición. Normalmente, los materiales que han sido procesados ​​a través de programas de ayuda a la traducción contienen marcas, ya que la etapa de traducción está integrada en una línea de producción de documentos multilingües. Otros elementos de texto especiales pueden resaltarse mediante marcas. Hay elementos especiales que no necesitan ser traducidos, como nombres propios y códigos, mientras que otros pueden necesitar ser convertidos al formato nativo.
análisis lingüístico
La reducción de forma base se utiliza para preparar listas de palabras y un texto para la recuperación automática de términos de un banco de términos. Por otro lado, el análisis sintáctico se puede utilizar para extraer términos o fraseología de varias palabras de un texto fuente . Por lo tanto, el análisis se utiliza para normalizar la variación del orden de las palabras en la fraseología, es decir, qué palabras pueden formar una frase.
Segmentación
Su finalidad es elegir las unidades de traducción más útiles. La segmentación es como un tipo de análisis. Se realiza de forma monolingüe mediante análisis superficial y la alineación se basa en la segmentación. Si los traductores corrigen las segmentaciones manualmente, las versiones posteriores del documento no encontrarán coincidencias con la MT basada en la segmentación corregida porque el programa repetirá sus propios errores. Los traductores suelen proceder frase por frase, aunque la traducción de una frase puede depender de la traducción de las que la rodean.
Alineación
Es la tarea de definir las correspondencias de traducción entre los textos de origen y de destino. Debería haber retroalimentación desde la alineación hasta la segmentación y un buen algoritmo de alineación debería poder corregir la segmentación inicial.
Extracción de términos
Puede tener como entrada un diccionario anterior. Además, al extraer términos desconocidos, puede utilizar el análisis basado en estadísticas de texto. Se utilizan para estimar la cantidad de trabajo involucrado en un trabajo de traducción. Esto es muy útil para planificar y programar el trabajo. Las estadísticas de traducción suelen contar las palabras y estimar la cantidad de repeticiones en el texto.

Exportar

Exportar transfiere el texto de la TM a un archivo de texto externo. La importación y la exportación deberían ser inversas.

Funciones en línea

Al traducir, uno de los objetivos principales de la MT es recuperar las coincidencias más útiles en la memoria para que el traductor pueda elegir la mejor. La MT debe mostrar tanto el texto de origen como el de destino señalando las identidades y diferencias.

Recuperación

Se pueden recuperar varios tipos diferentes de coincidencias desde una TM.

Coincidencia exacta
Las coincidencias exactas aparecen cuando la coincidencia entre el segmento de origen actual y el almacenado es una coincidencia carácter por carácter. Al traducir una oración, una coincidencia exacta significa que la misma oración ya se ha traducido antes. Las coincidencias exactas también se denominan "coincidencias del 100 %".
Coincidencia exacta en contexto (ICE) o coincidencia garantizada
Una coincidencia ICE es una coincidencia exacta que ocurre exactamente en el mismo contexto, es decir, en la misma ubicación en un párrafo. El contexto a menudo se define por las oraciones y atributos circundantes, como el nombre del archivo del documento, la fecha y los permisos.
coincidencia difusa
Cuando la coincidencia no es exacta, se trata de una coincidencia "difusa". Algunos sistemas asignan porcentajes a este tipo de coincidencias, en cuyo caso una coincidencia difusa es mayor que 0% y menor que 100%. Esas cifras no son comparables entre sistemas a menos que se especifique el método de puntuación.
Concordancia
Cuando el traductor selecciona una o más palabras en el segmento de origen, el sistema recupera pares de segmentos que coinciden con los criterios de búsqueda. Esta característica es útil para encontrar traducciones de términos y modismos en ausencia de una base de datos terminológica .

Actualizando

Una MT se actualiza con una nueva traducción cuando ha sido aceptada por el traductor. Como siempre al actualizar una base de datos, surge la pregunta de qué hacer con el contenido anterior de la base de datos. Una MT se puede modificar cambiando o eliminando entradas en la MT. Algunos sistemas permiten a los traductores guardar múltiples traducciones del mismo segmento fuente.

Traducción automática

Las herramientas de memoria de traducción suelen proporcionar recuperación y sustitución automáticas.

Recuperación automática
Los sistemas de MT se buscan y sus resultados se muestran automáticamente a medida que un traductor avanza por un documento.
Sustitución automática
Con la sustitución automática, si aparece una coincidencia exacta al traducir una nueva versión de un documento, el software repetirá la traducción anterior. Si el traductor no coteja la traducción con la fuente, se repetirá un error en la traducción anterior.

Redes

La creación de redes permite a un grupo de traductores traducir un texto juntos más rápido que si cada uno trabajara de forma aislada, porque las oraciones y frases traducidas por un traductor están disponibles para los demás. Además, si las memorias de traducción se comparten antes de la traducción final, existe la posibilidad de que otros miembros del equipo corrijan los errores de un traductor.

Memoria de texto

La "memoria de texto" es la base del estándar propuesto Lisa OSCAR xml:tm. La memoria de texto comprende la memoria de autor y la memoria de traducción.

Memoria de traducción

Los identificadores únicos se recuerdan durante la traducción para que el documento del idioma de destino esté "exactamente" alineado al nivel de la unidad de texto. Si el documento de origen se modifica posteriormente, aquellas unidades de texto que no hayan cambiado se pueden transferir directamente a la nueva versión de destino del documento sin necesidad de interacción del traductor. Éste es el concepto de coincidencia "exacta" o "perfecta" con la memoria de traducción. xml:tm también puede proporcionar mecanismos para la coincidencia aproximada y apalancada en el documento.

Historia

La década de 1970 es la etapa inicial de los sistemas de MT en la que los académicos llevaron a cabo una ronda preliminar de discusiones exploratorias. A menudo se atribuye la idea original de los sistemas de MT [ ¿según quién? ] al artículo "Proper Place" de Martin Kay, [2] pero los detalles del mismo no se dan en su totalidad. En este artículo, se ha mostrado el concepto básico del sistema de almacenamiento: "El traductor podría comenzar emitiendo un comando que haga que el sistema muestre cualquier cosa en el almacén que pueda ser relevante para... Antes de continuar, puede examinar el pasado. y futuros fragmentos de texto que contengan material similar". Esta observación de Kay en realidad estuvo influenciada por la sugerencia de Peter Arthern de que los traductores pueden utilizar documentos similares, ya traducidos, en línea. En su artículo de 1978 [3] hizo una demostración completa de lo que hoy llamamos sistemas de MT: cualquier texto nuevo se teclearía en una estación de procesamiento de textos y, a medida que se tecleaba, el sistema compararía este texto con los textos anteriores almacenados en su memoria, junto con su traducción a todas las demás lenguas oficiales [de la Comunidad Europea]. ... Una ventaja sobre la traducción automática propiamente dicha sería que todos los pasajes así recuperados serían gramaticalmente correctos. En efecto, deberíamos aplicar un proceso electrónico de "cortar y pegar" que, según mis cálculos, ahorraría al menos el 15 por ciento del tiempo que los traductores emplean actualmente para producir traducciones de manera eficaz.

La idea se incorporó de las herramientas ALPS (Sistemas automatizados de procesamiento de lenguaje) desarrolladas por primera vez por un investigador de la Universidad Brigham Young, y en ese momento la idea de los sistemas TM se mezcló con una herramienta llamada "Procesamiento de repeticiones" que solo tenía como objetivo encontrar cadenas coincidentes. Sólo después de mucho tiempo surgió el concepto de la llamada memoria de traducción.

La verdadera etapa exploratoria de los sistemas de MT sería la década de 1980. Una de las primeras implementaciones del sistema TM apareció en el Banco de conocimientos bilingües de Sadler y Vendelmans. Un banco de conocimientos bilingüe es un par de corpus estructurados sintáctica y referencialmente, siendo uno una traducción del otro, en el que las unidades de traducción están codificadas de forma cruzada entre los corpus. El objetivo del Bilingual Knowledge Bank es desarrollar una fuente de conocimiento de propósito general basada en corpus para aplicaciones en traducción automática y traducción asistida por computadora (Sadler & Vendelman, 1987). Otro paso importante lo dio Brian Harris con su "Bi-text". Ha definido el bitexto como "un texto único en dos dimensiones" (1988), los textos de origen y de destino relacionados por la actividad del traductor a través de unidades de traducción que tuvieron ecos similares con el Banco de Conocimiento Bilingüe de Sadler. Y en el trabajo de Harris propuso algo así como un sistema de traducción automática sin usar este nombre: una base de datos de traducciones pareadas, que se puede buscar por palabra individual o por "unidad de traducción completa", en el último caso la búsqueda permite recuperar unidades similares en lugar de idénticas. .

La tecnología de MT no estuvo disponible comercialmente a gran escala hasta finales de la década de 1990, de ahí los esfuerzos realizados por varios ingenieros y traductores. Es de destacar la primera herramienta de MT llamada Trados ( hoy SDL Trados ). En esta herramienta, al abrir el archivo de origen y aplicar la memoria de traducción, cualquier "coincidencia al 100%" (coincidencias idénticas) o "coincidencias aproximadas" (coincidencias similares, pero no idénticas) dentro del texto se extrae instantáneamente y se coloca dentro del archivo de destino. archivo. Luego, las "coincidencias" sugeridas por la memoria de traducción pueden aceptarse o anularse con nuevas alternativas. Si una unidad de traducción se actualiza manualmente, se almacena en la memoria de traducción para uso futuro y para repetición en el texto actual. De manera similar, todos los segmentos del archivo de destino que no coincidan se traducirían manualmente y luego se agregarían automáticamente a la memoria de traducción.

En la década de 2000, los servicios de traducción en línea comenzaron a incorporar la MT. Los servicios de traducción automática como Google Translate , así como los servicios de traducción profesionales e "híbridos" proporcionados por sitios como Gengo y Ackuna , incorporan bases de datos de memorias de traducción proporcionadas por traductores y voluntarios para hacer conexiones más eficientes entre idiomas y brindar servicios de traducción más rápidos a los usuarios finales. . [4]

Tendencias recientes

Un desarrollo reciente es el concepto de "memoria de texto" en contraste con la memoria de traducción. [5] Esta es también la base de la norma propuesta LISA OSCAR. [6] La memoria de texto dentro de xml:tm comprende la 'memoria de autor' y la 'memoria de traducción'. La memoria de autor se utiliza para realizar un seguimiento de los cambios durante el ciclo de creación. La memoria de traducción utiliza la información de la memoria del autor para implementar la coincidencia de la memoria de traducción. Aunque está dirigido principalmente a documentos XML, xml:tm se puede utilizar en cualquier documento que pueda convertirse al formato XLIFF [7] .

Memorias de traducción de segunda generación

Mucho más potentes que los sistemas de MT de primera generación, incluyen un motor de análisis lingüístico , utilizan tecnología de fragmentos para dividir segmentos en grupos terminológicos inteligentes y generan automáticamente glosarios específicos.

Normas relacionadas

TMX

Translation Memory eXchange (TMX) es un estándar que permite el intercambio de memorias de traducción entre proveedores de traducción. TMX ha sido adoptado por la comunidad de traducción como la mejor manera de importar y exportar memorias de traducción [ cita requerida ] . La versión actual es 1.4b: permite la recreación de los documentos de origen y de destino originales a partir de los datos de TMX.

TBX

Intercambio de TermBase . Esta norma LISA , que fue revisada y republicada como ISO 30042, permite el intercambio de datos terminológicos, incluida información léxica detallada. El marco para TBX lo proporcionan tres estándares ISO: ISO 12620 , ISO 12200 e ISO 16642. ISO 12620 proporciona un inventario de “categorías de datos” bien definidas con nombres estandarizados que funcionan como tipos de elementos de datos o como valores predefinidos. ISO 12200 (también conocida como MARTIF) proporciona la base para la estructura central de TBX. ISO 16642 (también conocido como Marco de marcado terminológico) incluye un metamodelo estructural para los lenguajes de marcado terminológico en general.

UTX

El formato Universal Terminology eXchange (UTX) es un estándar diseñado específicamente para usarse en diccionarios de usuario de traducción automática , pero se puede usar para glosarios generales legibles por humanos. El propósito de UTX es acelerar el intercambio y la reutilización de diccionarios mediante su especificación extremadamente simple y práctica.

SRX

El intercambio de reglas de segmentación (SRX) tiene como objetivo mejorar el estándar TMX para que los datos de la memoria de traducción que se intercambian entre aplicaciones se puedan utilizar de manera más efectiva. La capacidad de especificar las reglas de segmentación que se utilizaron en la traducción anterior puede aumentar el aprovechamiento que se puede lograr.

GMX

Métricas doradas . GILT significa (Globalización, Internacionalización, Localización y Traducción). El estándar GILT Metrics consta de tres partes: GMX-V para métricas de volumen, GMX-C para métricas de complejidad y GMX-Q para métricas de calidad. El estándar GILT Metrics propuesto tiene la tarea de cuantificar la carga de trabajo y los requisitos de calidad para cualquier tarea GILT determinada.

OLIF

Formato de intercambio de léxico abierto . OLIF es un estándar abierto compatible con XML para el intercambio de datos terminológicos y léxicos. Aunque originalmente se pensó como un medio para el intercambio de datos léxicos entre léxicos de traducción automática propietarios, ha evolucionado hasta convertirse en un estándar más general para el intercambio de terminología. [8]

XLIFF

El formato de archivo de intercambio de localización XML (XLIFF) tiene como objetivo proporcionar un formato de archivo de intercambio único que pueda ser comprendido por cualquier proveedor de localización. XLIFF es la forma preferida [9] [10] de intercambiar datos en formato XML en la industria de la traducción. [11]

TransWS

Servicios web de traducción . TransWS especifica las llamadas necesarias para utilizar servicios web para el envío y recuperación de archivos y mensajes relacionados con proyectos de localización. Está pensado como un marco detallado para la automatización de gran parte del proceso de localización actual mediante el uso de servicios web. [12]

xml:tm

El enfoque xml:tm (memoria de texto basada en XML) para la memoria de traducción se basa en el concepto de memoria de texto que comprende la memoria de autor y la memoria de traducción. [13] xml:tm ha sido donado a Lisa OSCAR por XML-INTL.

correos

Formato de objeto portátil Gettext . Aunque a menudo no se consideran un formato de memoria de traducción, los archivos PO de Gettext son archivos bilingües que también se utilizan en procesos de memorias de traducción de la misma manera que se utilizan las memorias de traducción. Normalmente, un sistema de memoria de traducción de PO constará de varios archivos separados en una estructura de árbol de directorios. Las herramientas comunes que funcionan con archivos PO incluyen GNU Gettext Tools y Translate Toolkit . También existen varias herramientas y programas que editan archivos PO como si fueran simples archivos de texto fuente .

Ver también

Referencias

  1. ^ ab Elina Lagoudaki (2006), "Sistemas de memoria de traducción: perspectiva esclarecedora de los usuarios. Hallazgo clave de la encuesta TM 2006 realizada durante julio y agosto de 2006 (Imperial College London, Translation Memories Survey 2006), p.16 "Copia archivada " (PDF) . Archivado desde el original (PDF) el 25 de marzo de 2007. Consultado el 25 de marzo de 2007 .{{cite web}}: Mantenimiento CS1: copia archivada como título ( enlace )
  2. ^ Kay, Martín (marzo de 1997). "El lugar adecuado de los hombres y las máquinas en la traducción de idiomas". Máquina traductora . 12 (1–2): 3–23. doi :10.1023/A:1007911416676. S2CID  207627954.
  3. ^ Arthern, Peter (1978). "Traducción automática y sistemas terminológicos computarizados: la perspectiva de un traductor" (PDF) . La traducción y la computadora: Actas de un seminario, Londres, 14 de noviembre de 1978 . ISBN 0444853022.
  4. ^ La herramienta de traducción de inteligencia artificial de Google parece haber inventado su propio lenguaje interno secreto Devin Coldewey, TechCrunch, 22 de noviembre de 2016
  5. ^ Traducción de documentos XML con xml:tm
  6. ^ xml:tm
  7. ^ XLIFF
  8. ^ Formato de intercambio de léxico abierto
  9. ^ "Traducción DITA SC | OASIS". www.oasis-open.org . Consultado el 29 de enero de 2021 .
  10. ^ Roturier, Johann (23 de agosto de 2019), O'Hagan, Minako (ed.), "XML para tecnología de traducción", The Routledge Handbook of Translation and Technology (1 ed.), Abingdon, Oxon: Routledge, págs. 45–60, doi :10.4324/9781315311258-3, ISBN 978-1-315-31125-8, S2CID  213287381 , consultado el 29 de enero de 2021
  11. ^ Formato de archivo de intercambio de localización XML
  12. ^ Servicios web de traducción
  13. ^ Andrzej Zydroń (agosto de 2008). "OAXAL—Qué es y por qué debería importarme". Noticias de Gestión de Información CIDM . Archivado desde el original el 17 de mayo de 2013 . Consultado el 30 de marzo de 2013 . En el núcleo de xml:tm se encuentran los siguientes conceptos que juntos conforman la 'Memoria de texto': Memoria de autor y Memoria de traducción.

Otras lecturas

enlaces externos