Texto paralelo

Un texto paralelo es un texto colocado junto a su traducción o traducciones. ^[1]^[2] La alineación de texto paralelo es la identificación de las oraciones correspondientes en ambas mitades del texto paralelo. La Biblioteca Clásica de Loeb y la Biblioteca Sánscrita Clay son dos ejemplos de series de textos en dos idiomas. Las Biblias de referencia pueden contener los idiomas originales y una traducción, o varias traducciones por sí mismas, para facilitar la comparación y el estudio; la Hexapla de Orígenes (en griego, "séxtuple") colocó seis versiones del Antiguo Testamento una al lado de la otra. Un ejemplo famoso es la Piedra de Rosetta , cuyo descubrimiento permitió que se comenzara a descifrar el idioma del Antiguo Egipto .

Las grandes colecciones de textos paralelos se denominan corpus paralelos (véase corpus de textos ). La alineación de los corpus paralelos a nivel de oración es un requisito previo para muchas áreas de la investigación lingüística . Durante la traducción, el traductor puede dividir, fusionar, eliminar, insertar o reordenar oraciones. Esto hace que la alineación sea una tarea nada trivial.

Se pueden utilizar textos paralelos en la enseñanza de idiomas . ^[3]

Tipos de corpus paralelos

Los corpus paralelos se pueden clasificar en cuatro categorías principales: ^{[ cita requerida ]}

Un corpus paralelo contiene traducciones del mismo documento en dos o más idiomas, alineadas al menos a nivel de oraciones. Suelen ser más escasas que los corpus menos comparables. ^{[ cita requerida ]}
Un corpus paralelo ruidoso contiene oraciones bilingües que no están perfectamente alineadas o tienen traducciones de mala calidad. Sin embargo, la mayor parte de su contenido son traducciones bilingües de un documento específico.
Un corpus comparable se construye a partir de documentos bilingües no traducidos y no alineados en cuanto a oraciones, pero que están alineados en cuanto a temas.
Un corpus cuasi comparable incluye documentos bilingües muy heterogéneos y no paralelos que pueden o no estar alineados temáticamente.

Ruido en los corpus

Los grandes corpus utilizados como conjuntos de entrenamiento para algoritmos de traducción automática generalmente se extraen de grandes cantidades de fuentes similares, como bases de datos de artículos de noticias escritos en el primer y segundo idioma que describen eventos similares.

Sin embargo, los fragmentos extraídos pueden ser ruidosos, con elementos adicionales insertados en cada corpus. Las técnicas de extracción pueden diferenciar entre elementos bilingües representados en ambos corpus y elementos monolingües representados en un solo corpus para extraer fragmentos paralelos más limpios de elementos bilingües. Se utilizan corpus comparables para obtener directamente conocimiento para fines de traducción. Sin embargo, es difícil obtener datos paralelos de alta calidad, especialmente para idiomas con recursos insuficientes. ^[4]

Bitext

En el campo de los estudios de traducción, un bitexto es un documento fusionado compuesto por versiones en el idioma de origen y en el idioma de destino de un texto determinado.

Los bitextos se generan mediante un programa informático denominado herramienta de alineación o herramienta de bitexto , que alinea automáticamente las versiones original y traducida del mismo texto. La herramienta generalmente hace coincidir estos dos textos frase por frase. Una colección de bitextos se denomina base de datos de bitextos o corpus bilingüe , y se puede consultar con una herramienta de búsqueda.

Bitextos y memorias de traducción

Los bitextos tienen algunas similitudes con las memorias de traducción. La diferencia más destacada es que una memoria de traducción pierde el contexto original, mientras que un bitexto conserva el orden original de las oraciones. Dicho esto, algunas implementaciones de memorias de traducción, como Translation Memory eXchange (TMX), un formato XML estándar para intercambiar memorias de traducción entre programas de traducción asistida por computadora (CAT), permiten preservar el orden original de las oraciones.

Los bitextos están diseñados para ser consultados por un traductor humano , no por una máquina. Por lo tanto, los pequeños errores de alineación o las discrepancias menores que harían que una memoria de traducción fallara no tienen importancia.

En su artículo original de 1988, Harris también postuló que el bitexto representa la manera en que los traductores mantienen unidos sus textos de origen y destino en sus memorias de trabajo mentales a medida que avanzan. Sin embargo, esta hipótesis no ha sido confirmada. ^[5]

Los bitextos en línea y las memorias de traducción también pueden denominarseConcordancias bilingües en línea. Hay varias disponibles en la Web pública, entre ellas Linguée , Reverso y Tradooit. ^[6]^[7]^[8]

Véase también

Referencias

^ Chan, Sin-Wai (2015). Enciclopedia Routledge de tecnología de traducción. Londres: Routledge. ISBN 978-1-315-74912-9.
^ Williams, Philip; Sennrich, Rico; Post, Matt; Koehn, Philipp (2016). Traducción automática estadística basada en sintaxis. Morgan & Claypool. ISBN 978-1-62705-502-4.
^ Abdallah, A. (2021). Impacto del uso de la estrategia de texto paralelo en la enseñanza de la lectura a estudiantes de nivel intermedio II. Revista Internacional de Ciencias Sociales y de la Educación (IJonSES), 3(1), 95-108. https://doi.org/10.46328/ijonses.48
^ Wołk, Krzysztof (2015). "Metodología de filtrado de corpus ruidosos-paralelos y comparables para la extracción de datos equivalentes bilingües a nivel de oración". Ciencias de la Computación . 16 (2): 169–184. arXiv : 1510.04500 . Código Bibliográfico :2015arXiv151004500W. doi : 10.7494/csci.2015.16.2.169 . S2CID 12860633.
^ Harris, B. (marzo de 1988). "Bi-Text, A New Concept in Translation Theory" (PDF) . Language Monthly . 54 : 8–10. Archivado desde el original (PDF) el 2 de marzo de 2018.
^ Genette, Marie (2016). ¿Qué tan confiables son los concordanciadores bilingües en línea? Una investigación de Linguee, TradooIT, WeBiText y ReversoContext y su confiabilidad a través de un análisis contrastivo de preposiciones complejas del francés al inglés (tesis de maestría). Université catholique de Louvain & Universitetet i Oslo. hdl : 10852/51577 .
^ "TradooIT - Concordancia bilingüe".
^ Désilets, Alain; Farley, Benoît; Stojanović, Marta; Patenaude, Geneviève (2008). WeBiText: creación de grandes memorias de traducción heterogéneas a partir de contenido web paralelo . Actas de Translating and the Computer. Vol. 30. págs. 27–28. S2CID 14586900.

Enlaces externos

Corpus paralelos

El corpus paralelo multilingüe JRC-Acquis del conjunto del derecho de la Unión Europea (UE): Acquis Communautaire con 231 pares de lenguas. ^[1]
Corpus paralelo de actas del Parlamento Europeo 1996-2011
El proyecto Opus tiene como objetivo recopilar corpus paralelos disponibles de forma gratuita.
Corpus bilingüe japonés-inglés de artículos de Kioto de Wikipedia Archivado el 22 de agosto de 2012 en Wayback Machine
COMPARA – Corpus paralelos portugués/inglés
BÚSQUEDA DE TÉRMINOS – Corpus paralelos inglés/ruso/francés (Principales tratados internacionales, convenciones, acuerdos, etc.)
TradooIT – Inglés/Francés/Español – Herramientas gratuitas en línea
Nunavut Hansard - corpus paralelo inglés/inuktitut
ParaSol – Un corpus paralelo de lenguas eslavas y otras
Glosbe: corpus paralelos multilingües Archivado el 27 de mayo de 2013 en Wayback Machine con interfaz de búsqueda en línea
InterCorp: un corpus paralelo multilingüe en 40 idiomas alineados con el checo, interfaz de búsqueda en línea
myCAT – Olanto, concordante (AGPL de código abierto) con búsqueda en línea en corpus JCR y UNO
TAUS, con interfaz de búsqueda en línea.
Corpora paralelos multilingües de linguatools, interfaz de búsqueda en línea.
Corpus EUR-Lex: el corpus creado a partir de la base de datos EUR-Lex está compuesto por el derecho de la Unión Europea y otros documentos públicos de la Unión Europea.
Language Grid: plataforma de servicios multilingües que incluye servicios de texto paralelo

Documentación

Bibliografía sobre procesamiento de textos en paralelo de J. Veronis y M.-D. Mahimon
Actas del taller de 2003 sobre la construcción y utilización de textos paralelos
Actas del taller de 2005 sobre la construcción y utilización de textos paralelos

Herramientas de alineación

Herramienta de alineación GIZA++ (1999)
Uplug – herramientas para procesar corpus paralelos (2003)
Una implementación del algoritmo de alineación de oraciones de Gale y Church (2005)
El alineador de oraciones Hunalign (2005)
Champollion (2006)
mALIGNa (2008-2020)
Alineador de oraciones Gargantua (2010)
Bleualign: alineación de oraciones basada en traducción automática (2010)
YASA (2013)
Herramienta de alineación jerárquica (HAT) (2018) Archivado el 5 de julio de 2020 en Wayback Machine
Algoritmo de alineación de oraciones de Vecalign (2019)
Herramienta de alineación web en la Universidad de Grenoble

^ Ralf, Ralf Steinberger; Pouliquén, Bruno; Widiger, Anna; Ignat, Camelia; Erjavec, Tomaž; Tufiş, Dan; Varga, Daniel (2006). "El JRC-Acquis: un corpus paralelo alineado multilingüe con más de 20 idiomas" . Actas de la Quinta Conferencia Internacional sobre Evaluación y Recursos Lingüísticos (LREC'2006). Génova, Italia, 24 a 26 de mayo de 2006.