stringtranslate.com

Corpus Europarl

El Corpus Europarl es un corpus (conjunto de documentos) que consiste en las actas del Parlamento Europeo desde 1996 hasta 2012. En su primera publicación en 2001, cubría once idiomas oficiales de la Unión Europea (danés, holandés, inglés, finlandés, francés, alemán, griego, italiano, portugués, español y sueco). [1] Con la expansión política de la UE, se han añadido a los datos del corpus los idiomas oficiales de los diez nuevos estados miembros. [1] La última publicación (2012) [2] comprendía hasta 60 millones de palabras por idioma y los idiomas recientemente añadidos estaban ligeramente subrepresentados, ya que los datos para ellos solo están disponibles a partir de 2007. Esta última versión incluye 21 idiomas europeos: románico (francés, italiano, español, portugués, rumano), germánico (inglés, holandés, alemán, danés, sueco), eslavo (búlgaro, checo, polaco, eslovaco, esloveno), finougrio (finlandés, húngaro, estonio), báltico (letón, lituano) y griego. [1]

Los datos que componen el corpus fueron extraídos del sitio web del Parlamento Europeo y luego preparados para la investigación lingüística . [1] Después de la división de oraciones y la tokenización, las oraciones fueron alineadas en todos los idiomas con la ayuda de un algoritmo desarrollado por Gale y Church (1993). [1]

El corpus ha sido compilado y ampliado por un grupo de investigadores dirigido por Philipp Koehn en la Universidad de Edimburgo. Inicialmente, fue diseñado para fines de investigación en traducción automática estadística (TME). Sin embargo, desde su primera versión se ha utilizado para muchos otros fines de investigación, incluyendo, por ejemplo, la desambiguación del sentido de las palabras . EUROPARL también está disponible para búsquedas a través del sistema de gestión de corpus Sketch Engine . [3]

Corpus Europarl y traducción automática estadística

En su artículo "Europarl: A Parallel Corpus for Statistical Machine Translation", [1] Koehn resume hasta qué punto el corpus Europarl es útil para la investigación en SMT . Utiliza el corpus para desarrollar sistemas SMT que traducen cada idioma a cada uno de los otros diez idiomas del corpus, lo que hace un total de 110 sistemas. Esto le permite a Koehn establecer sistemas SMT para pares de idiomas poco comunes que no han sido considerados de antemano por los desarrolladores de SMT, como por ejemplo el finlandés-italiano.

Evaluación de calidad

El corpus Europarl no sólo se puede utilizar para desarrollar sistemas de traducción automática, sino también para evaluarlos. Al comparar el resultado de los sistemas con los datos del corpus original para el idioma de destino, se puede evaluar la adecuación de la traducción. Koehn utiliza para ello la métrica BLEU de Papineni et al. (2002), que cuenta las coincidencias de las dos versiones comparadas (resultado de la traducción automática y datos del corpus) y calcula una puntuación en función de ello. [4] Cuanto más similares sean las dos versiones, mayor será la puntuación y, por tanto, la calidad de la traducción. [1] Los resultados reflejan que algunos sistemas de traducción automática funcionan mejor que otros, por ejemplo, español-francés (40,2) en comparación con holandés-finlandés (10,3). [1] Koehn afirma que la razón de esto es que los idiomas relacionados son más fáciles de traducir entre sí que los que no lo son. [1]

Traducción inversa

Además, Koehn utiliza los sistemas SMT y los datos del corpus Europarl para investigar si la traducción inversa es un método adecuado para la evaluación de los sistemas de traducción automática. Para cada idioma excepto el inglés, compara las puntuaciones BLEU para traducir ese idioma desde y hacia el inglés (por ejemplo, inglés > español, español > inglés) con las que se pueden lograr midiendo los datos originales en inglés contra el resultado obtenido por la traducción del inglés a cada idioma y la traducción inversa al inglés (por ejemplo, inglés > español > inglés). [1] Los resultados indican que las puntuaciones para la traducción inversa son mucho más altas que las de la traducción monodireccional y, lo que es más importante, no se correlacionan en absoluto con las puntuaciones monodireccionales. Por ejemplo, las puntuaciones monodireccionales para inglés<>griego (27,2 y 23,2) son inferiores a las de inglés<>portugués (30,1 y 27,2). Sin embargo, la puntuación de traducción inversa de 56,5 para el griego es más alta que la del portugués, que obtiene 53,6. [1] Koehn explica esto con el hecho de que los errores cometidos en el proceso de traducción podrían simplemente revertirse mediante una traducción inversa, lo que da como resultado altas coincidencias entre la entrada y la salida. [1] Sin embargo, esto no permite sacar conclusiones sobre la calidad del texto en el idioma de destino real . [1] Por lo tanto, Koehn no considera que la traducción inversa sea un método adecuado para la evaluación de los sistemas de traducción automática.

Notas y referencias

  1. ^ abcdefghijklm Koehn, Philipp (2005): "Europarl: un corpus paralelo para la traducción automática estadística", en: MT Summit , págs. 79–86.
  2. ^ Corpus paralelo de actas del Parlamento Europeo 1996-2011
  3. ^ Kilgarriff, A., Baisa, V., Bušta, J., Jakubíček, M., Kovář, V., Michelfeit, J., ... y Suchomel, V. (2014). The Sketch Engine: diez años después. Lexicografía, 1(1), 7-36.
  4. ^ Papineni, Kishore et al (2002): "BLEU. Un método para la evaluación automática de la traducción automática", en: Actas de la 40.ª Reunión Anual de la Asociación de Lingüística Computacional (ACL), págs. 311-318.

Enlaces externos