stringtranslate.com

apertium

Apertium es una plataforma de traducción automática basada en reglas gratuita y de código abierto . Es software gratuito y se publica bajo los términos de la Licencia Pública General GNU .

Descripción general

Apertium es un sistema de traducción automática basado en transferencias , que utiliza transductores de estado finito para todas sus transformaciones léxicas y etiquetadores de gramática de restricciones , así como modelos ocultos de Markov o perceptrones para el etiquetado de partes del discurso /desambiguación de categorías de palabras. [2] Un componente de transferencia estructural es responsable del movimiento y acuerdo de palabras; la mayoría de los pares de idiomas de Apertium hasta ahora han usado reglas de "fragmentación" o transferencia superficial, aunque los pares más nuevos usan reglas (posiblemente recursivas) definidas en una gramática libre de contexto . [3]

Muchos de los sistemas de traducción automática disponibles en la actualidad son comerciales o utilizan tecnologías patentadas , lo que hace que sea muy difícil adaptarlos a nuevos usos. El código y los datos de Apertium son software gratuito y utilizan una especificación independiente del lenguaje , para permitir la facilidad de contribuir a Apertium, un desarrollo más eficiente y mejorar el crecimiento general del proyecto.

En la actualidad (diciembre de 2020), Apertium ha lanzado 51 pares de idiomas estables, [4] que ofrecen una traducción rápida con resultados razonablemente inteligibles (los errores se corrigen fácilmente). Al ser un proyecto de código abierto , Apertium proporciona herramientas para que los desarrolladores potenciales creen su propio par de idiomas y contribuyan al proyecto.

Historia

Apertium se originó como uno de los motores de traducción automática del proyecto OpenTrad, financiado por el gobierno español , y desarrollado por el grupo de investigación Transducens de la Universitat d'Alacant . Originalmente fue diseñado para traducir entre idiomas estrechamente relacionados, aunque recientemente se ha ampliado para tratar pares de idiomas más divergentes. Para crear un nuevo sistema de traducción automática, basta con desarrollar datos lingüísticos (diccionarios, reglas) en formatos XML bien especificados .

Los datos lingüísticos desarrollados para ello (en colaboración con la Universidade de Vigo , la Universitat Politècnica de Catalunya y la Universitat Pompeu Fabra ) actualmente soportan (en versión estable) el árabe , aragonés , asturiano , vasco , bielorruso , bretón , búlgaro , catalán , crimeo. tártaro , danés , inglés , esperanto , francés , gallego , hindi , islandés , indonesio , italiano , kazajo , macedonio , malayo , maltés , sami septentrional , noruego ( bokmål y nynorsk ) , occitano , polaco , portugués , rumano , ruso , sardo , Lenguas serbocroata , silesia , eslovena , española , sueca , tártara , ucraniana , urdu y galesa . Una lista completa está disponible a continuación. Varias empresas también participan en el desarrollo de Apertium, entre ellas Prompsit Language Engineering, Imaxin Software y Eleka Ingeniaritza Linguistikoa.

El proyecto ha participado en las ediciones de 2009, [5] 2010, [6] 2011, [7] 2012, [8] 2013 [9] y 2014 [10] de Google Summer of Code y en las ediciones de 2010, [11] 2011. , [12] 2012, [13] 2013, [14] 2014, [15] 2015, [16] 2016 [17] y 2017 [18] ediciones de Google Code-In .

Metodología de traducción

Tubería del sistema de traducción automática Apertium

Esta es una vista general, paso a paso, de cómo funciona Apertium.

El diagrama muestra los pasos que sigue Apertium para traducir un texto en el idioma de origen (el texto que queremos traducir) a un texto en el idioma de destino (el texto traducido).

  1. El texto del idioma de origen se pasa a Apertium para su traducción.
  2. El deformateador elimina el formato (HTML, RTF, etc.) que debe mantenerse pero no traducirse.
  3. El analizador morfológico segmenta el texto (expandiendo elisiones , marcando frases hechas, etc.) y busca segmentos en los diccionarios de idiomas, devolviendo formularios de diccionario y etiquetas para todas las coincidencias. En pares que implican morfología aglutinante , incluidas varias lenguas turcas , se utiliza un transductor de estado finito de Helsinki (HFST). De lo contrario, se utiliza un sistema transductor de estado finito específico de Apertium llamado lttoolbox, [19] .
  4. El desambiguador morfológico (el analizador morfológico y el desambiguador morfológico juntos forman la parte del etiquetador del discurso ) resuelve segmentos ambiguos (es decir, cuando hay más de una coincidencia) eligiendo una coincidencia. Apertium utiliza reglas de gramática de restricciones (con el analizador vislcg3 [20] ) para la mayoría de sus pares de idiomas.
  5. La retokenización utiliza un transductor de estado finito para hacer coincidir secuencias de unidades léxicas y puede reordenar o traducir etiquetas (a menudo se usa para traducir expresiones idiomáticas a algo que se acerque más a la gramática del idioma de destino).
  6. La transferencia léxica busca palabras base no ambiguas en el idioma de origen para encontrar sus equivalentes en el idioma de destino (es decir, relacionar el idioma de origen con el idioma de destino ). Para la transferencia léxica , Apertium utiliza un formato de diccionario basado en XML llamado bidix. [21]
  7. La selección léxica elige entre traducciones alternativas cuando la palabra del texto fuente tiene significados alternativos. Apertium utiliza una tecnología específica basada en XML , apertium-lex-tools, [22] para realizar la selección léxica .
  8. La transferencia estructural (es decir, es un formato XML que permite escribir reglas de transferencia estructural complejas) puede consistir en una transferencia fragmentada de un paso, una transferencia fragmentada de tres pasos o un módulo de transferencia basado en CFG . Los módulos de fragmentación señalan diferencias gramaticales entre el idioma de origen y el idioma de destino (por ejemplo, concordancia de género o número ) creando una secuencia de fragmentos que contienen marcadores para esto. Luego reordenan o modifican fragmentos para producir una traducción gramatical en el idioma de destino. El módulo más nuevo basado en CFG compara secuencias de entrada en posibles árboles de análisis, seleccionando el mejor clasificado y aplicando reglas de transformación en el árbol.
  9. El generador morfológico utiliza las etiquetas para ofrecer la forma superficial correcta de la lengua de destino . El generador morfológico es un transductor morfológico, [23] al igual que el analizador morfológico. Un transductor morfológico analiza y genera formas.
  10. El postgenerador realiza los cambios ortográficos necesarios debido al contacto de las palabras (por ejemplo, elisiones ).
  11. El reformateador reemplaza el formato de marcado (HTML, RTF, etc.) que fue eliminado por el deformateador en el primer paso.
  12. Apertium ofrece la traducción al idioma de destino .

Pares de idiomas

Lista de pares de idiomas actualmente estables; coloque el cursor sobre los códigos de idioma para ver los idiomas que representan.

Ver también

Notas

  1. ^ "Versión 3.8.3 más reciente". 1 de noviembre de 2022 . Consultado el 2 de marzo de 2023 .
  2. ^ Francis M. Tyers (2010) "Traducción automática del bretón al francés basada en reglas Archivado el 17 de noviembre de 2016 en la Wayback Machine ". 'Actas de la 14ª Conferencia Anual de la Asociación Europea de Traducción Automática, EAMT10', págs. 174-181
  3. ^ Khanna, Tanmai; Washington, Jonathan N.; Tyers, Francisco M.; Bayatlı, Sevilay; Swanson, Daniel G.; Pirinen, Tommi A.; Tang, Irene; Alòs i Font, Hèctor (1 de diciembre de 2021). "Avances recientes en Apertium, una plataforma de traducción automática basada en reglas gratuita y de código abierto para idiomas de bajos recursos". Máquina traductora . 35 (4): 475–502. doi : 10.1007/s10590-021-09260-6 . hdl : 10037/22990 .
  4. ^ "Apercio".
  5. ^ "Organizaciones aceptadas para Google Summer of Code 2009".
  6. ^ "Organizaciones aceptadas para Google Summer of Code 2010".
  7. ^ "Organizaciones aceptadas para Google Summer of Code 2011".
  8. ^ "Organizaciones aceptadas para Google Summer of Code 2012".
  9. ^ "Organizaciones aceptadas para Google Summer of Code 2013".
  10. ^ "Organizaciones aceptadas para Google Summer of Code 2014".
  11. ^ "Organizaciones aceptadas para Google Code-en 2010".
  12. ^ "Organizaciones aceptadas para Google Code-en 2011".
  13. ^ "Organizaciones aceptadas para Google Code en 2012".
  14. ^ "Organizaciones aceptadas para Google Code-en 2013".
  15. ^ "Organizaciones aceptadas para Google Code-en 2014".
  16. ^ "Organizaciones aceptadas para Google Code-en 2015".
  17. ^ "Organizaciones aceptadas para Google Code-en 2016".
  18. ^ "Organizaciones aceptadas para Google Code-en 2017".
  19. ^ "Lttoolbox - Apertium". wiki.apertium.org . Consultado el 19 de enero de 2016 .
  20. ^ "VISL". beta.visl.sdu.dk. _ Consultado el 19 de enero de 2016 .
  21. ^ "Diccionario bilingüe - Apertium". wiki.apertium.org . Consultado el 19 de enero de 2016 .
  22. ^ "Módulo de selección léxica basada en restricciones - Apertium". wiki.apertium.org . Consultado el 19 de enero de 2016 .
  23. ^ "Diccionario morfológico - Apertium". wiki.apertium.org . Consultado el 19 de enero de 2016 .

Referencias

enlaces externos

Servicios y software para el usuario final

(Todos los servicios están basados ​​en el motor Apertium)

Sitios web de traducción en línea

Aplicaciones sin conexión