Traducción automática basada en reglas

La traducción automática basada en reglas ( RBMT ; "enfoque clásico" de MT) son sistemas de traducción automática basados en información lingüística sobre los idiomas de origen y de destino, básicamente recuperada de diccionarios y gramáticas (unilingües, bilingües o multilingües) que cubren los principales aspectos semánticos, morfológicos y sintácticos. regularidades de cada lengua respectivamente. Al tener oraciones de entrada (en algún idioma de origen), un sistema RBMT las genera para generar oraciones (en algún idioma de destino) sobre la base del análisis morfológico, sintáctico y semántico de los idiomas de origen y de destino involucrados en una tarea de traducción concreta.

Historia

Los primeros sistemas RBMT se desarrollaron a principios de los años 1970. Los pasos más importantes de esta evolución fueron la aparición de los siguientes sistemas RBMT:

Systran (http://www.systran.de/)
Sistemas MT japoneses (http://aamt.info/english/mtsys.htm, http://www.wtec.org/loyola/ar93_94/mt.htm)

Hoy en día, otros sistemas RBMT comunes incluyen:

Tipos de RBMT

Hay tres tipos diferentes de sistemas de traducción automática basados en reglas:

Los sistemas directos ( traducción automática basada en diccionarios ) asignan la entrada a la salida con reglas básicas.
Los sistemas Transfer RBMT ( traducción automática basada en transferencia ) emplean análisis morfológico y sintáctico.
Los sistemas RBMT interlingüísticos ( Interlingua ) utilizan un significado abstracto. ^[1]^[2]

Los sistemas RBMT también se pueden caracterizar como sistemas opuestos a los sistemas de traducción automática basados en ejemplos ( traducción automática basada en ejemplos ), mientras que los sistemas de traducción automática híbridos utilizan muchos principios derivados de RBMT.

Principios básicos

El enfoque principal de los sistemas RBMT se basa en vincular la estructura de la oración de entrada dada con la estructura de la oración de salida demandada, preservando necesariamente su significado único. El siguiente ejemplo puede ilustrar el marco general de RBMT:

Una niña come una manzana. Idioma de origen = inglés; Idioma de destino solicitado = alemán

Como mínimo, para obtener una traducción al alemán de esta frase en inglés se necesita:

Un diccionario que asignará cada palabra en inglés a una palabra alemana apropiada.
Reglas que representan la estructura regular de oraciones en inglés.
Reglas que representan la estructura regular de las oraciones alemanas.

Y finalmente, necesitamos reglas según las cuales se puedan relacionar estas dos estructuras.

En consecuencia, podemos enunciar las siguientes etapas de traducción :

Primero: obtener información básica de parte del discurso de cada palabra fuente:

a = indef.artículo; niña = sustantivo; come = verbo; an = indef.artículo; manzana = sustantivo

2º: obtener información sintáctica sobre el verbo "comer":

NP-comer-NP; aquí: comer – Presente simple, tercera persona del singular, voz activa

Tercero: analizando la oración fuente:

(NP una manzana) = el objeto de comer

A menudo, sólo un análisis parcial es suficiente para llegar a la estructura sintáctica de la oración de origen y mapearla en la estructura de la oración de destino.

4to: traducir palabras del inglés al alemán

a (categoría = indef.artículo) => ein (categoría = indef.artículo)

niña (categoría = sustantivo) => Mädchen (categoría = sustantivo)

comer (categoría = verbo) => essen (categoría = verbo)

an (categoría = artículo indef.) => ein (categoría = artículo indef.)

manzana (categoría = sustantivo) => Apfel (categoría = sustantivo)

5to: Mapeo de entradas del diccionario en formas flexionadas apropiadas ( generación final ):

Una niña come una manzana. => Ein Mädchen isst einen Apfel.

Componentes

El sistema RBMT contiene:

un analizador morfológico SL : analiza una palabra del idioma de origen y proporciona la información morfológica;
un analizador SL : es un analizador de sintaxis que analiza oraciones en el idioma de origen;
un traductor : se utiliza para traducir una palabra del idioma de origen al idioma de destino;
un generador morfológico TL : funciona como un generador de palabras apropiadas en el idioma de destino para la información gramatical dada;
un analizador TL : funciona como compositor de oraciones adecuadas en el idioma de destino;
Varios diccionarios , más concretamente un mínimo de tres diccionarios:

un diccionario SL : necesario para el analizador morfológico del idioma de origen para el análisis morfológico,

un diccionario bilingüe : utilizado por el traductor para traducir palabras del idioma de origen a palabras del idioma de destino,

un diccionario TL : lo necesita el generador morfológico del idioma de destino para generar palabras en el idioma de destino. ^[3]

El sistema RBMT hace uso de lo siguiente:

una gramática fuente para el lenguaje de entrada que construye construcciones sintácticas a partir de oraciones de entrada;
un Léxico fuente que captura todo el vocabulario permitido en el dominio;
Reglas de mapeo de fuentes que indican cómo los núcleos sintácticos y las funciones gramaticales en el idioma de origen se asignan a conceptos de dominio y roles semánticos en la interlingua;
un modelo de dominio / ontología que define las clases de conceptos de dominio y restringe los roles semánticos para cada clase;
Reglas de mapeo de destino que indican cómo los conceptos de dominio y los roles semánticos en la interlingua se asignan a los encabezados sintácticos y funciones gramaticales en el idioma de destino;
un Target Lexicon que contiene lexemas de destino apropiados para cada concepto de dominio;
una gramática de destino para el idioma de destino que realiza construcciones sintácticas de destino como oraciones de salida linealizadas. ^[4]

Ventajas

No se requieren textos bilingües . Esto permite crear sistemas de traducción para idiomas que no tienen textos en común, o incluso ningún dato digitalizado.
Independiente del dominio. Las reglas generalmente se escriben de manera independiente del dominio, por lo que la gran mayoría de las reglas "simplemente funcionarán" en cada dominio, y solo unos pocos casos específicos por dominio pueden necesitar reglas escritas para ellos.
Sin techo de calidad. Cada error se puede corregir con una regla específica, incluso si el caso desencadenante es extremadamente raro. Esto contrasta con los sistemas estadísticos donde los formularios poco frecuentes serán eliminados por defecto.
Control total. Debido a que todas las reglas están escritas a mano, puede depurar fácilmente un sistema basado en reglas para ver exactamente dónde ingresa un error determinado al sistema y por qué.
Reutilizabilidad. Debido a que los sistemas RBMT generalmente se construyen a partir de un sólido análisis del idioma de origen que se alimenta a un paso de transferencia y a un generador del idioma de destino, las partes de análisis del idioma de origen y de generación del idioma de destino se pueden compartir entre múltiples sistemas de traducción, lo que requiere que solo el paso de transferencia se especialice. Además, el análisis del idioma de origen para un idioma se puede reutilizar para iniciar un análisis de idioma estrechamente relacionado.

Deficiencias

Cantidad insuficiente de diccionarios realmente buenos. Crear nuevos diccionarios es caro.
Alguna información lingüística aún debe configurarse manualmente.
Es difícil lidiar con las interacciones de reglas en sistemas grandes, la ambigüedad y las expresiones idiomáticas.
Falta de adaptación a nuevos dominios. Aunque los sistemas RBMT suelen proporcionar un mecanismo para crear nuevas reglas y ampliar y adaptar el léxico, los cambios suelen ser muy costosos y los resultados, con frecuencia, no dan resultados. ^[5]

Referencias

^ Koehn, Philipp (2010). Traducción automática estadística. Cambridge: Prensa de la Universidad de Cambridge. pag. 15.ISBN 9780521874151.
^ Nirenburg, Sergei (1989). "Traducción automática basada en el conocimiento". Transcripción de máquinas 4 (1989), 5 - 24 . 4 (1). Editores académicos de Kluwer: 5–24. JSTOR 40008396.
^ Hettige, B.; Karunananda, AS (2011). "Modelo computacional de gramática para la traducción automática del inglés al cingalés". 2011 Conferencia Internacional sobre Avances en TIC para Regiones Emergentes (ICTer) . págs. 26-31. doi :10.1109/ICTer.2011.6075022. ISBN 978-1-4577-1114-5. S2CID 45871137.
^ Lonsdale, Deryle; Mitamura, Teruko; Nyberg, Eric (1995). "Adquisición de grandes léxicos para traducción automática basada en conocimientos prácticos". Máquina traductora . 9 (3–4). Editores académicos de Kluwer: 251–283. doi :10.1007/BF00980580. S2CID 1106335.
^ Lagarda, AL; Alabau, V.; Casacuberta, F.; Silva, R.; Díaz-de-Liaño, E. (2009). "Pos-edición estadística de un sistema de traducción automática basado en reglas" (PDF) . Actas de NAACL HLT 2009: artículos breves, páginas 217–220, Boulder, Colorado . Asociación de Lingüística Computacional . Consultado el 20 de junio de 2012 .

Literatura

Arnold, DJ y cols. (1993): Traducción automática: una guía introductoria
Hutchins, WJ (1986): Traducción automática: pasado, presente, futuro

Enlaces

Primer taller internacional sobre traducción automática basada en reglas de código abierto y gratuito
https://web.archive.org/web/20120306014535/http://www.inf.ed.ac.uk/teaching/courses/mt/lectures/history.pdf
https://web.archive.org/web/20150914205051/http://www.csse.unimelb.edu.au/research/lt/nlp06/materials/Bond/mt-intro.pdf