La traducción automática basada en reglas ( RBMT , por sus siglas en inglés; "enfoque clásico" de la traducción automática) es un sistema de traducción automática basado en información lingüística sobre los idiomas de origen y destino obtenida básicamente de diccionarios y gramáticas (unilingües, bilingües o multilingües) que cubren las principales regularidades semánticas, morfológicas y sintácticas de cada idioma respectivamente. Al tener oraciones de entrada (en algún idioma de origen), un sistema RBMT las genera para generar oraciones de salida (en algún idioma de destino) sobre la base del análisis morfológico, sintáctico y semántico tanto del idioma de origen como del idioma de destino involucrados en una tarea de traducción concreta. La RBMT ha sido reemplazada progresivamente por métodos más eficientes, en particular la traducción automática neuronal . [1]
Historia
Los primeros sistemas RBMT se desarrollaron a principios de la década de 1970. Los pasos más importantes de esta evolución fueron la aparición de los siguientes sistemas RBMT:
- Sistema
- Sistemas de traducción automática japoneses [2] [3]
Hoy en día, otros sistemas RBMT comunes incluyen:
Tipos de RBMT
Hay tres tipos diferentes de sistemas de traducción automática basados en reglas:
- Los sistemas directos ( traducción automática basada en diccionario ) asignan la entrada a la salida con reglas básicas.
- Los sistemas de transferencia RBMT ( Transfer Based Machine Translation ) emplean análisis morfológico y sintáctico.
- Los sistemas RBMT interlingüísticos ( Interlingua ) utilizan un significado abstracto. [4] [5]
Los sistemas RBMT también pueden caracterizarse como los sistemas opuestos a los sistemas de traducción automática basados en ejemplos ( Example Based Machine Translation ), mientras que los sistemas de traducción automática híbridos utilizan muchos principios derivados de RBMT.
Principios básicos
El enfoque principal de los sistemas RBMT se basa en vincular la estructura de la oración de entrada dada con la estructura de la oración de salida solicitada, preservando necesariamente su significado único. El siguiente ejemplo puede ilustrar el marco general de RBMT:
- Una niña come una manzana. Idioma de origen = inglés; idioma de destino solicitado = alemán
Como mínimo, para obtener una traducción al alemán de esta frase en inglés se necesita:
- Un diccionario que asignará cada palabra en inglés a una palabra alemana apropiada.
- Reglas que representan la estructura de oraciones regulares en inglés.
- Reglas que representan la estructura de oraciones regulares en alemán.
Y finalmente, necesitamos reglas según las cuales se puedan relacionar estas dos estructuras entre sí.
En consecuencia, podemos establecer las siguientes etapas de la traducción :
- 1º: obtener información básica sobre las partes del discurso de cada palabra fuente:
- a = indef.artículo; niña = sustantivo; come = verbo; an = indef.artículo; manzana = sustantivo
- 2º: obtener información sintáctica sobre el verbo "comer":
- NP-eat-NP; aquí: eat – Presente simple, tercera persona singular, voz activa
- 3º: análisis de la oración fuente:
- (NP una manzana) = el objeto de comer
A menudo, un análisis parcial basta para llegar a la estructura sintáctica de la oración fuente y mapearla sobre la estructura de la oración destino.
- 4º: traducir palabras del inglés al alemán
- a (categoría = indef.artículo) => un (categoría = indef.artículo)
- niña (categoría = sustantivo) => Mädchen (categoría = sustantivo)
- comer (categoría = verbo) => essen (categoría = verbo)
- un (categoría = artículo indef.) => un (categoría = artículo indef.)
- manzana (categoría = sustantivo) => Apfel (categoría = sustantivo)
- 5º: Asignación de las entradas del diccionario a las formas flexivas apropiadas ( generación final ):
- Una niña come una manzana. => Ein Mädchen isst einen Apfel.
Ontologías
Una ontología es una representación formal del conocimiento que incluye los conceptos (como objetos, procesos, etc.) en un dominio y algunas relaciones entre ellos. Si la información almacenada es de naturaleza lingüística, se puede hablar de un léxico. [6] En PNL , las ontologías se pueden utilizar como fuente de conocimiento para los sistemas de traducción automática. Con acceso a una gran base de conocimiento, los sistemas basados en reglas pueden ser habilitados para resolver muchas ambigüedades (especialmente léxicas) por sí mismos. En los siguientes ejemplos clásicos, como humanos, podemos interpretar la frase preposicional según el contexto porque usamos nuestro conocimiento del mundo, almacenado en nuestros léxicos:
Vi a un hombre/estrella/molécula con un microscopio/telescopio/binoculares. [6]
Como la sintaxis no cambia, un sistema de traducción automática basado en reglas tradicional puede no ser capaz de diferenciar los significados. Sin embargo, con una ontología lo suficientemente grande como fuente de conocimiento, las posibles interpretaciones de palabras ambiguas en un contexto específico pueden reducirse. [7]
Construyendo ontologías
La ontología generada para el sistema de traducción automática basado en conocimiento PANGLOSS en 1993 puede servir como ejemplo de cómo se puede compilar una ontología para fines de PNL : [8] [9]
- Es necesaria una ontología a gran escala para facilitar el análisis en los módulos activos del sistema de traducción automática.
- En el ejemplo de PANGLOSS, se pretendía incluir alrededor de 50.000 nodos en la región superior (abstracta) más pequeña y construida manualmente de la ontología. Debido a su tamaño, se tuvo que crear automáticamente.
- El objetivo era fusionar los dos recursos, LDOCE en línea y WordNet, para combinar los beneficios de ambos: definiciones concisas de Longman y relaciones semánticas que permiten la taxonomía semiautomática de la ontología de WordNet.
- Se creó un algoritmo de coincidencia de definiciones para fusionar automáticamente los significados correctos de palabras ambiguas entre los dos recursos en línea, basándose en las palabras que las definiciones de esos significados tienen en común en LDOCE y WordNet. Mediante una matriz de similitud , el algoritmo proporcionó coincidencias entre significados que incluían un factor de confianza. Sin embargo, este algoritmo por sí solo no logró hacer coincidir todos los significados correctamente.
- Por lo tanto, se creó un segundo algoritmo de búsqueda de coincidencias jerárquicas que utiliza las jerarquías taxonómicas que se encuentran en WordNet (jerarquías profundas) y parcialmente en LDOCE (jerarquías planas). Esto funciona haciendo coincidir primero los significados inequívocos y luego limitando el espacio de búsqueda solo a los respectivos ancestros y descendientes de esos significados coincidentes. De este modo, el algoritmo hizo coincidir los significados inequívocos a nivel local (por ejemplo, si bien la palabra foca como tal es ambigua, solo hay un significado de foca en la subjerarquía animal ).
- Ambos algoritmos se complementaron entre sí y ayudaron a construir una ontología a gran escala para el sistema de traducción automática. Las jerarquías de WordNet, junto con las definiciones correspondientes de LDOCE, se subordinaron a la región superior de la ontología . Como resultado, el sistema PANGLOSS MT pudo hacer uso de esta base de conocimiento, principalmente en su elemento de generación.
Componentes
El sistema RBMT contiene:
- un analizador morfológico SL : analiza una palabra del idioma fuente y proporciona la información morfológica;
- un analizador SL : es un analizador de sintaxis que analiza oraciones del idioma fuente;
- un traductor : se utiliza para traducir una palabra del idioma de origen al idioma de destino;
- un generador morfológico de TL : funciona como un generador de palabras del idioma de destino apropiadas para la información gramatical dada;
- un analizador TL : funciona como un compositor de oraciones adecuadas para el idioma de destino;
- Varios diccionarios , más concretamente un mínimo de tres diccionarios:
- un diccionario SL , necesario para el analizador morfológico del idioma de origen para el análisis morfológico,
- un diccionario bilingüe : utilizado por el traductor para traducir palabras del idioma de origen a palabras del idioma de destino,
- un diccionario TL : necesario para que el generador morfológico del idioma de destino genere palabras en el idioma de destino. [10]
El sistema RBMT utiliza lo siguiente:
- una gramática fuente para el idioma de entrada que construye construcciones sintácticas a partir de oraciones de entrada;
- un léxico fuente que captura todo el vocabulario permitido en el dominio;
- Reglas de mapeo de origen que indican cómo los núcleos sintácticos y las funciones gramaticales en el idioma de origen se mapean a los conceptos de dominio y roles semánticos en la interlingua;
- un modelo de dominio / ontología que define las clases de conceptos de dominio y restringe los rellenos de roles semánticos para cada clase;
- Reglas de mapeo de destino que indican cómo los conceptos de dominio y los roles semánticos en la interlingua se mapean a los núcleos sintácticos y funciones gramaticales en el idioma de destino;
- un léxico de destino que contiene lexemas de destino apropiados para cada concepto de dominio;
- una gramática de destino para el idioma de destino que realiza construcciones sintácticas de destino como oraciones de salida linealizadas. [11]
Ventajas
- No se necesitan textos bilingües , lo que permite crear sistemas de traducción para idiomas que no tienen textos en común o que ni siquiera tienen datos digitalizados.
- Independiente del dominio. Las reglas suelen redactarse de manera independiente del dominio, por lo que la gran mayoría de las reglas "funcionarán" en todos los dominios y solo unos pocos casos específicos por dominio pueden necesitar reglas escritas para ellos.
- No hay límite de calidad. Cada error puede corregirse con una regla específica, incluso si el caso desencadenante es extremadamente raro. Esto contrasta con los sistemas estadísticos, donde los formularios poco frecuentes se eliminan de forma predeterminada.
- Control total. Como todas las reglas están escritas a mano, puedes depurar fácilmente un sistema basado en reglas para ver exactamente dónde se introduce un error determinado en el sistema y por qué.
- Reutilización. Debido a que los sistemas RBMT generalmente se construyen a partir de un análisis sólido del idioma de origen que se alimenta a un paso de transferencia y un generador del idioma de destino, las partes de análisis del idioma de origen y generación del idioma de destino se pueden compartir entre varios sistemas de traducción, lo que requiere que solo se especialice el paso de transferencia. Además, el análisis del idioma de origen de un idioma se puede reutilizar para iniciar un análisis de idioma estrechamente relacionado.
Defectos
- No hay una cantidad suficiente de diccionarios realmente buenos. Crear nuevos diccionarios es costoso.
- Todavía es necesario configurar manualmente cierta información lingüística.
- Es difícil lidiar con las interacciones de reglas en sistemas grandes, la ambigüedad y las expresiones idiomáticas.
- Falta de adaptación a nuevos dominios. Aunque los sistemas RBMT suelen proporcionar un mecanismo para crear nuevas reglas y ampliar y adaptar el léxico, los cambios suelen ser muy costosos y los resultados, con frecuencia, no dan resultado. [12]
Referencias
- ^ Wang, Haifeng; Wu, Hua; Él, Zhongjun; Huang, Liang; Iglesia, Kenneth Ward (1 de noviembre de 2022). "Avances en la traducción automática". Ingeniería . ISSN 2095-8099.
- ^ "MT Software". AAMT . Archivado desde el original el 4 de febrero de 2005.
- ^ "TRADUCCIÓN AUTOMÁTICA EN JAPÓN". www.wtec.org . Enero de 1992. Archivado desde el original el 12 de febrero de 2018.
- ^ Koehn, Philipp (2010). Traducción automática estadística. Cambridge: Cambridge University Press. pág. 15. ISBN 9780521874151.
- ^ Nirenburg, Sergei (1989). "Traducción automática basada en el conocimiento". Machine Trandation 4 (1989), 5-24 . 4 (1). Kluwer Academic Publishers: 5-24. JSTOR 40008396.
- ^ ab Vossen, Piek: Ontologías . En: Mitkov, Ruslan (ed.) (2003): Manual de lingüística computacional, Capítulo 25. Oxford: Oxford University Press.
- ^ Vossen, Piek: Ontologías . En: Mitkov, Ruslan (ed.) (2003): Manual de lingüística computacional, Capítulo 25. Oxford: Oxford University Press.
- ^ Knight, Kevin (1993). "Building a Large Ontology for Machine Translation". Tecnología del lenguaje humano: actas de un taller celebrado en Plainsboro, Nueva Jersey, del 21 al 24 de marzo de 1993. Princeton, Nueva Jersey: Association for Computational Linguistics. págs. 185-190. doi : 10.3115/1075671.1075713 . ISBN . 978-1-55860-324-0.
- ^ Knight, Kevin; Luk, Steve K. (1994). Building a Large-Scale Knowledge Base for Machine Translation (Construcción de una base de conocimiento a gran escala para la traducción automática) . Documento presentado en la Duodécima Conferencia Nacional sobre Inteligencia Artificial. arXiv : cmp-lg/9407029 .
- ^ Hettige, B.; Karunananda, AS (2011). "Modelo computacional de gramática para traducción automática del inglés al cingalés". Conferencia internacional sobre avances en TIC para regiones emergentes (ICTer) de 2011. págs. 26–31. doi :10.1109/ICTer.2011.6075022. ISBN 978-1-4577-1114-5. Número de identificación del sujeto 45871137.
- ^ Lonsdale, Deryle; Mitamura, Teruko; Nyberg, Eric (1995). "Adquisición de grandes léxicos para traducción automática práctica basada en el conocimiento". Traducción automática . 9 (3–4). Kluwer Academic Publishers: 251–283. doi :10.1007/BF00980580. S2CID 1106335.
- ^ Lagarda, AL; Alabau, V.; Casacuberta, F.; Silva, R.; Díaz-de-Liaño, E. (2009). "Pos-edición estadística de un sistema de traducción automática basado en reglas" (PDF) . Actas de NAACL HLT 2009: artículos breves, páginas 217–220, Boulder, Colorado . Asociación de Lingüística Computacional . Consultado el 20 de junio de 2012 .
Literatura
- Arnold, DJ et al. (1993): Traducción automática: una guía introductoria
- Hutchins, WJ (1986): Traducción automática: pasado, presente, futuro
Campo de golf
- Primer taller internacional sobre traducción automática basada en reglas de código abierto y libre
- https://web.archive.org/web/20120306014535/http://www.inf.ed.ac.uk/teaching/courses/mt/lectures/history.pdf
- https://web.archive.org/web/20150914205051/http://www.csse.unimelb.edu.au/research/lt/nlp06/materials/Bond/mt-intro.pdf