stringtranslate.com

Traducción de voz

La traducción de voz es el proceso mediante el cual frases conversacionales se traducen instantáneamente y se pronuncian en voz alta en un segundo idioma. Esto difiere de la traducción de frases , que es donde el sistema solo traduce un conjunto fijo y finito de frases que se han ingresado manualmente en el sistema. La tecnología de traducción de voz permite comunicarse a hablantes de diferentes idiomas. Por lo tanto, es de enorme valor para la humanidad en términos de ciencia, intercambio intercultural y negocios globales.

Cómo funciona

Un sistema de traducción de voz normalmente integraría las siguientes tres tecnologías de software: reconocimiento automático de voz (ASR), traducción automática (MT) y síntesis de voz (TTS).

El hablante del idioma A habla por un micrófono y el módulo de reconocimiento de voz reconoce la expresión. Compara la entrada con un modelo fonológico, que consta de un gran corpus de datos de habla de múltiples hablantes. Luego, la entrada se convierte en una cadena de palabras , utilizando el diccionario y la gramática del idioma A, basándose en un corpus masivo de texto en el idioma A.

Luego, el módulo de traducción automática traduce esta cadena. Los primeros sistemas reemplazaban cada palabra con una palabra correspondiente en el idioma B. Los sistemas actuales no utilizan la traducción palabra por palabra, sino que tienen en cuenta todo el contexto de la entrada para generar la traducción adecuada. La expresión de traducción generada se envía al módulo de síntesis de voz , que estima la pronunciación y la entonación que coinciden con la cadena de palabras basándose en un corpus de datos de voz en el idioma B. Las formas de onda que coinciden con el texto se seleccionan de esta base de datos y la síntesis de voz se conecta y genera. a ellos. [1]

Historia

En 1983, NEC Corporation demostró la traducción de voz como exposición conceptual en ITU Telecom World (Telecom '83). [2]

En 1999, el consorcio C-Star-2 demostró la traducción de voz a voz de cinco idiomas, incluidos inglés, japonés, italiano, coreano y alemán. [3] [4]

Características

Además de los problemas involucrados en la traducción de textos, también tiene que lidiar con problemas especiales que ocurren en la traducción de voz a voz, que incluyen incoherencia del lenguaje hablado, menos restricciones gramaticales del lenguaje hablado, límites poco claros de las palabras del lenguaje hablado, corrección de errores de reconocimiento de voz y múltiples entradas opcionales. Además, la traducción de voz a voz también tiene sus ventajas en comparación con la traducción de texto, incluida una estructura menos compleja del lenguaje hablado y menos vocabulario en el lenguaje hablado. [ cita necesaria ]

Investigación y desarrollo

La investigación y el desarrollo han progresado gradualmente desde una traducción relativamente simple a una traducción más avanzada. Se establecieron talleres internacionales de evaluación para apoyar el desarrollo de la tecnología de traducción de voz. Permiten a los institutos de investigación cooperar y competir entre sí al mismo tiempo. El concepto de estos talleres es una especie de concurso: los organizadores proporcionan un conjunto de datos común y los institutos de investigación participantes crean sistemas que se evalúan. De esta manera se promueve una investigación eficiente.

Desde 2004 se celebra el Taller Internacional sobre Traducción del Lenguaje Hablado (IWSLT), organizado por C-STAR, un consorcio internacional para la investigación sobre la traducción del habla. "Cada año aumenta el número de institutos participantes y se ha convertido en un evento clave. evento para la investigación de la traducción del habla." [1]

Estándares

Cuando muchos países comiencen a investigar y desarrollar la traducción de voz, será necesario estandarizar las interfaces y los formatos de datos para garantizar que los sistemas sean mutuamente compatibles. Los consorcios de traducción de voz (por ejemplo, el consorcio internacional C-STAR para la investigación conjunta de traducción de voz y A-STAR para la región de Asia y el Pacífico) fomentan la investigación conjunta internacional. Fueron fundados como "organizaciones internacionales de investigación conjunta para diseñar formatos de corpus bilingües que son esenciales para avanzar en la investigación y el desarrollo de esta tecnología... y para estandarizar interfaces y formatos de datos para conectar módulos de traducción de voz a nivel internacional". [1]

Aplicaciones

Hoy en día, los sistemas de traducción de voz se utilizan en todo el mundo. Los ejemplos incluyen instalaciones médicas, escuelas, policía, hoteles, tiendas minoristas y fábricas. Estos sistemas son aplicables en cualquier lugar donde se utilice el lenguaje hablado para comunicarse. Una aplicación popular es Jibbigo que funciona sin conexión.

Desafíos y perspectivas de futuro

Actualmente, la tecnología de traducción de voz está disponible como producto que traduce instantáneamente conversaciones multilingües de forma libre. Estos sistemas traducen instantáneamente el habla continua. Los desafíos para lograr esto incluyen superar las variaciones que dependen del hablante en el estilo de hablar o la pronunciación , cuestiones que deben abordarse para proporcionar una traducción de alta calidad para todos los usuarios. Además, los sistemas de reconocimiento de voz deben poder remediar factores externos como el ruido acústico o el habla de otros hablantes en el uso real de sistemas de traducción de voz.

Debido a que el usuario no comprende el idioma de destino cuando se utiliza la traducción de voz, "se debe proporcionar un método para que el usuario verifique si la traducción es correcta, por ejemplo traduciéndola nuevamente al idioma del usuario". [1] Para lograr el objetivo de borrar la barrera del idioma en todo el mundo, es necesario admitir varios idiomas. Esto requiere corpus de habla, corpus bilingües y corpus de texto para cada uno de los 6.000 idiomas que se estima que existen hoy en nuestro planeta.

Como la recopilación de corpus es extremadamente costosa, la recopilación de datos de la Web sería una alternativa a los métodos convencionales. "El uso secundario de noticias u otros medios publicados en varios idiomas sería una forma eficaz de mejorar el rendimiento de la traducción del habla". Sin embargo, "la actual legislación sobre derechos de autor no tiene en cuenta usos secundarios como este tipo de corpus" y por ello "será necesario revisarla para que sea más flexible". [1]

Ver también

Referencias

  1. ^ abcde "Superar la barrera del idioma con la tecnología de traducción del habla" por Satoshi, Nakamura en Tendencias científicas y tecnológicas - Revisión trimestral n.º 31 de abril de 2009
  2. ^ NEC/021219-1. "NEC Global - Comunicado de prensa". www.nec.co.jp. ​Consultado el 23 de septiembre de 2017 .{{cite web}}: CS1 maint: numeric names: authors list (link)
  3. ^ "C-Estrella". NPR .
  4. ^ "Un sistema de traducción de voz del japonés al inglés: ATR-MATRIX" por Takezawa, Morimoto, Sagisaka, Campbell, Iida, Sugaya, Yokoo, Yamamoto en Actas de la Conferencia internacional sobre procesamiento del lenguaje hablado de 1998