Traducción de voz

La traducción de voz es el proceso por el cual las frases habladas en una conversación se traducen instantáneamente y se dicen en voz alta en un segundo idioma. Esto difiere de la traducción de frases , en la que el sistema solo traduce un conjunto fijo y finito de frases que se han ingresado manualmente en el sistema. La tecnología de traducción de voz permite que hablantes de diferentes idiomas se comuniquen, por lo que tiene un enorme valor para la humanidad en términos de ciencia, intercambio intercultural y negocios globales.

Cómo funciona

Un sistema de traducción de voz normalmente integraría las siguientes tres tecnologías de software: reconocimiento automático de voz (ASR), traducción automática (MT) y síntesis de voz (TTS).

El hablante de la lengua A habla a través de un micrófono y el módulo de reconocimiento de voz reconoce el enunciado. Compara la entrada con un modelo fonológico, que consiste en un gran corpus de datos de voz de varios hablantes. Luego, la entrada se convierte en una cadena de palabras , utilizando el diccionario y la gramática de la lengua A, basándose en un corpus masivo de texto en la lengua A.

El módulo de traducción automática traduce entonces esta cadena. Los primeros sistemas reemplazaban cada palabra por una palabra correspondiente en el idioma B. Los sistemas actuales no utilizan la traducción palabra por palabra, sino que tienen en cuenta todo el contexto de entrada para generar la traducción adecuada. El enunciado de traducción generado se envía al módulo de síntesis de voz , que estima la pronunciación y la entonación que coinciden con la cadena de palabras basándose en un corpus de datos de voz en el idioma B. Las formas de onda que coinciden con el texto se seleccionan de esta base de datos y la síntesis de voz las conecta y las genera. ^[1]

Historia

En 1983, NEC Corporation presentó la traducción de voz como una exhibición conceptual en la ITU Telecom World (Telecom '83). ^[2]

En 1999, el consorcio C-Star-2 demostró la traducción de voz a voz de cinco idiomas, incluidos inglés, japonés, italiano, coreano y alemán. ^[3]^[4]

Características

Además de los problemas que implica la traducción de textos, también hay que lidiar con problemas especiales que se dan en la traducción de voz a voz, como la incoherencia del lenguaje hablado, menos restricciones gramaticales del lenguaje hablado, límites de palabras poco claros en el lenguaje hablado, la corrección de errores de reconocimiento de voz y múltiples entradas opcionales. Además, la traducción de voz a voz también tiene sus ventajas en comparación con la traducción de textos, incluida una estructura menos compleja del lenguaje hablado y menos vocabulario en el lenguaje hablado. ^{[ cita requerida ]}

Investigación y desarrollo

La investigación y el desarrollo han ido progresando gradualmente desde una traducción relativamente simple a una más avanzada. Se establecieron talleres de evaluación internacionales para apoyar el desarrollo de la tecnología de traducción del habla. Permiten que los institutos de investigación cooperen y compitan entre sí al mismo tiempo. El concepto de esos talleres es una especie de concurso: los organizadores proporcionan un conjunto de datos común y los institutos de investigación participantes crean sistemas que se evalúan. De esta manera, se promueve la investigación eficiente.

El Taller Internacional sobre Traducción de Lenguas Habladas (IWSLT), organizado por C-STAR, un consorcio internacional para la investigación sobre traducción del habla, se lleva a cabo desde 2004. "Cada año, el número de institutos participantes aumenta y se ha convertido en un evento clave para la investigación sobre traducción del habla". ^[1]

Normas

Cuando muchos países comiencen a investigar y desarrollar la traducción del habla, será necesario estandarizar las interfaces y los formatos de datos para garantizar que los sistemas sean compatibles entre sí. Los consorcios de traducción del habla están fomentando la investigación conjunta internacional (por ejemplo, el consorcio internacional C-STAR para la investigación conjunta de la traducción del habla y A-STAR para la región de Asia y el Pacífico). Se fundaron como "organizaciones internacionales de investigación conjunta para diseñar formatos de corpus bilingües que son esenciales para avanzar en la investigación y el desarrollo de esta tecnología... y para estandarizar las interfaces y los formatos de datos para conectar los módulos de traducción del habla a nivel internacional". ^[1]

Aplicaciones

En la actualidad, los sistemas de traducción de voz se utilizan en todo el mundo. Entre los ejemplos se incluyen centros médicos, escuelas, policías, hoteles, tiendas minoristas y fábricas. Estos sistemas se pueden aplicar en cualquier lugar donde se utilice el lenguaje hablado para comunicarse. Una aplicación popular es Jibbigo , que funciona sin conexión.

Retos y perspectivas de futuro

Actualmente, la tecnología de traducción de voz está disponible como un producto que traduce instantáneamente conversaciones multilingües de formato libre. Estos sistemas traducen instantáneamente el habla continua. Los desafíos para lograr esto incluyen superar las variaciones en el estilo de habla o la pronunciación que dependen del hablante , cuestiones que deben abordarse para proporcionar una traducción de alta calidad para todos los usuarios. Además, los sistemas de reconocimiento de voz deben ser capaces de remediar factores externos como el ruido acústico o el habla de otros hablantes en el uso real de los sistemas de traducción de voz.

Dado que el usuario no entiende el idioma de destino cuando se utiliza la traducción de voz, "se debe proporcionar un método para que el usuario pueda comprobar si la traducción es correcta, por ejemplo traduciéndola de nuevo a su idioma". ^[1] Para lograr el objetivo de eliminar la barrera lingüística en todo el mundo, es necesario dar soporte a varios idiomas. Esto requiere corpus de voz, corpus bilingües y corpus de texto para cada uno de los aproximadamente 6.000 idiomas que se dice que existen en nuestro planeta en la actualidad.

Como la recopilación de corpus es extremadamente costosa, la recopilación de datos de la Web sería una alternativa a los métodos convencionales. "El uso secundario de noticias u otros medios publicados en varios idiomas sería una forma eficaz de mejorar el rendimiento de la traducción del habla". Sin embargo, "la legislación actual sobre derechos de autor no tiene en cuenta los usos secundarios como este tipo de corpus" y, por lo tanto, "será necesario revisarla para que sea más flexible". ^[1]

Véase también

Traductor universal

Referencias

^ abcde "Superando la barrera del lenguaje con la tecnología de traducción del habla" por Satoshi, Nakamura en Science & Technology Trends - Quarterly Review No.31, abril de 2009
^ NEC/021219-1. "NEC Global - Comunicado de prensa". www.nec.co.jp . Consultado el 23 de septiembre de 2017 .{{cite web}}: CS1 maint: numeric names: authors list (link)
^ "C-Estrella". NPR .
^ "Un sistema de traducción del habla del japonés al inglés: ATR-MATRIX" de Takezawa, Morimoto, Sagisaka, Campbell, Iida, Sugaya, Yokoo, Yamamoto en Actas de la Conferencia internacional sobre procesamiento del lenguaje hablado de 1998