MBROLA

MBROLA es un software de síntesis de voz que es un proyecto colaborativo a nivel mundial. La página web del proyecto MBROLA ofrece bases de datos de difonos para muchos ^[1]idiomas hablados .

El software MBROLA no es un sistema completo de síntesis de voz para todos esos idiomas; el texto debe transformarse primero en información de fonemas y prosódica en el formato MBROLA, y es necesario un software separado (por ejemplo, eSpeakNG ).

Historia

El proyecto MBROLA se inició en 1995 en el laboratorio TCTS de la Facultad Politécnica de Mons (Bélgica) como un proyecto científico para obtener un conjunto de sintetizadores de voz para el mayor número posible de idiomas. La primera versión del software MBROLA se publicó en 1996 y se proporcionó como software gratuito para aplicaciones no comerciales ni militares. Las licencias para las bases de datos de voz creadas difieren, pero también son en su mayoría para uso no comercial ni militar.

Debido a su uso gratuito solo para aplicaciones no comerciales, MBROLA fue una opción alternativa para usuarios privados/domésticos para el motor de síntesis de voz de facto eSpeakNG en estaciones de trabajo Linux , pero principalmente no se usó para soluciones comerciales (por ejemplo, para relojes de tiempo de voz, notificaciones de embarque para puertos y terminales, etc.) Después del desarrollo inicial de las bases de datos de voz, las actualizaciones y el soporte del software MBROLA cesaron y gradualmente los binarios de código cerrado quedaron rezagados en el desarrollo de hardware y sistemas operativos recientes. ^[2] Para lidiar con esto, el equipo de desarrollo de MBROLA decidió lanzar MBROLA como software de código abierto y el 24 de octubre de 2018, el código fuente se publicó en GitHub con Licencia Pública General Affero de GNU . El 23 de enero de 2019, se lanzó la herramienta llamada MBROLATOR para proporcionar la creación de la base de datos MBROLA a partir de archivos WAV con la misma licencia.

Tecnología usada

El software MBROLA utiliza el algoritmo MBROLA (Multi-Band Resynthesis OverLap Add) ^[3] para la generación de voz. Aunque se basa en difonos , se considera que la calidad de la síntesis de MBROLA es superior a la de la mayoría de los sintetizadores de difonos, ya que preprocesa los difonos imponiendo un tono constante y fases armónicas que mejoran su concatenación mientras que solo degradan ligeramente su calidad segmentaria.

Muestra de voz de MBROLA con cita de Leonhard Euler

MBROLA es un algoritmo de dominio temporal similar a PSOLA , lo que implica una carga computacional muy baja en el momento de la síntesis. Sin embargo, a diferencia de PSOLA, MBROLA no requiere una marcación preliminar de los períodos de tono. Esta característica ha hecho posible desarrollar el proyecto MBROLA en torno al algoritmo MBROLA, a través del cual muchos laboratorios de investigación del habla , empresas o individuos de todo el mundo han proporcionado bases de datos de difonos para muchos idiomas y voces.

Referencias

^ Lista de voces de MBROLA
^ Mbrola-64 se bloquea inmediatamente con un SEGFAULT
^ Dutoit, T; Leich, H (diciembre de 1993). "MBR-PSOLA: síntesis de texto a voz basada en una resíntesis MBE de la base de datos de segmentos". Speech Communication . 13 (3–4): 435–440. doi :10.1016/0167-6393(93)90042-J.

Repositorio de código fuente de MBROLA
Usando Festival con MBROLA

Enlaces externos

Voces MBROLA (base de datos para el sintetizador de voz MBROLA)
MBROLATOR (herramienta de creación de bases de datos para el sintetizador de voz MBROLA)