stringtranslate.com

Síntesis de voz mediante aprendizaje profundo

La síntesis de voz mediante aprendizaje profundo se refiere a la aplicación de modelos de aprendizaje profundo para generar un habla humana con un sonido natural a partir de texto escrito (conversión de texto a voz) o espectro (vocoder). Las redes neuronales profundas (DNN) se entrenan utilizando una gran cantidad de voz grabada y, en el caso de un sistema de conversión de texto a voz, las etiquetas asociadas o el texto de entrada.

Formulación

Dado un texto de entrada o alguna secuencia de unidades lingüísticas , el discurso de destino se puede derivar mediante

¿Dónde está el parámetro del modelo?

Por lo general, el texto de entrada se pasa primero a un generador de características acústicas y, luego, las características acústicas se pasan al vocoder neuronal. Para el generador de características acústicas, la función de pérdida suele ser la pérdida L1 o L2. Estas funciones de pérdida imponen una restricción según la cual las distribuciones de características acústicas de salida deben ser gaussianas o laplacianas. En la práctica, dado que la banda de voz humana varía aproximadamente entre 300 y 4000 Hz, la función de pérdida se diseñará para tener una mayor penalización en este rango:

donde es la pérdida de la banda de voz humana y es un escalar típicamente alrededor de 0,5. La característica acústica es típicamente Espectrograma o espectrograma en escala Mel . Estas características capturan la relación tiempo-frecuencia de la señal de voz y, por lo tanto, es suficiente para generar salidas inteligentes con estas características acústicas. La característica de cepstrum de frecuencia Mel utilizada en la tarea de reconocimiento de voz no es adecuada para la síntesis de voz porque reduce demasiada información.

Historia

Una pila de capas convolucionales casuales dilatadas utilizadas en WaveNet [1]

En septiembre de 2016, DeepMind propuso WaveNet , un modelo generativo profundo de formas de onda de audio sin procesar, demostrando que los modelos basados ​​en aprendizaje profundo son capaces de modelar formas de onda sin procesar y generar voz a partir de características acústicas como espectrogramas o mel-spectrogramas . Aunque inicialmente se consideró que WaveNet era computacionalmente costoso y lento para ser utilizado en productos de consumo en ese momento, un año después de su lanzamiento, DeepMind presentó una versión modificada de WaveNet conocida como "Parallel WaveNet", un modelo de producción 1000 veces más rápido que el original. [1]

A principios de 2017, Mila propuso char2wav, un modelo para producir formas de onda sin procesar en un método de extremo a extremo. Ese mismo año, Google y Facebook propusieron Tacotron y VoiceLoop, respectivamente, para generar características acústicas directamente a partir del texto de entrada; meses después, Google propuso Tacotron2, que combinaba el vocoder WaveNet con la arquitectura revisada de Tacotron para realizar una síntesis de voz de extremo a extremo. Tacotron2 puede generar un habla de alta calidad que se acerca a la voz humana. [ cita requerida ]

Aprendizaje semisupervisado

En la actualidad, el aprendizaje autosupervisado ha ganado mucha atención gracias a un mejor uso de los datos no etiquetados. Las investigaciones han demostrado que, con la ayuda de la pérdida autosupervisada, la necesidad de datos pareados disminuye. [2] [3]

Adaptación de altavoces de disparo cero

La adaptación de hablantes con cero disparos es prometedora porque un único modelo puede generar habla con varios estilos y características de hablantes. En junio de 2018, Google propuso utilizar modelos de verificación de hablantes previamente entrenados como codificadores de hablantes para extraer incrustaciones de hablantes. [4] Los codificadores de hablantes luego se convierten en parte de los modelos neuronales de texto a voz, de modo que pueden determinar el estilo y las características del habla de salida. Este procedimiento ha demostrado a la comunidad que es posible utilizar solo un modelo único para generar habla con múltiples estilos.

Vocoder neuronal

Ejemplo de síntesis de voz con el vocoder neuronal HiFi-GAN

En la síntesis de voz basada en aprendizaje profundo, los vocoders neuronales desempeñan un papel importante en la generación de voz de alta calidad a partir de características acústicas. El modelo WaveNet propuesto en 2016 logra un excelente desempeño en la calidad de la voz. Wavenet factorizó la probabilidad conjunta de una forma de onda como un producto de probabilidades condicionales de la siguiente manera

donde es el parámetro del modelo que incluye muchas capas de convolución dilatadas. Por lo tanto, cada muestra de audio está condicionada a las muestras en todos los pasos de tiempo anteriores. Sin embargo, la naturaleza autorregresiva de WaveNet hace que el proceso de inferencia sea dramáticamente lento. Para resolver este problema, se propuso Parallel WaveNet [5] . Parallel WaveNet es un modelo basado en flujo autorregresivo inverso que se entrena mediante destilación de conocimiento con un modelo WaveNet maestro entrenado previamente. Dado que dichos modelos basados ​​en flujo autorregresivo inverso no son autorregresivos al realizar la inferencia, la velocidad de inferencia es más rápida que en tiempo real. Mientras tanto, Nvidia propuso un modelo WaveGlow basado en flujo [6] , que también puede generar voz más rápido que en tiempo real. Sin embargo, a pesar de la alta velocidad de inferencia, Parallel WaveNet tiene la limitación de necesitar un modelo WaveNet entrenado previamente, por lo que WaveGlow tarda muchas semanas en converger con dispositivos informáticos limitados. Este problema ha sido resuelto por Parallel WaveGAN, [7] que aprende a producir voz a través de pérdida espectral de múltiples resoluciones y estrategias de aprendizaje GAN.

Referencias

  1. ^ ab van den Oord, Aäron (12 de noviembre de 2017). "Síntesis de voz de alta fidelidad con WaveNet". DeepMind . Consultado el 5 de junio de 2022 .
  2. ^ Chung, Yu-An (2018). "Entrenamiento semisupervisado para mejorar la eficiencia de los datos en la síntesis de voz de extremo a extremo". arXiv : 1808.10128 [cs.CL].
  3. ^ Ren, Yi (2019). "Texto a voz casi sin supervisión y reconocimiento automático de voz". arXiv : 1905.06791 [cs.CL].
  4. ^ Jia, Ye (2018). "Transferencia de aprendizaje desde la verificación de hablantes a la síntesis de texto a voz de múltiples hablantes". arXiv : 1806.04558 [cs.CL].
  5. ^ van den Oord, Aaron (2018). "Parallel WaveNet: síntesis de voz rápida y de alta fidelidad". arXiv : 1711.10433 [cs.CL].
  6. ^ Prenger, Ryan (2018). "WaveGlow: una red generativa basada en flujo para la síntesis de voz". arXiv : 1811.00002 [cs.SD].
  7. ^ Yamamoto, Ryuichi (2019). "Parallel WaveGAN: un modelo de generación rápida de formas de onda basado en redes generativas adversarias con espectrograma de múltiples resoluciones". arXiv : 1910.11480 [eess.AS].