stringtranslate.com

Síntesis de voz de aprendizaje profundo

La síntesis de voz de aprendizaje profundo se refiere a la aplicación de modelos de aprendizaje profundo para generar un habla humana con sonido natural a partir de texto escrito (texto a voz) o espectro (vocoder). Las redes neuronales profundas (DNN) se entrenan utilizando una gran cantidad de voz grabada y, en el caso de un sistema de texto a voz, las etiquetas asociadas y/o el texto de entrada.

Formulación

Dado un texto de entrada o alguna secuencia de unidad lingüística , el discurso objetivo se puede derivar mediante

¿Dónde está el parámetro del modelo?

Normalmente, el texto de entrada se pasa primero a un generador de características acústicas y luego las características acústicas se pasan al codificador de voz neuronal. Para el generador de características acústicas, la función de pérdida suele ser una pérdida L1 o L2. Estas funciones de pérdida imponen la restricción de que las distribuciones de características acústicas de salida deben ser gaussianas o laplacianas. En la práctica, dado que la banda de la voz humana oscila entre 300 y 4000 Hz aproximadamente, la función de pérdida se diseñará para tener una mayor penalización en este rango:

donde es la pérdida de la banda de voz humana y es un escalar típicamente alrededor de 0,5. La característica acústica suele ser espectrograma o espectrograma en escala Mel . Estas características capturan la relación tiempo-frecuencia de la señal de voz y, por lo tanto, es suficiente generar salidas inteligentes con estas características acústicas. La función Mel-frequency cepstrum utilizada en la tarea de reconocimiento de voz no es adecuada para la síntesis de voz porque reduce demasiada información.

Historia

Una pila de capas convolucionales casuales dilatadas utilizadas en WaveNet [1]

En septiembre de 2016, DeepMind propuso WaveNet , un modelo generativo profundo de formas de onda de audio sin procesar, lo que demuestra que los modelos basados ​​en aprendizaje profundo son capaces de modelar formas de onda sin procesar y generar voz a partir de características acústicas como espectrogramas o espectrogramas de mel . Aunque inicialmente se consideró que WaveNet era computacionalmente costoso y lento para ser utilizado en productos de consumo en ese momento, un año después de su lanzamiento, DeepMind presentó una versión modificada de WaveNet conocida como "Parallel WaveNet", un modelo de producción 1000 más rápido que el original. [1]

A principios de 2017, Mila propuso char2wav, un modelo para producir formas de onda sin procesar en un método de extremo a extremo. Ese mismo año, Google y Facebook propusieron Tacotron y VoiceLoop, respectivamente, para generar funciones acústicas directamente a partir del texto de entrada; Meses después, Google propuso Tacotron2, que combinaba el codificador de voz WaveNet con la arquitectura Tacotron revisada para realizar síntesis de voz de un extremo a otro. Tacotron2 puede generar voz de alta calidad acercándose a la voz humana. [ cita necesaria ]

Aprendizaje semisupervisado

Actualmente, el aprendizaje autosupervisado ha ganado mucha atención gracias a un mejor uso de los datos sin etiquetar. Las investigaciones han demostrado que, con la ayuda de la pérdida autosupervisada, disminuye la necesidad de datos emparejados . [2] [3]

Adaptación del altavoz Zero-shot

La adaptación del hablante de disparo cero es prometedora porque un solo modelo puede generar discurso con varios estilos y características de hablante. En junio de 2018, Google propuso utilizar modelos de verificación de hablantes previamente entrenados como codificadores de hablantes para extraer incrustaciones de hablantes. [4] Los codificadores del hablante luego pasan a formar parte de los modelos neuronales de texto a voz, de modo que pueden determinar el estilo y las características del discurso de salida. Este procedimiento ha demostrado a la comunidad que es posible utilizar un solo modelo para generar discurso con múltiples estilos.

Vocodificador neuronal

Ejemplo de síntesis de voz utilizando el vocodificador neuronal HiFi-GAN

En la síntesis de voz basada en el aprendizaje profundo, los codificadores de voz neuronales desempeñan un papel importante en la generación de voz de alta calidad a partir de características acústicas. El modelo WaveNet propuesto en 2016 logra un rendimiento excelente en calidad de voz. Wavenet factorizó la probabilidad conjunta de una forma de onda como producto de probabilidades condicionales de la siguiente manera

¿Dónde está el parámetro del modelo que incluye muchas capas de convolución dilatadas? Por lo tanto, cada muestra de audio está condicionada a las muestras en todos los pasos de tiempo anteriores. Sin embargo, la naturaleza autorregresiva de WaveNet hace que el proceso de inferencia sea dramáticamente lento. Para resolver este problema, se propuso Parallel WaveNet [5] . Parallel WaveNet es un modelo autorregresivo inverso basado en flujo que se entrena mediante destilación de conocimientos con un modelo WaveNet de profesor previamente entrenado. Dado que estos modelos basados ​​en flujo autorregresivos inversos no son autorregresivos cuando se realiza la inferencia, la velocidad de la inferencia es más rápida que en tiempo real. Mientras tanto, Nvidia propuso un modelo WaveGlow [6] basado en flujo , que también puede generar voz más rápido que en tiempo real. Sin embargo, a pesar de la alta velocidad de inferencia, WaveNet paralelo tiene la limitación de necesitar un modelo WaveNet previamente entrenado, por lo que WaveGlow tarda muchas semanas en converger con dispositivos informáticos limitados. Este problema ha sido resuelto por Parallel WaveGAN, [7] que aprende a producir voz mediante pérdida espectral de resolución múltiple y estrategias de aprendizaje GAN.

Referencias

  1. ^ ab van den Oord, Aäron (12 de noviembre de 2017). "Síntesis de voz de alta fidelidad con WaveNet". Mente profunda . Consultado el 5 de junio de 2022 .
  2. ^ Chung, Yu-An (2018). "Capacitación semisupervisada para mejorar la eficiencia de los datos en la síntesis de voz de un extremo a otro". arXiv : 1808.10128 [cs.CL].
  3. ^ Ren, Yi (2019). "Texto a voz casi sin supervisión y reconocimiento automático de voz". arXiv : 1905.06791 [cs.CL].
  4. ^ Jia, Ye (2018). "Transferir el aprendizaje de la verificación del hablante a la síntesis de texto a voz de varios hablantes". arXiv : 1806.04558 [cs.CL].
  5. ^ van den Oord, Aaron (2018). "Parallel WaveNet: síntesis de voz rápida y de alta fidelidad". arXiv : 1711.10433 [cs.CL].
  6. ^ Prenger, Ryan (2018). "WaveGlow: una red generativa basada en flujo para la síntesis del habla". arXiv : 1811.00002 [cs.SD].
  7. ^ Yamamoto, Ryuichi (2019). "Parallel WaveGAN: un modelo de generación rápida de formas de onda basado en redes generativas adversarias con espectrograma de resolución múltiple". arXiv : 1910.11480 [eess.AS].