stringtranslate.com

Síntesis articulatoria

Modelo 3D del tracto vocal para síntesis articulatoria Basado en el modelado de coarticulación consonante-vocal, la oración alemana " Lea und Doreen mögen Bananen. " fue reproducida a partir de una oración hablada naturalmente en términos de la frecuencia fundamental y las duraciones del fonógrafo. [1]

La síntesis articulatoria se refiere a técnicas computacionales para sintetizar el habla basándose en modelos del tracto vocal humano y los procesos de articulación que allí ocurren. La forma del tracto vocal se puede controlar de varias maneras, lo que generalmente implica modificar la posición de los articuladores del habla, como la lengua , la mandíbula y los labios. El habla se crea simulando digitalmente el flujo de aire a través de la representación del tracto vocal.

Cabezas parlantes mecánicas

Hay una larga historia de intentos de construir " cabezas parlantes " mecánicas. [2] Se dice que Gerbert (fallecido en 1003), Albertus Magnus (1198-1280) y Roger Bacon (1214-1294) construyeron cabezas parlantes ( Wheatstone 1837). Sin embargo, la síntesis de voz confirmada históricamente comienza con Wolfgang von Kempelen (1734-1804), quien publicó un relato de su investigación en 1791 (véase también Dudley y Tarnoczy 1950).

Análogos del tracto vocal eléctrico

Los primeros análogos eléctricos del tracto vocal eran estáticos, como los de Dunn (1950), Ken Stevens y colegas (1953), Gunnar Fant (1960). Rosen (1958) construyó un tracto vocal dinámico (DAVO), que Dennis (1963) intentó controlar posteriormente por ordenador. Dennis et al. (1964), Hiki et al. (1968) y Baxter y Strong (1969) también han descrito análogos de hardware del tracto vocal. Kelly y Lochbaum (1962) realizaron la primera simulación por ordenador; posteriormente se han realizado simulaciones digitales por ordenador, por ejemplo, por Nakata y Mitsuoka (1965), Matsui (1968) y Paul Mermelstein (1971). Honda et al. (1968) han realizado una simulación analógica por ordenador .

Modelos Haskins y Maeda

El primer sintetizador articulatorio de software que se utilizó regularmente para experimentos de laboratorio fue desarrollado en Haskins Laboratories a mediados de la década de 1970 por Philip Rubin , Tom Baer y Paul Mermelstein. Este sintetizador, conocido como ASY, [3] era un modelo computacional de producción del habla basado en modelos del tracto vocal desarrollados en Bell Laboratories en las décadas de 1960 y 1970 por Paul Mermelstein, Cecil Coker y colegas. Otro modelo popular que se ha utilizado con frecuencia es el de Shinji Maeda, que utiliza un enfoque basado en factores para controlar la forma de la lengua .

Modelos modernos

Los recientes avances en la producción de imágenes del habla, el modelado del control articulatorio y el modelado de la biomecánica de la lengua han llevado a cambios en la forma en que se realiza la síntesis articulatoria [1] [ enlace muerto permanente ] . Los ejemplos incluyen el modelo CASY de Haskins (Síntesis Articulatoria Configurable), [4] diseñado por Philip Rubin , Mark Tiede [2] Archivado el 1 de septiembre de 2006 en Wayback Machine , y Louis Goldstein [3], que combina los tractos vocales medio sagitales con datos reales de imágenes por resonancia magnética (IRM) y utiliza datos de IRM para construir un modelo 3D del tracto vocal. Olov Engwall ha descrito un modelo completo de síntesis articulatoria en 3D. Peter Birkholz (VocalTractLab [5] ) ha desarrollado un sintetizador de voz articulatorio en 3D basado en la geometría . El modelo Directions Into Velocities of Articulators (DIVA) , un enfoque de control de avance que tiene en cuenta los cálculos neuronales que subyacen a la producción del habla, fue desarrollado por Frank H. Guenther en la Universidad de Boston . El proyecto ArtiSynth, [6] dirigido por Sidney Fels [4] en la Universidad de Columbia Británica , es un conjunto de herramientas de modelado biomecánico 3D para el tracto vocal humano y las vías respiratorias superiores. El modelado biomecánico de articuladores como la lengua ha sido pionero por varios científicos, entre ellos Reiner Wilhelms-Tricarico [5], Yohan Payan [6] y Jean-Michel Gerard [7], Jianwu Dang y Kiyoshi Honda [8].

Modelos comerciales

Uno de los pocos sistemas comerciales de síntesis de voz articulatoria es el sistema basado en NeXT , desarrollado y comercializado originalmente por Trillium Sound Research, una empresa derivada de la Universidad de Calgary , donde se llevó a cabo gran parte de la investigación original. Tras la desaparición de las diversas encarnaciones de NeXT (iniciado por Steve Jobs a finales de los años 1980 y fusionado con Apple Computer en 1997), el software de Trillium se publicó bajo una Licencia Pública General de GNU , y el trabajo continuó como gnuspeech . El sistema, comercializado por primera vez en 1994, proporciona una conversión de texto a voz basada en la articulación completa utilizando una guía de ondas o una línea de transmisión análoga de los tractos oral y nasal humanos controlados por el "modelo de región distintiva" de René Carré. [7]

Véase también

Notas al pie

  1. ^ Birkholz, Peter (2013). "Modelado de la coarticulación consonante-vocal para la síntesis articulatoria del habla". PLOS ONE . ​​8 (4): e60603. Bibcode :2013PLoSO...860603B. doi : 10.1371/journal.pone.0060603 . PMC 3628899 . PMID  23613734. 
  2. ^ "Talking Heads". Archivado desde el original el 7 de diciembre de 2006. Consultado el 6 de diciembre de 2006 .
  3. ^ Así
  4. ^ "CASY". Archivado desde el original el 28 de agosto de 2006. Consultado el 6 de diciembre de 2006 .
  5. ^ Laboratorio de Tracto Vocal
  6. ^ Artisynth
  7. ^ Síntesis articulatoria del habla en tiempo real mediante reglas

Bibliografía

Enlaces externos