Síntesis articulatoria

Modelo 3D del tracto vocal para síntesis articulatoria Basado en el modelado de coarticulación consonante-vocal, la oración alemana " Lea und Doreen mögen Bananen. " fue reproducida a partir de una oración hablada naturalmente en términos de la frecuencia fundamental y las duraciones del fonógrafo.^[1]

La síntesis articulatoria se refiere a técnicas computacionales para sintetizar el habla basándose en modelos del tracto vocal humano y los procesos de articulación que allí ocurren. La forma del tracto vocal se puede controlar de varias maneras, lo que generalmente implica modificar la posición de los articuladores del habla, como la lengua , la mandíbula y los labios. El habla se crea simulando digitalmente el flujo de aire a través de la representación del tracto vocal.

Cabezas parlantes mecánicas

Hay una larga historia de intentos de construir " cabezas parlantes " mecánicas. ^[2] Se dice que Gerbert (fallecido en 1003), Albertus Magnus (1198-1280) y Roger Bacon (1214-1294) construyeron cabezas parlantes ( Wheatstone 1837). Sin embargo, la síntesis de voz confirmada históricamente comienza con Wolfgang von Kempelen (1734-1804), quien publicó un relato de su investigación en 1791 (véase también Dudley y Tarnoczy 1950).

Análogos del tracto vocal eléctrico

Los primeros análogos eléctricos del tracto vocal eran estáticos, como los de Dunn (1950), Ken Stevens y colegas (1953), Gunnar Fant (1960). Rosen (1958) construyó un tracto vocal dinámico (DAVO), que Dennis (1963) intentó controlar posteriormente por ordenador. Dennis et al. (1964), Hiki et al. (1968) y Baxter y Strong (1969) también han descrito análogos de hardware del tracto vocal. Kelly y Lochbaum (1962) realizaron la primera simulación por ordenador; posteriormente se han realizado simulaciones digitales por ordenador, por ejemplo, por Nakata y Mitsuoka (1965), Matsui (1968) y Paul Mermelstein (1971). Honda et al. (1968) han realizado una simulación analógica por ordenador .

Modelos Haskins y Maeda

El primer sintetizador articulatorio de software que se utilizó regularmente para experimentos de laboratorio fue desarrollado en Haskins Laboratories a mediados de la década de 1970 por Philip Rubin , Tom Baer y Paul Mermelstein. Este sintetizador, conocido como ASY, ^[3] era un modelo computacional de producción del habla basado en modelos del tracto vocal desarrollados en Bell Laboratories en las décadas de 1960 y 1970 por Paul Mermelstein, Cecil Coker y colegas. Otro modelo popular que se ha utilizado con frecuencia es el de Shinji Maeda, que utiliza un enfoque basado en factores para controlar la forma de la lengua .

Modelos modernos

Los recientes avances en la producción de imágenes del habla, el modelado del control articulatorio y el modelado de la biomecánica de la lengua han llevado a cambios en la forma en que se realiza la síntesis articulatoria [1] ^{[ enlace muerto permanente ]} . Los ejemplos incluyen el modelo CASY de Haskins (Síntesis Articulatoria Configurable), ^[4] diseñado por Philip Rubin , Mark Tiede [2] Archivado el 1 de septiembre de 2006 en Wayback Machine , y Louis Goldstein [3], que combina los tractos vocales medio sagitales con datos reales de imágenes por resonancia magnética (IRM) y utiliza datos de IRM para construir un modelo 3D del tracto vocal. Olov Engwall ha descrito un modelo completo de síntesis articulatoria en 3D. Peter Birkholz (VocalTractLab ^[5] ) ha desarrollado un sintetizador de voz articulatorio en 3D basado en la geometría . El modelo Directions Into Velocities of Articulators (DIVA) , un enfoque de control de avance que tiene en cuenta los cálculos neuronales que subyacen a la producción del habla, fue desarrollado por Frank H. Guenther en la Universidad de Boston . El proyecto ArtiSynth, ^[6] dirigido por Sidney Fels [4] en la Universidad de Columbia Británica , es un conjunto de herramientas de modelado biomecánico 3D para el tracto vocal humano y las vías respiratorias superiores. El modelado biomecánico de articuladores como la lengua ha sido pionero por varios científicos, entre ellos Reiner Wilhelms-Tricarico [5], Yohan Payan [6] y Jean-Michel Gerard [7], Jianwu Dang y Kiyoshi Honda [8].

Modelos comerciales

Uno de los pocos sistemas comerciales de síntesis de voz articulatoria es el sistema basado en NeXT , desarrollado y comercializado originalmente por Trillium Sound Research, una empresa derivada de la Universidad de Calgary , donde se llevó a cabo gran parte de la investigación original. Tras la desaparición de las diversas encarnaciones de NeXT (iniciado por Steve Jobs a finales de los años 1980 y fusionado con Apple Computer en 1997), el software de Trillium se publicó bajo una Licencia Pública General de GNU , y el trabajo continuó como gnuspeech . El sistema, comercializado por primera vez en 1994, proporciona una conversión de texto a voz basada en la articulación completa utilizando una guía de ondas o una línea de transmisión análoga de los tractos oral y nasal humanos controlados por el "modelo de región distintiva" de René Carré. ^[7]

Véase también

Notas al pie

^ Birkholz, Peter (2013). "Modelado de la coarticulación consonante-vocal para la síntesis articulatoria del habla". PLOS ONE . 8 (4): e60603. Bibcode :2013PLoSO...860603B. doi : 10.1371/journal.pone.0060603 . PMC 3628899 . PMID 23613734.
^ "Talking Heads". Archivado desde el original el 7 de diciembre de 2006. Consultado el 6 de diciembre de 2006 .
^ Así
^ "CASY". Archivado desde el original el 28 de agosto de 2006. Consultado el 6 de diciembre de 2006 .
^ Laboratorio de Tracto Vocal
^ Artisynth
^ Síntesis articulatoria del habla en tiempo real mediante reglas

Bibliografía

Baxter, Brent y William J. Strong. (1969). WINDBAG: un sintetizador de voz analógico para el tracto vocal. Journal of the Acoustical Society of America , 45, 309(A).
Birkholz P, Jackel D, Kröger BJ (2007) Simulación de pérdidas debidas a turbulencia en el sistema vocal variable en el tiempo. IEEE Transactions on Audio, Speech, and Language Processing 15: 1218-1225
Birkholz P, Jackel D, Kröger BJ (2006) Construcción y control de un modelo tridimensional del tracto vocal. Actas de la Conferencia internacional sobre acústica, habla y procesamiento de señales (ICASSP 2006) (Toulouse, Francia), págs. 873–876
Coker. CH (1968). Síntesis de voz con un modelo articulatorio paramétrico. Proc. Speech. Symp., Kioto, Japón , artículo A-4.
Coker, CH (1976). "Un modelo para la dinámica y el control articulatorios". Actas del IEEE . 64 (4): 452–460. doi :10.1109/PROC.1976.10154. S2CID 1412611.
Coker; Fujimura, O. (1966). "Modelo para la especificación de la función del área del tracto vocal". Journal of the Acoustical Society of America . 40 (5): 1271. Bibcode :1966ASAJ...40.1271C. doi : 10.1121/1.2143456 .
Dennis, Jack B. (1963). Control informático de un tracto vocal analógico. Journal of the Acoustical Society of America , 35, 1115(A).
Dudley, Homer; Tarnoczy, Thomas H. (1950). "La máquina parlante de Wolfgang von Kempelen" (PDF) . Revista de la Sociedad Acústica de América . 22 (2): 151–166. Código Bibliográfico :1950ASAJ...22..151D. doi :10.1121/1.1906583.
Dunn, Hugh K. (1950). "Cálculo de resonancias vocálicas y un tracto vocal eléctrico". Revista de la Sociedad Acústica de América . 22 (6): 740–53. Bibcode :1950ASAJ...22..740D. doi :10.1121/1.1906681.
Engwall, O. (2003). Combinación de mediciones de resonancia magnética, electromiografía y emometría electroencefalográfica en un modelo tridimensional de la lengua. Speech Communication, 41, 303–329.
Fant, C. Gunnar M. (1960). Teoría acústica de la producción del habla . La Haya, Mouton.
Gariel, M. (1879). "Máquina parlante de M. Faber". J. Physique Théorique et Appliquée . 8 : 274–5. doi :10.1051/jphystap:018790080027401.
Gerard, JM; Wilhelms-Tricarico, R.; Perrier, P.; Payan, Y. (2003). "Un modelo biomecánico dinámico tridimensional de la lengua para estudiar el control motor del habla" (PDF) . Desarrollos recientes de investigación en biomecánica . 1 : 49–64.
Henke, WL (1966). Modelo articulatorio dinámico de producción del habla mediante simulación por ordenador. Tesis doctoral inédita, MIT, Cambridge, MA.
Honda, Takashi, Seiichi Inoue y Yasuo Ogawa. (1968). Un sistema de control híbrido de un simulador del tracto vocal humano. Informes del 6.º Congreso Internacional de Acústica , ed. por Y. Kohasi, págs. 175-178. Tokio, Consejo Internacional de Uniones Científicas.
Kelly, John L. y Carol Lochbaum. (1962). Síntesis de voz. Actas del Speech Communications Seminar , artículo F7. Estocolmo, Speech Transmission Laboratory, Royal Institute of Technology.
Kempelen, Wolfgang R. von. (1791). Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine . Viena, JB Degen.
Maeda, S. (1988). Modelo articulatorio mejorado. Revista de la Sociedad Americana de Acústica , 84, Sup. 1, S146.
Maeda, S. (1990). Articulación compensatoria durante el habla: evidencia del análisis y síntesis de formas del tracto vocal utilizando un modelo articulatorio. En WJ Hardcastle y A. Marchal (Eds.), Speech Production and Speech Modelling , Kluwer Academic, Dordrecht, 131–149.
Matsui, Eiichi. (1968). Órganos vocales simulados por ordenador. Informes del 6º Congreso Internacional de Acústica , ed. por Y. Kohasi, págs. 151–4. Tokio, Consejo Internacional de Uniones Científicas.
Mermelstein, Paul. (1969). Simulación por ordenador de la actividad articulatoria en la producción del habla. Actas de la Conferencia conjunta internacional sobre inteligencia artificial , Washington, DC, 1969, ed. por DE Walker y LM Norton. Nueva York, Gordon & Breach.
Mermelstein, P. (1973). "Modelo articulatorio para el estudio de la producción del habla". Revista de la Sociedad Acústica de América . 53 (4): 1070–1082. Bibcode :1973ASAJ...53.1070M. doi :10.1121/1.1913427. PMID 4697807.
Nakata, Kazuo; Mitsuoka, T. (1965). "Transformación fonémica y aspectos de control de la síntesis del habla conectada". J. Radio Res. Labs . 12 : 171–86.
Rahim, M.; Goodyear, C.; Kleijn, W.; Schroeter, J.; Sondhi, M. (1993). "Sobre el uso de redes neuronales en la síntesis articulatoria del habla". Revista de la Sociedad Acústica de América . 93 (2): 1109–1121. Bibcode :1993ASAJ...93.1109R. doi :10.1121/1.405559. S2CID 120130348.
Rosen, George (1958). "Sintetizador de voz analógico dinámico". Revista de la Sociedad Acústica de América . 30 (3): 201–9. Bibcode :1958ASAJ...30..201R. doi :10.1121/1.1909541. hdl : 1721.1/118106 .
Rubin, PE; Baer, T.; Mermelstein, P. (1981). "Un sintetizador articulatorio para la investigación perceptual". Revista de la Sociedad Acústica de América . 70 (2): 321–328. Bibcode :1981ASAJ...70..321R. doi :10.1121/1.386780.
Rubin, P., Saltzman, E., Goldstein, L., McGowan, R., Tiede, M. y Browman, C. (1996). CASY y extensiones al modelo dinámico de tareas. Actas del 1.er Taller de investigación y tutorial de ESCA sobre modelado de producción del habla - 4.º Seminario de producción del habla , 125–128.
Stevens, Kenneth N.; Kasowski, S.; Fant, C. Gunnar M. (1953). "Un análogo eléctrico del tracto vocal". Revista de la Sociedad Acústica de América . 25 (4): 734–42. Bibcode :1953ASAJ...25..734S. doi :10.1121/1.1907169.

Enlaces externos

"De la resonancia magnética y los datos acústicos a la síntesis articulatoria". Archivado desde el original el 14 de agosto de 2007.
"Proyecto histórico de síntesis de voz del Smithsonian (SSSHP) 1986-2002". Archivado desde el original el 3 de octubre de 2013.
Introducción a la síntesis articulatoria del habla
Simulación de canto con el robot cantante Pavarobotti en YouTube o una descripción de la BBC sobre cómo el robot sintetizó el canto en YouTube .
Herramienta de síntesis de voz en línea con las manos desnudas Pink Trombone y videoclip de demostración en YouTube