Modelo de filtro de fuente

El modelo de fuente-filtro representa el habla como una combinación de una fuente de sonido, como las cuerdas vocales , y un filtro acústico lineal, el tracto vocal . Aunque es solo una aproximación, el modelo se usa ampliamente en varias aplicaciones, como la síntesis y el análisis del habla, debido a su relativa simplicidad. También está relacionado con la predicción lineal . El desarrollo del modelo se debe, en gran parte, al trabajo inicial de Gunnar Fant , aunque otros, en particular Ken Stevens , también han contribuido sustancialmente a los modelos que sustentan el análisis acústico del habla y la síntesis del habla. ^[1] Fant se basó en el trabajo de Tsutomu Chiba y Masato Kajiyama, quienes mostraron por primera vez la relación entre las propiedades acústicas de una vocal y la forma del tracto vocal. ^[1]

Una suposición importante que se hace a menudo en el uso del modelo de fuente-filtro es la independencia de la fuente y el filtro. ^[1] En tales casos, el modelo debería denominarse con más precisión "modelo de fuente-filtro independiente". ^{[ cita requerida ]}

Historia

En 1942, Chiba y Kajiyama publicaron su investigación sobre la acústica de las vocales y el tracto vocal en su libro The Vowel: Its nature and structure . Al crear modelos del tracto vocal mediante fotografía de rayos X , pudieron predecir las frecuencias de los formantes de diferentes vocales, estableciendo una relación entre ambas. Gunnar Fant, un científico pionero del habla, utilizó la investigación de Chiba y Kajiyama que involucraba fotografía de rayos X del tracto vocal para interpretar sus propios datos de los sonidos del habla rusa en la Teoría acústica de la producción del habla , que estableció el modelo fuente-filtro. ^[2]

Aplicaciones

En diversos grados, los diferentes fonemas pueden distinguirse por las propiedades de su(s) fuente(s) y su forma espectral . Los sonidos sonoros (por ejemplo, las vocales) tienen al menos una fuente debido a la excitación glótica principalmente periódica, que puede aproximarse mediante un tren de impulsos en el dominio del tiempo y mediante armónicos en el dominio de la frecuencia, y un filtro que depende, por ejemplo, de la posición de la lengua y la protrusión de los labios. ^[3] Por otro lado, las fricativas , como [s ] y [f] , tienen al menos una fuente debido al ruido turbulento producido en una constricción en la cavidad oral o la faringe . Las llamadas fricativas sonoras , como [z] y [v] , tienen dos fuentes: una en la glotis y otra en la constricción supraglótica.

Síntesis de voz

En la implementación del modelo de fuente-filtro de producción de habla, la fuente de sonido, o señal de excitación, se modela a menudo como un tren de impulsos periódicos, para el habla sonora, o como ruido blanco para el habla sorda. El filtro del tracto vocal se aproxima, en el caso más simple, mediante un filtro de todos los polos, donde los coeficientes se obtienen realizando una predicción lineal para minimizar el error cuadrático medio en la señal de habla que se va a reproducir. La convolución de la señal de excitación con la respuesta del filtro produce entonces el habla sintetizada.

Modelado de la producción del habla humana

En la producción del habla humana, la fuente del sonido son las cuerdas vocales , que pueden producir un sonido periódico cuando están constreñidas o un sonido aperiódico (ruido blanco) cuando están relajadas. ^[4] El filtro es el resto del tracto vocal, que puede cambiar de forma mediante la manipulación de la faringe , la boca y la cavidad nasal. ^[3] Fant compara aproximadamente la fuente y el filtro con la fonación y la articulación , respectivamente. La fuente produce una serie de armónicos de amplitudes variables , que viajan a través del tracto vocal y se amplifican o atenúan para producir un sonido del habla. ^[4]

Véase también

Filtro inverso

Referencias

^ abc Arai, Takayuki (2004). "Historia de Chiba y Kajiyama y su influencia en la ciencia del habla moderna". Del sonido al sentido: más de 50 años de descubrimientos en la comunicación oral (PDF) . pp. 115–120.
^ Fant, Gunnar (2001). "T. Chiba y M. Kajiyama, pioneros en acústica del habla". Revista de la Sociedad Fonética de Japón . 5 (2). doi :10.24467/onseikenkyu.5.2_4 . Consultado el 3 de julio de 2020 .
^ ab Fant, Gunnar (1970). Teoría acústica de la producción del habla con cálculos basados en estudios de rayos X de articulaciones rusas . De Gruyter.
^ ab Zsiga, Elizabeth C. (2012). Los sonidos del lenguaje: Introducción a la fonética y la fonología. John Wiley & Sons. ISBN 978-1-118-34060-8.

Chiba, T.; Kajiyama, M. (1942). La vocal: su naturaleza y estructura . Tokio: Tokyo-Kaiseikan Pub. Co., Ltd.
(Hubo una edición reimpresa en 1952 y una edición traducida al japonés en 2003 como ISBN 4-00-002107-9 )
Stevens, KN (2001). "El libro de Chiba y Kajiyama como precursor de la teoría acústica de la producción del habla". Revista de la Sociedad Fonética de Japón . 5 (2): 6–7.
Stevens, KN (1998). Fonética acústica. Cambridge, MA: MIT Press . ISBN 978-0-262-19404-4. (tapa dura en 1999) / (libro de bolsillo en 2000).