Existe un gran margen de frecuencias entre las cuales se puede generar ondas mecánicas longitudinales.
Las ondas sonoras se reducen a los límites de frecuencia que pueden estimular el oído humano para ser percibidas en el cerebro como una sensación acústica.
Ā aparato fonador es el conjunto de órganos que tienen como función producir la voz humana, lo conforman los pulmones, los cuales producen un flujo de aire; la laringe, que contiene las cuerdas vocales, la faringe, las cavidades oral y nasal y una serie de elementos articulatorios como los labios, los dientes, el alvéolo, el paladar, el velo del paladar y la lengua.
Cuando la glotis comienza a cerrarse, el aire proveniente desde los pulmones experimenta una turbulencia, emitiéndose un ruido de origen aerodinámico.
Al cerrarse más las cuerdas vocales comienzan a vibrar a modo de lengüetas, produciéndose un sonido tonal, es decir periódico y cuya frecuencia varia en forma inversa al tamaño de las cuerdas.
Estas cavidades constituyen resonadores acústicos, los cuales modifican los sonidos de acuerdo a la forma que adopten, la lengua y los labios permiten efectuar esta variación de manera voluntaria.
Como todo los sonidos, está formado esencialmente por curvas elementales (senos y cosenos) pero las posibles combinaciones de éstas pueden ser complejas.
La representación de la señal de voz en función del tiempo es importante puesto que brinda información sobre características importantes como la energía y los cruces por cero, las cuales facilitan su estudio y análisis.
La Energía es útil para distinguir segmentos sordos y sonoros en la señal de voz, debido a que los valores de esta característica aumentan en los sonidos sonoros respecto a los sordos.
La frecuencia fundamental, no debe confundirse con el pitch, brinda información sobre la velocidad a la que vibran las cuerdas vocales al producir un sonido, el cual es generado por la rápida apertura y cierre de las cuerdas vocales con pequeños soplidos de aire, produciendo un espectro de frecuencia similar al mostrado en la figura siguiente.
Si bien el espectro lleva un gran componente cerca de la frecuencia pitch (aprox.
Un análisis adecuado sobre esta característica permite obtener información sobre los diferentes tipos de sonido.
Las cavidades que conforman la cavidad supraglótica actúan como resonadores acústicos.
Si se realiza un análisis espectral del sonido luego de haber atravesado estas cavidades, el efecto de la resonancia produciría un énfasis en determinadas frecuencias del espectro obtenido, a las que se les denominara 'formantes'.
Sin embargo se considera que sólo las tres primeras, asociadas a la cavidad oral, bucal y nasal respectivamente y proporcionan la suficiente cantidad de información para poder diferenciar los distintos tipos de sonido.
La señal sonora se genera por la vibración de las cuerdas vocales manteniendo la glotis abierta, lo que permite que el aire fluya a través de ella.
Estas señales se caracterizan por tener alta Energía y un contenido frecuencial en el rango de los 300 Hz a 4000 Hz presentando cierta periodicidad, es decir son de naturaleza cuasiperiódica.
El tracto vocal actúa como una cavidad resonante reforzando la energía en torno a determinadas frecuencias (formantes).
Toda las vocales se caracterizan por ser sonoras pero existen consonantes que también lo son, tales como, la 'b', 'd' y la 'm', entre otras.
Para señales sonoras, la excitación será un tren de impulsos de frecuencia controlada, mientras que para las señales no sonoras la excitación será ruido aleatorio.
El tracto vocal manifiesta un número muy grande de resonancias, pero como se afirmó anteriormente, sólo se consideran tres y en algunos casos cuatro, esto se debe a que las resonancias de alta frecuencia son atenuadas por la característica frecuencial del tracto que tiende a actuar como un filtro pasabajo.
Los sonidos fricativos, no se filtran por el tracto con la misma extensión en que lo hacen las señales sonoras, por lo que el modelo no es muy preciso para este tipo de señales.
Sin embargo, estas consideraciones pueden ser ignoradas, resultando el modelo lo suficientemente adecuado.
A medida que aumenta la relación SNR, es mejor el trabajo realizado en grabación.
Cuando la onda es reflejada, regresa con mucho menor amplitud, y retardada en el tiempo, esta interactúa con la forma de onda originalmente hablada para crear un nuevo espectro compuesto del habla.
La mejor forma de tratar el problema es de rodear el micrófono con un material esponjoso transparente acústico, que rápidamente disipe la velocidad del viento de las pronunciaciones plosivas, permitiendo a las vibraciones acústicas normales pasar a través del micrófono.
Otras fuentes de ruido externo, tal como los ventiladores en las computadoras, aire acondicionados, teléfonos, y otras personas hablando puede también causar problemas con la exactitud del sistema de reconocimiento.
Otra técnica para cancelar el ruido externo es filtrar la señal de audio antes procesarla.
La calidad del micrófono probablemente es, el factor que más influye en la adquisición electrónica de señales del habla es el tipo de micrófono que se está usando.
Para percibir fácilmente las diferencias entre estos tipos de micrófonos, sus características principales son comparadas en la siguiente tabla.