Los Mel Frequency Cepstral Coefficients (Coeficientes Cepstrales en las Frecuencias de Mel) o MFCCs son coeficientes para la representación del habla basados en la percepción auditiva humana.
MFCCs se calculan comúnmente de la siguiente forma:[1] Estos valores obtenidos son los coeficientes que buscamos.
Aunque opcionalmente se le pueden añadir otros valores como los deltas y/o los delta-deltas.
Los pasos que siguen a continuación pueden tener dos interpretaciones diferentes, pero ambas válidas: mediante la técnica de deconvolución y como una aplicación de filtros adaptados a las especificidades del discurso.
A dicho modelo se le denomina con frecuencia como: source-filter (fuente-filtrado).
Dicho esto, es fácil notar que el trabajo que debemos realizar sobre la señal debe ir encaminado a hacer desaparecer la influencia de la fuente.
No obstante, esto es más complicado de lo que parece, pues ambas señales (la de la fuente y el filtrado) se encuentran en Convolución y forman la señal que escuchamos.
Se le puede aplicar la escala de Mel a
(por las mismas razones que veremos durante la segunda interpretación) y a continuación se lleva a logaritmo la función anterior para obtener una relación entre la fuente y el filtrado más fácil de deshacer:
Si en este punto filtrásemos las bajas frecuencias correspondientes a la fuente y seguidamente aplicamos la transformada de coseno discreta (DCT, por sus siglas en inglés) o lo que es lo mismo, aplicamos directamente la DCT y descartamos sus términos de alta frecuencia.
Obtendríamos la señal (aunque debemos recordar que no es exactamente
No obstante, este órgano no es lo suficientemente sensible como para notar un crecimiento lineal en las frecuencias, sino que más bien detecta regiones de frecuencia, las cuales a su vez se van haciendo más grandes a medida que la frecuencia aumenta.
Por último, debe observarse que al aplicar la DCT sobre esta función, que dicho sea de paso se encuentra en el dominio de la frecuencia, se realiza el proceso inverso al aplicado durante la transformación inicial, y se obtendría la señal original de no ser por los cambios que se le han hecho a esta para que se parezca a lo que escuchamos los humanos.
En este caso, para ambas interpretaciones la razón es enteramente matemática, ya que la DCT posee características de compresión y decorrelación muy útiles (véase la transformada de coseno discreta).
Es indiscutible que esta también posee características dinámicas de vital importancia para la detección correcta del sonido.
O incluso dentro de un mismo fonema hay cambios típicos que de ser tenidos en cuenta pueden mejorar enormemente la detección del sistema.