En el procesamiento de sonido , el cepstrum de frecuencia mel ( MFC ) es una representación del espectro de potencia a corto plazo de un sonido, basado en una transformada de coseno lineal de un espectro de potencia logarítmica en una escala mel no lineal de frecuencia.
Los coeficientes cepstrales de frecuencia Mel ( MFCC ) son coeficientes que, en conjunto, forman un MFC. [1] Se derivan de un tipo de representación cepstral del clip de audio (un "espectro de un espectro" no lineal). La diferencia entre el cepstrum y el cepstrum de frecuencia Mel es que en el MFC, las bandas de frecuencia están espaciadas de manera uniforme en la escala Mel, lo que se aproxima más a la respuesta del sistema auditivo humano que las bandas de frecuencia espaciadas linealmente que se utilizan en el espectro normal. Esta deformación de frecuencia puede permitir una mejor representación del sonido, por ejemplo, en la compresión de audio que podría reducir potencialmente el ancho de banda de transmisión y los requisitos de almacenamiento de las señales de audio.
Los MFCC se derivan comúnmente de la siguiente manera: [2] [3]
Puede haber variaciones en este proceso, por ejemplo: diferencias en la forma o el espaciado de las ventanas utilizadas para mapear la escala, [4] o adición de características dinámicas como coeficientes "delta" y "delta-delta" (diferencia cuadro a cuadro de primer y segundo orden). [5]
A principios de la década de 2000, el Instituto Europeo de Normas de Telecomunicaciones definió un algoritmo MFCC estandarizado para su uso en teléfonos móviles . [6]
Los MFCC se utilizan comúnmente como funciones en sistemas de reconocimiento de voz [7] , como los sistemas que pueden reconocer automáticamente números pronunciados en un teléfono.
Los MFCC también se utilizan cada vez más en aplicaciones de recuperación de información musical, como clasificación de géneros , medidas de similitud de audio, etc. [8]
Dado que las bandas de frecuencia Mel se distribuyen uniformemente en MFCC y son muy similares al sistema de voz de un ser humano, MFCC se puede utilizar de manera eficiente para caracterizar a los hablantes. Por ejemplo, se puede utilizar para reconocer los detalles del modelo de teléfono celular del hablante y profundizar en los detalles del hablante. [4]
Este tipo de reconocimiento de dispositivos móviles es posible porque la producción de componentes electrónicos en un teléfono tiene tolerancias, porque las diferentes realizaciones de circuitos electrónicos no tienen exactamente las mismas funciones de transferencia . Las diferencias en la función de transferencia de una realización a otra se vuelven más prominentes si los circuitos que realizan tareas son de diferentes fabricantes. Por lo tanto, cada teléfono celular introduce una distorsión convolucional en el habla de entrada que deja su impacto único en las grabaciones del teléfono celular. Por lo tanto, un teléfono particular puede identificarse a partir del habla grabada multiplicando el espectro de frecuencia original con otras multiplicaciones de funciones de transferencia específicas para cada teléfono seguidas de técnicas de procesamiento de señales. Por lo tanto, al usar MFCC se pueden caracterizar las grabaciones de teléfonos celulares para identificar la marca y el modelo del teléfono. [5]
Considerando la sección de grabación de un teléfono celular como filtro lineal invariante en el tiempo ( LTI ):
Respuesta al impulso: h(n) , señal de voz grabada y(n) como salida del filtro en respuesta a la entrada x(n).
Por lo tanto, (convolución)
Como el habla no es una señal estacionaria, se divide en cuadros superpuestos dentro de los cuales se supone que la señal es estacionaria. Por lo tanto, el segmento (cuadro) de corto plazo del habla de entrada grabada es:
donde w(n) : función con ventana de longitud W.
Por lo tanto, como se especifica, la huella del teléfono móvil del habla grabada es la distorsión de convolución que ayuda a identificar el teléfono que graba.
La identidad incorporada del teléfono celular requiere una conversión a una forma mejor identificable, por lo tanto, se toma la transformada de Fourier de tiempo corto:
Puede considerarse como una función de transferencia concatenada que produce voz de entrada, y la voz grabada puede percibirse como voz original del teléfono celular.
Por lo tanto, la función de transferencia equivalente del tracto vocal y la grabadora del teléfono celular se considera como la fuente original del habla grabada.
donde Xew(f) es la función de excitación, es la función de transferencia del tracto vocal para el habla en el marco y es la función de transferencia equivalente que caracteriza al teléfono celular.
Este enfoque puede ser útil para el reconocimiento de hablantes, ya que la identificación del dispositivo y la identificación del hablante están muy conectadas.
Dando importancia a la envolvente del espectro que se multiplica por el banco de filtros (cepstrum adecuado con banco de filtros de escala mel), después de suavizar el banco de filtros con la función de transferencia U(f), la operación logarítmica sobre las energías de salida son:
Representando
MFCC tiene éxito gracias a esta transformación no lineal con propiedad aditiva.
Transformando de nuevo al dominio del tiempo:
donde, cy(j), ce(j), cw(j) son el cepstrum del habla grabada y la respuesta al impulso equivalente ponderada de la grabadora del teléfono celular que caracteriza al teléfono celular, respectivamente, mientras que j es el número de filtros en el banco de filtros.
Más precisamente, la información específica del dispositivo está en el habla grabada que se convierte a una forma aditiva adecuada para la identificación.
cy(j) se puede procesar aún más para identificar el teléfono que grabó.
Las longitudes de trama más utilizadas son 20 o 20 ms.
Funciones de ventana comúnmente utilizadas: ventanas Hamming y Hanning.
Por lo tanto, la escala Mel es una escala de frecuencia comúnmente utilizada que es lineal hasta 1000 Hz y logarítmica por encima de ella.
Cálculo de frecuencias centrales de filtros en escala Mel:
Procedimiento básico para el cálculo del MFCC:
, ,
donde corresponde al -ésimo coeficiente MFCC, es el número de filtros triangulares en el banco de filtros, es la salida de energía logarítmica del -ésimo coeficiente de filtro y es el número de coeficientes MFCC que queremos calcular.
Un MFCC se puede invertir aproximadamente a audio en cuatro pasos: (a1) DCT inversa para obtener un espectrograma de potencia logarítmica de mel [dB], (a2) mapeo a potencia para obtener un espectrograma de potencia de mel, (b1) reescalado para obtener magnitudes de transformada de Fourier de tiempo corto y, finalmente, (b2) reconstrucción de fase y síntesis de audio utilizando Griffin-Lim. Cada paso corresponde a un paso en el cálculo MFCC. [9]
Los valores MFCC no son muy robustos en presencia de ruido aditivo, por lo que es común normalizar sus valores en los sistemas de reconocimiento de voz para disminuir la influencia del ruido. Algunos investigadores proponen modificaciones al algoritmo MFCC básico para mejorar la robustez, como por ejemplo elevando las amplitudes log-mel a una potencia adecuada (alrededor de 2 o 3) antes de tomar la transformada discreta del coseno (DCT), que reduce la influencia de los componentes de baja energía. [10]
Generalmente se le atribuye a Paul Mermelstein [11] [12] el desarrollo del MFC. Mermelstein atribuye la idea a Bridle y Brown [13] :
Bridle y Brown utilizaron un conjunto de 19 coeficientes ponderados de forma espectral dados por la transformada del coseno de las salidas de un conjunto de filtros de paso de banda no uniformemente espaciados. El espaciado de los filtros se elige como logarítmico por encima de 1 kHz y los anchos de banda de los filtros también se incrementan allí. Por lo tanto, los llamaremos parámetros cepstrales basados en mel. [11]
A veces se citan a ambos autores originales. [14]
Muchos autores, incluidos Davis y Mermelstein, [12] han comentado que las funciones de base espectral de la transformada del coseno en la MFC son muy similares a los componentes principales de los espectros logarítmicos, que Pols y sus colegas aplicaron a la representación y reconocimiento del habla mucho antes. [15] [16]