En el procesamiento de sonido , el cepstrum de frecuencia mel ( MFC ) es una representación del espectro de potencia a corto plazo de un sonido, basado en una transformada coseno lineal de un espectro de potencia logarítmico en una escala de frecuencia mel no lineal .
Los coeficientes cepstrales de frecuencia de fusión ( MFCC ) son coeficientes que colectivamente forman un MFC. [1] Se derivan de un tipo de representación cepstral del clip de audio (un "espectro de un espectro" no lineal). La diferencia entre el cepstrum y el cepstrum de frecuencia mel es que en el MFC, las bandas de frecuencia están igualmente espaciadas en la escala mel, que se aproxima más a la respuesta del sistema auditivo humano que las bandas de frecuencia espaciadas linealmente utilizadas en el espectro normal. Esta deformación de frecuencia puede permitir una mejor representación del sonido, por ejemplo, en la compresión de audio , lo que podría reducir potencialmente el ancho de banda de transmisión y los requisitos de almacenamiento de las señales de audio.
Los MFCC se derivan comúnmente de la siguiente manera: [2] [3]
Puede haber variaciones en este proceso, por ejemplo: diferencias en la forma o el espaciado de las ventanas utilizadas para mapear la escala, [4] o adición de características dinámicas como "delta" y "delta-delta" (primera y segunda -orden de diferencia cuadro a cuadro) coeficientes. [5]
El Instituto Europeo de Normas de Telecomunicaciones definió a principios de la década de 2000 un algoritmo MFCC estandarizado para su uso en teléfonos móviles . [6]
Los MFCC se utilizan comúnmente como funciones en los sistemas de reconocimiento de voz [7] , como los sistemas que pueden reconocer automáticamente los números hablados en un teléfono.
Los MFCC también encuentran cada vez más usos en aplicaciones de recuperación de información musical , como clasificación de géneros , medidas de similitud de audio, etc. [8]
Dado que las bandas de frecuencia Mel se distribuyen uniformemente en MFCC y son muy similares al sistema de voz de un ser humano, MFCC se puede utilizar de manera eficiente para caracterizar a los hablantes. Por ejemplo, se puede utilizar para reconocer los detalles del modelo de teléfono celular del hablante y ampliar los detalles del hablante. [4]
Este tipo de reconocimiento de dispositivos móviles es posible porque la producción de componentes electrónicos en un teléfono tiene tolerancias, porque diferentes realizaciones de circuitos electrónicos no tienen exactamente las mismas funciones de transferencia . Las diferencias en la función de transferencia de una realización a otra se vuelven más prominentes si los circuitos que realizan la tarea son de diferentes fabricantes. Por lo tanto, cada teléfono celular introduce una distorsión convolucional en el habla de entrada que deja su impacto único en las grabaciones del teléfono celular. Por lo tanto, se puede identificar un teléfono en particular a partir de la voz grabada multiplicando el espectro de frecuencia original con multiplicaciones adicionales de funciones de transferencia específicas de cada teléfono seguidas de técnicas de procesamiento de señales. Así, al utilizar MFCC se pueden caracterizar las grabaciones de teléfonos móviles para identificar la marca y el modelo del teléfono. [5]
Considerando la sección de grabación de un teléfono celular como filtro lineal invariante en el tiempo ( LTI ):
Respuesta de impulso: h(n) , señal de voz grabada y(n) como salida del filtro en respuesta a la entrada x(n).
Por tanto, (convolución)
Como la voz no es una señal estacionaria, se divide en tramas superpuestas dentro de las cuales se supone que la señal es estacionaria. Entonces, el segmento de corta duración (cuadro) del habla de entrada grabada es:
donde w(n) : función en ventana de longitud W.
Por lo tanto, como se especifica, la huella del teléfono móvil de la voz grabada es la distorsión de convolución que ayuda a identificar el teléfono que graba.
La identidad incorporada del teléfono celular requiere una conversión a una forma mejor identificable, por lo tanto, se toma la transformada de Fourier de corto tiempo:
puede considerarse como una función de transferencia concatenada que produce voz de entrada, y la voz grabada puede percibirse como voz original del teléfono celular.
Por tanto, la función de transferencia equivalente del tracto vocal y la grabadora de un teléfono móvil se considera la fuente original del habla grabada. Por lo tanto,
donde Xew(f) es la función de excitación, es la función de transferencia del tracto vocal para el habla en el cuadro y es la función de transferencia equivalente que caracteriza al teléfono celular.
Este enfoque puede resultar útil para el reconocimiento del hablante, ya que la identificación del dispositivo y la identificación del hablante están muy conectadas.
Dando importancia a la envolvente del espectro que se multiplica por el banco de filtros (cepstrum adecuado con banco de filtros mel-scale), después de suavizar el banco de filtros con la función de transferencia U(f), la operación logarítmica de las energías de salida es:
Representando
MFCC tiene éxito debido a esta transformación no lineal con propiedad aditiva.
Transformando de nuevo al dominio del tiempo:
donde, cy(j), ce(j), cw(j) son el cepstrum del habla grabada y la respuesta de impulso equivalente ponderada de la grabadora del teléfono celular que caracteriza al teléfono celular, respectivamente, mientras que j es el número de filtros en el banco de filtros.
Más precisamente, la información específica del dispositivo está en el habla grabada que se convierte a una forma aditiva adecuada para la identificación.
cy(j) se puede procesar aún más para identificar el teléfono de grabación.
Longitudes de cuadro de uso frecuente: 20 o 20 ms.
Funciones de ventana de uso común: ventanas Hamming y Hanning.
Por lo tanto, la escala Mel es una escala de frecuencia comúnmente utilizada que es lineal hasta 1000 Hz y logarítmica por encima de ella.
Cálculo de frecuencias centrales de filtros en escala Mel:
Procedimiento básico para el cálculo de MFCC:
, yo = 1,2,....,L ,
donde c i = c y (i) = i-ésimo coeficiente MFCC, N f es el número de filtros triangulares en el banco de filtros, Sn es la salida de energía logarítmica del enésimo coeficiente de filtro y L es el número de coeficientes MFCC que queremos calcular .
Un MFCC se puede invertir aproximadamente a audio en cuatro pasos: (a1) DCT inverso para obtener un espectrograma de potencia logarítmica de fusión [dB], (a2) mapeo a potencia para obtener un espectrograma de potencia de fusión, (b1) reescalado para obtener tiempo, magnitudes de transformada de Fourier, y finalmente (b2) reconstrucción de fase y síntesis de audio usando Griffin-Lim. Cada paso corresponde a un paso en el cálculo de MFCC. [9]
Los valores de MFCC no son muy robustos en presencia de ruido aditivo, por lo que es común normalizar sus valores en los sistemas de reconocimiento de voz para disminuir la influencia del ruido. Algunos investigadores proponen modificaciones al algoritmo básico de MFCC para mejorar la robustez, como por ejemplo elevando las amplitudes log-mel a una potencia adecuada (alrededor de 2 o 3) antes de tomar la transformada discreta del coseno (DCT), que reduce la influencia de los valores bajos. componentes energéticos. [10]
A Paul Mermelstein [11] [12] se le atribuye típicamente el desarrollo del MFC. Mermelstein le da crédito a Bridle y Brown [13] por la idea:
Bridle y Brown utilizaron un conjunto de 19 coeficientes ponderados de forma del espectro dados por la transformada del coseno de las salidas de un conjunto de filtros de paso de banda espaciados no uniformemente. La separación entre filtros se elige para que sea logarítmica por encima de 1 kHz y los anchos de banda de los filtros también aumentan allí. Por lo tanto, los llamaremos parámetros cepstrales basados en mel. [11]
A veces se citan ambos autores iniciales. [14]
Muchos autores, incluidos Davis y Mermelstein, [12] han comentado que las funciones de base espectral de la transformada del coseno en el MFC son muy similares a los componentes principales de los espectros logarítmicos, que fueron aplicados a la representación y reconocimiento del habla mucho antes por Pols y sus colegas. [15] [16]