Cepstrum de frecuencia mel

En el procesamiento de sonido , el cepstrum de frecuencia mel ( MFC ) es una representación del espectro de potencia a corto plazo de un sonido, basado en una transformada de coseno lineal de un espectro de potencia logarítmica en una escala mel no lineal de frecuencia.

Los coeficientes cepstrales de frecuencia Mel ( MFCC ) son coeficientes que, en conjunto, forman un MFC. ^[1] Se derivan de un tipo de representación cepstral del clip de audio (un "espectro de un espectro" no lineal). La diferencia entre el cepstrum y el cepstrum de frecuencia Mel es que en el MFC, las bandas de frecuencia están espaciadas de manera uniforme en la escala Mel, lo que se aproxima más a la respuesta del sistema auditivo humano que las bandas de frecuencia espaciadas linealmente que se utilizan en el espectro normal. Esta deformación de frecuencia puede permitir una mejor representación del sonido, por ejemplo, en la compresión de audio que podría reducir potencialmente el ancho de banda de transmisión y los requisitos de almacenamiento de las señales de audio.

Los MFCC se derivan comúnmente de la siguiente manera: ^[2]^[3]

Tome la transformada de Fourier de (un extracto en ventana de) una señal.
Mapee las potencias del espectro obtenido anteriormente en la escala mel , utilizando ventanas superpuestas triangulares o, alternativamente, ventanas superpuestas de coseno .
Tome los logaritmos de las potencias en cada una de las frecuencias mel.
Tome la transformada de coseno discreta de la lista de potencias de registro de mel, como si fuera una señal.
Los MFCC son las amplitudes del espectro resultante.

Puede haber variaciones en este proceso, por ejemplo: diferencias en la forma o el espaciado de las ventanas utilizadas para mapear la escala, ^[4] o adición de características dinámicas como coeficientes "delta" y "delta-delta" (diferencia cuadro a cuadro de primer y segundo orden). ^[5]

A principios de la década de 2000, el Instituto Europeo de Normas de Telecomunicaciones definió un algoritmo MFCC estandarizado para su uso en teléfonos móviles . ^[6]

Aplicaciones

Los MFCC se utilizan comúnmente como funciones en sistemas de reconocimiento de voz ^[7] , como los sistemas que pueden reconocer automáticamente números pronunciados en un teléfono.

Los MFCC también se utilizan cada vez más en aplicaciones de recuperación de información musical, como clasificación de géneros , medidas de similitud de audio, etc. ^[8]

MFCC para reconocimiento de oradores

Dado que las bandas de frecuencia Mel se distribuyen uniformemente en MFCC y son muy similares al sistema de voz de un ser humano, MFCC se puede utilizar de manera eficiente para caracterizar a los hablantes. Por ejemplo, se puede utilizar para reconocer los detalles del modelo de teléfono celular del hablante y profundizar en los detalles del hablante. ^[4]

Este tipo de reconocimiento de dispositivos móviles es posible porque la producción de componentes electrónicos en un teléfono tiene tolerancias, porque las diferentes realizaciones de circuitos electrónicos no tienen exactamente las mismas funciones de transferencia . Las diferencias en la función de transferencia de una realización a otra se vuelven más prominentes si los circuitos que realizan tareas son de diferentes fabricantes. Por lo tanto, cada teléfono celular introduce una distorsión convolucional en el habla de entrada que deja su impacto único en las grabaciones del teléfono celular. Por lo tanto, un teléfono particular puede identificarse a partir del habla grabada multiplicando el espectro de frecuencia original con otras multiplicaciones de funciones de transferencia específicas para cada teléfono seguidas de técnicas de procesamiento de señales. Por lo tanto, al usar MFCC se pueden caracterizar las grabaciones de teléfonos celulares para identificar la marca y el modelo del teléfono. ^[5]

Considerando la sección de grabación de un teléfono celular como filtro lineal invariante en el tiempo ( LTI ):

Respuesta al impulso: h(n) , señal de voz grabada y(n) como salida del filtro en respuesta a la entrada x(n).

Por lo tanto, (convolución) $y(n)=x(n)*h(n)$

Como el habla no es una señal estacionaria, se divide en cuadros superpuestos dentro de los cuales se supone que la señal es estacionaria. Por lo tanto, el segmento (cuadro) de corto plazo del habla de entrada grabada es: $p^{th}$

y_{p}w(n)=[x(n)w(pW-n)]*h(n)

donde w(n) : función con ventana de longitud W.

Por lo tanto, como se especifica, la huella del teléfono móvil del habla grabada es la distorsión de convolución que ayuda a identificar el teléfono que graba.

La identidad incorporada del teléfono celular requiere una conversión a una forma mejor identificable, por lo tanto, se toma la transformada de Fourier de tiempo corto:

Y_{p}w(f)=X_{p}w(f)H(f)

$H(f)$ Puede considerarse como una función de transferencia concatenada que produce voz de entrada, y la voz grabada puede percibirse como voz original del teléfono celular. $Y_{p}w(f)$

Por lo tanto, la función de transferencia equivalente del tracto vocal y la grabadora del teléfono celular se considera como la fuente original del habla grabada.

X_{p}w(f)=Xe_{p}w(f)X_{v}(f),H'(f)=H(f)X_{v}(f),

donde Xew(f) es la función de excitación, es la función de transferencia del tracto vocal para el habla en el marco y es la función de transferencia equivalente que caracteriza al teléfono celular. $X_{v}(f)$ $p^{th}$ $H'(f)$

Y_{p}w(f)=Xe_{p}w(f)H'(f)

Este enfoque puede ser útil para el reconocimiento de hablantes, ya que la identificación del dispositivo y la identificación del hablante están muy conectadas.

Dando importancia a la envolvente del espectro que se multiplica por el banco de filtros (cepstrum adecuado con banco de filtros de escala mel), después de suavizar el banco de filtros con la función de transferencia U(f), la operación logarítmica sobre las energías de salida son:

\log[|Y_{p}w(f)|]=\log[|U(f)||Xe_{p}w(f)||H'(f)|]

Representando $H_{w}(f)=U(f)H'(f)$

\log[|Y_{p}w(f)|]=\log[|Xe_{p}w(f)|]+\log[|H_{w}(f)|]

MFCC tiene éxito gracias a esta transformación no lineal con propiedad aditiva.

Transformando de nuevo al dominio del tiempo:

c_{y}(j)=c_{e}(j)+c_{w}(j)

donde, cy(j), ce(j), cw(j) son el cepstrum del habla grabada y la respuesta al impulso equivalente ponderada de la grabadora del teléfono celular que caracteriza al teléfono celular, respectivamente, mientras que j es el número de filtros en el banco de filtros.

Más precisamente, la información específica del dispositivo está en el habla grabada que se convierte a una forma aditiva adecuada para la identificación.

cy(j) se puede procesar aún más para identificar el teléfono que grabó.

Las longitudes de trama más utilizadas son 20 o 20 ms.

Funciones de ventana comúnmente utilizadas: ventanas Hamming y Hanning.

Por lo tanto, la escala Mel es una escala de frecuencia comúnmente utilizada que es lineal hasta 1000 Hz y logarítmica por encima de ella.

Cálculo de frecuencias centrales de filtros en escala Mel:

f_{mel}=1000\log(1+f/1000)/\log 2

, base 10.

Procedimiento básico para el cálculo del MFCC:

Las salidas del banco de filtros logarítmicos se producen y multiplican por 20 para obtener envolventes espectrales en decibeles.
Los MFCC se obtienen tomando la Transformada Discreta del Coseno (DCT) de la envolvente espectral.
Los coeficientes de cepstrum se obtienen como:

$c_{i}=\sum _{n=1}^{N_{f}}S_{n}\cos \left(i(n-0.5)\left({\frac {\pi }{N_{f}}}\right)\right)$ , , $i=1,\dots ,L$

donde corresponde al -ésimo coeficiente MFCC, es el número de filtros triangulares en el banco de filtros, es la salida de energía logarítmica del -ésimo coeficiente de filtro y es el número de coeficientes MFCC que queremos calcular. $c_{i}=c_{y}(i)$ $i$ $N_{f}$ $S_{n}$ $n$ $L$

Inversión

Un MFCC se puede invertir aproximadamente a audio en cuatro pasos: (a1) DCT inversa para obtener un espectrograma de potencia logarítmica de mel [dB], (a2) mapeo a potencia para obtener un espectrograma de potencia de mel, (b1) reescalado para obtener magnitudes de transformada de Fourier de tiempo corto y, finalmente, (b2) reconstrucción de fase y síntesis de audio utilizando Griffin-Lim. Cada paso corresponde a un paso en el cálculo MFCC. ^[9]

Sensibilidad al ruido

Los valores MFCC no son muy robustos en presencia de ruido aditivo, por lo que es común normalizar sus valores en los sistemas de reconocimiento de voz para disminuir la influencia del ruido. Algunos investigadores proponen modificaciones al algoritmo MFCC básico para mejorar la robustez, como por ejemplo elevando las amplitudes log-mel a una potencia adecuada (alrededor de 2 o 3) antes de tomar la transformada discreta del coseno (DCT), que reduce la influencia de los componentes de baja energía. ^[10]

Historia

Generalmente se le atribuye a Paul Mermelstein ^[11]^[12] el desarrollo del MFC. Mermelstein atribuye la idea a Bridle y Brown ^{[13] :}

Bridle y Brown utilizaron un conjunto de 19 coeficientes ponderados de forma espectral dados por la transformada del coseno de las salidas de un conjunto de filtros de paso de banda no uniformemente espaciados. El espaciado de los filtros se elige como logarítmico por encima de 1 kHz y los anchos de banda de los filtros también se incrementan allí. Por lo tanto, los llamaremos parámetros cepstrales basados en mel. ^[11]

A veces se citan a ambos autores originales. ^[14]

Muchos autores, incluidos Davis y Mermelstein, ^[12] han comentado que las funciones de base espectral de la transformada del coseno en la MFC son muy similares a los componentes principales de los espectros logarítmicos, que Pols y sus colegas aplicaron a la representación y reconocimiento del habla mucho antes. ^[15]^[16]

Véase también

Referencias

^ Min Xu; et al. (2004). "Generación de palabras clave de audio basada en HMM" (PDF) . En Kiyoharu Aizawa; Yuichi Nakamura; Shin'ichi Satoh (eds.). Avances en el procesamiento de información multimedia – PCM 2004: 5.ª Conferencia de la Cuenca del Pacífico sobre multimedia . Springer. ISBN 978-3-540-23985-7. Archivado desde el original (PDF) el 10 de mayo de 2007.
^ Sahidullah, Md.; Saha, Goutam (mayo de 2012). "Diseño, análisis y evaluación experimental de la transformación basada en bloques en el cálculo MFCC para el reconocimiento de hablantes". Speech Communication . 54 (4): 543–565. doi :10.1016/j.specom.2011.11.004. S2CID 14985832.
^ Abdulsatar, Assim Ara; Davydov, VV; Yushkova, VV; Glinushkin, AP; Rud, V Yu (1 de diciembre de 2019). "Reconocimiento de edad y género a partir de señales de habla". Journal of Physics: Conference Series . 1410 (1): 012073. Bibcode :2019JPhCS1410a2073A. doi : 10.1088/1742-6596/1410/1/012073 . ISSN 1742-6588. S2CID 213065622.
^ ab Fang Zheng, Guoliang Zhang y Zhanjiang Song (2001), "Comparación de diferentes implementaciones de MFCC", J. Computer Science & Technology, 16(6): 582–589.
^ ab S. Furui (1986), "Reconocimiento de palabras aisladas independiente del hablante basado en dinámica espectral enfatizada"
^ Instituto Europeo de Normas de Telecomunicaciones (2003), Procesamiento, transmisión y aspectos de calidad del habla (STQ); Reconocimiento de voz distribuido; Algoritmo de extracción de características del front-end; Algoritmos de compresión. Norma técnica ES 201 108, v1.1.3.
^ T. Ganchev, N. Fakotakis y G. Kokkinakis (2005), "Evaluación comparativa de varias implementaciones de MFCC en la tarea de verificación del hablante Archivado el 17 de julio de 2011 en Wayback Machine ", en la 10.ª Conferencia internacional sobre habla y computación (SPECOM 2005), vol. 1, págs. 191-194.
^ Meinard Müller (2007). Recuperación de información para música y movimiento. Springer. pág. 65. ISBN 978-3-540-74047-6.
^ "librosa.feature.inverse.mfcc_to_audio - documentación de librosa 0.10.0". librosa.org .
^ V. Tyagi y C. Wellekens (2005), Sobre la desensibilización del Mel-Cepstrum a componentes espectrales espurios para el reconocimiento robusto del habla, en Acústica, habla y procesamiento de señales, 2005. Actas. (ICASSP '05). IEEE International Conference on, vol. 1, págs. 529–532.
^ ab P. Mermelstein (1976), "Medidas de distancia para el reconocimiento de voz, psicológicas e instrumentales", en Reconocimiento de patrones e inteligencia artificial, CH Chen, Ed., págs. 374-388. Academic, Nueva York.
^ ab SB Davis y P. Mermelstein (1980), "Comparación de representaciones paramétricas para el reconocimiento de palabras monosilábicas en oraciones habladas continuamente", en IEEE Transactions on Acoustics, Speech, and Signal Processing , 28(4), págs. 357–366.
^ JS Bridle y MD Brown (1974), "Un sistema experimental de reconocimiento automático de palabras", Informe JSRU No. 1003, Unidad Conjunta de Investigación del Habla, Ruislip, Inglaterra.
^ Nelson Morgan ; Hervé Bourlard y Hynek Hermansky (2004). "Reconocimiento automático del habla: una perspectiva auditiva". En Steven Greenberg y William A. Ainsworth (eds.). Procesamiento del habla en el sistema auditivo . Springer. pág. 315. ISBN 978-0-387-00590-4.
^ LCW Pols (1966), "Análisis espectral e identificación de vocales holandesas en palabras monosilábicas", tesis doctoral, Universidad Libre, Ámsterdam, Países Bajos
^ R. Plomp, LCW Pols y JP van de Geer (1967). "Análisis dimensional de espectros vocálicos". J. Acoustical Society of America, 41(3):707–712.

Enlaces externos

Códigos MATLAB para MFCC y otras funciones de voz
Un tutorial sobre MFCC para el reconocimiento automático de voz