Cepstrum de frecuencia Mel

En el procesamiento de sonido , el cepstrum de frecuencia mel ( MFC ) es una representación del espectro de potencia a corto plazo de un sonido, basado en una transformada coseno lineal de un espectro de potencia logarítmico en una escala de frecuencia mel no lineal .

Los coeficientes cepstrales de frecuencia de fusión ( MFCC ) son coeficientes que colectivamente forman un MFC. ^[1] Se derivan de un tipo de representación cepstral del clip de audio (un "espectro de un espectro" no lineal). La diferencia entre el cepstrum y el cepstrum de frecuencia mel es que en el MFC, las bandas de frecuencia están igualmente espaciadas en la escala mel, que se aproxima más a la respuesta del sistema auditivo humano que las bandas de frecuencia espaciadas linealmente utilizadas en el espectro normal. Esta deformación de frecuencia puede permitir una mejor representación del sonido, por ejemplo, en la compresión de audio , lo que podría reducir potencialmente el ancho de banda de transmisión y los requisitos de almacenamiento de las señales de audio.

Los MFCC se derivan comúnmente de la siguiente manera: ^[2]^[3]

Tome la transformada de Fourier de (un extracto en ventana de) una señal.
Asigne las potencias del espectro obtenido anteriormente a la escala mel , utilizando ventanas superpuestas triangulares o, alternativamente, ventanas superpuestas de cosenos .
Tome los registros de las potencias en cada una de las frecuencias mel.
Tome la transformada discreta del coseno de la lista de potencias logarítmicas de mel, como si fuera una señal.
Los MFCC son las amplitudes del espectro resultante.

Puede haber variaciones en este proceso, por ejemplo: diferencias en la forma o el espaciado de las ventanas utilizadas para mapear la escala, ^[4] o adición de características dinámicas como "delta" y "delta-delta" (primera y segunda -orden de diferencia cuadro a cuadro) coeficientes. ^[5]

El Instituto Europeo de Normas de Telecomunicaciones definió a principios de la década de 2000 un algoritmo MFCC estandarizado para su uso en teléfonos móviles . ^[6]

Aplicaciones

Los MFCC se utilizan comúnmente como funciones en los sistemas de reconocimiento de voz ^[7] , como los sistemas que pueden reconocer automáticamente los números hablados en un teléfono.

Los MFCC también encuentran cada vez más usos en aplicaciones de recuperación de información musical , como clasificación de géneros , medidas de similitud de audio, etc. ^[8]

MFCC para reconocimiento de oradores

Dado que las bandas de frecuencia Mel se distribuyen uniformemente en MFCC y son muy similares al sistema de voz de un ser humano, MFCC se puede utilizar de manera eficiente para caracterizar a los hablantes. Por ejemplo, se puede utilizar para reconocer los detalles del modelo de teléfono celular del hablante y ampliar los detalles del hablante. ^[4]

Este tipo de reconocimiento de dispositivos móviles es posible porque la producción de componentes electrónicos en un teléfono tiene tolerancias, porque diferentes realizaciones de circuitos electrónicos no tienen exactamente las mismas funciones de transferencia . Las diferencias en la función de transferencia de una realización a otra se vuelven más prominentes si los circuitos que realizan la tarea son de diferentes fabricantes. Por lo tanto, cada teléfono celular introduce una distorsión convolucional en el habla de entrada que deja su impacto único en las grabaciones del teléfono celular. Por lo tanto, se puede identificar un teléfono en particular a partir de la voz grabada multiplicando el espectro de frecuencia original con multiplicaciones adicionales de funciones de transferencia específicas de cada teléfono seguidas de técnicas de procesamiento de señales. Así, al utilizar MFCC se pueden caracterizar las grabaciones de teléfonos móviles para identificar la marca y el modelo del teléfono. ^[5]

Considerando la sección de grabación de un teléfono celular como filtro lineal invariante en el tiempo ( LTI ):

Respuesta de impulso: h(n) , señal de voz grabada y(n) como salida del filtro en respuesta a la entrada x(n).

Por tanto, (convolución) $y(n)=x(n)*h(n)$

Como la voz no es una señal estacionaria, se divide en tramas superpuestas dentro de las cuales se supone que la señal es estacionaria. Entonces, el segmento de corta duración (cuadro) del habla de entrada grabada es: $p^{th}$

y_{p}w(n)=[x(n)w(pW-n)]*h(n)

donde w(n) : función en ventana de longitud W.

Por lo tanto, como se especifica, la huella del teléfono móvil de la voz grabada es la distorsión de convolución que ayuda a identificar el teléfono que graba.

La identidad incorporada del teléfono celular requiere una conversión a una forma mejor identificable, por lo tanto, se toma la transformada de Fourier de corto tiempo:

Y_{p}w(f)=X_{p}w(f)H(f)

$H(f)$ puede considerarse como una función de transferencia concatenada que produce voz de entrada, y la voz grabada puede percibirse como voz original del teléfono celular. $Y_{p}w(f)$

Por tanto, la función de transferencia equivalente del tracto vocal y la grabadora de un teléfono móvil se considera la fuente original del habla grabada. Por lo tanto,

X_{p}w(f)=Xe_{p}w(f)X_{v}(f),H'(f)=H(f)X_{v}(f),

donde Xew(f) es la función de excitación, es la función de transferencia del tracto vocal para el habla en el cuadro y es la función de transferencia equivalente que caracteriza al teléfono celular. $X_{v}(f)$ $p^{th}$ $H'(f)$

Y_{p}w(f)=Xe_{p}w(f)H'(f)

Este enfoque puede resultar útil para el reconocimiento del hablante, ya que la identificación del dispositivo y la identificación del hablante están muy conectadas.

Dando importancia a la envolvente del espectro que se multiplica por el banco de filtros (cepstrum adecuado con banco de filtros mel-scale), después de suavizar el banco de filtros con la función de transferencia U(f), la operación logarítmica de las energías de salida es:

\log[|Y_{p}w(f)|]=\log[|U(f)||Xe_{p}w(f)||H'(f)|]

Representando $H_{w}(f)=U(f)H'(f)$

\log[|Y_{p}w(f)|]=\log[|Xe_{p}w(f)|]+\log[|H_{w}(f)|]

MFCC tiene éxito debido a esta transformación no lineal con propiedad aditiva.

Transformando de nuevo al dominio del tiempo:

c_{y}(j)=c_{e}(j)+c_{w}(j)

donde, cy(j), ce(j), cw(j) son el cepstrum del habla grabada y la respuesta de impulso equivalente ponderada de la grabadora del teléfono celular que caracteriza al teléfono celular, respectivamente, mientras que j es el número de filtros en el banco de filtros.

Más precisamente, la información específica del dispositivo está en el habla grabada que se convierte a una forma aditiva adecuada para la identificación.

cy(j) se puede procesar aún más para identificar el teléfono de grabación.

Longitudes de cuadro de uso frecuente: 20 o 20 ms.

Funciones de ventana de uso común: ventanas Hamming y Hanning.

Por lo tanto, la escala Mel es una escala de frecuencia comúnmente utilizada que es lineal hasta 1000 Hz y logarítmica por encima de ella.

Cálculo de frecuencias centrales de filtros en escala Mel:

f_{mel}=1000\log(1+f/1000)/\log 2

, base 10.

Procedimiento básico para el cálculo de MFCC:

Las salidas del banco de filtros logarítmicos se producen y se multiplican por 20 para obtener envolventes espectrales en decibeles.
Los MFCC se obtienen tomando la transformada de coseno discreta (DCT) de la envolvente espectral.
Los coeficientes de Cepstrum se obtienen como:

$ci=\sum _{n=1}^{Nf}{Sn}\cos \left(i(n-0.5)\left({\frac {\pi }{Nf}}\right)\right)$ , yo = 1,2,....,L ,

donde c _i = c _y (i) = i-ésimo coeficiente MFCC, N _f es el número de filtros triangulares en el banco de filtros, Sn es la salida de energía logarítmica del enésimo coeficiente de filtro y L es el número de coeficientes MFCC que queremos calcular .

inversión

Un MFCC se puede invertir aproximadamente a audio en cuatro pasos: (a1) DCT inverso para obtener un espectrograma de potencia logarítmica de fusión [dB], (a2) mapeo a potencia para obtener un espectrograma de potencia de fusión, (b1) reescalado para obtener tiempo, magnitudes de transformada de Fourier, y finalmente (b2) reconstrucción de fase y síntesis de audio usando Griffin-Lim. Cada paso corresponde a un paso en el cálculo de MFCC. ^[9]

Sensibilidad al ruido

Los valores de MFCC no son muy robustos en presencia de ruido aditivo, por lo que es común normalizar sus valores en los sistemas de reconocimiento de voz para disminuir la influencia del ruido. Algunos investigadores proponen modificaciones al algoritmo básico de MFCC para mejorar la robustez, como por ejemplo elevando las amplitudes log-mel a una potencia adecuada (alrededor de 2 o 3) antes de tomar la transformada discreta del coseno (DCT), que reduce la influencia de los valores bajos. componentes energéticos. ^[10]

Historia

A Paul Mermelstein ^[11]^[12] se le atribuye típicamente el desarrollo del MFC. Mermelstein le da crédito a Bridle y Brown ^[13] por la idea:

Bridle y Brown utilizaron un conjunto de 19 coeficientes ponderados de forma del espectro dados por la transformada del coseno de las salidas de un conjunto de filtros de paso de banda espaciados no uniformemente. La separación entre filtros se elige para que sea logarítmica por encima de 1 kHz y los anchos de banda de los filtros también aumentan allí. Por lo tanto, los llamaremos parámetros cepstrales basados en mel. ^[11]

A veces se citan ambos autores iniciales. ^[14]

Muchos autores, incluidos Davis y Mermelstein, ^[12] han comentado que las funciones de base espectral de la transformada del coseno en el MFC son muy similares a los componentes principales de los espectros logarítmicos, que fueron aplicados a la representación y reconocimiento del habla mucho antes por Pols y sus colegas. ^[15]^[16]

Ver también

Referencias

^ Min Xu; et al. (2004). "Generación de palabras clave de audio basada en HMM" (PDF) . En Kiyoharu Aizawa; Yuichi Nakamura; Shin'ichi Satoh (eds.). Avances en el procesamiento de información multimedia - PCM 2004: Quinta Conferencia de la Cuenca del Pacífico sobre multimedia . Saltador. ISBN 978-3-540-23985-7. Archivado desde el original (PDF) el 10 de mayo de 2007.
^ Sahidullah, Maryland; Saha, Goutam (mayo de 2012). "Diseño, análisis y evaluación experimental de transformación basada en bloques en cálculo MFCC para el reconocimiento de hablantes". Comunicación del habla . 54 (4): 543–565. doi : 10.1016/j.specom.2011.11.004. S2CID 14985832.
^ Abdulsatar, Assim Ara; Davydov, VV; Yushkova, VV; Glinushkin, AP; Rud, V Yu (1 de diciembre de 2019). "Reconocimiento de edad y género a partir de señales de voz". Revista de Física: Serie de conferencias . 1410 (1): 012073. Código bibliográfico : 2019JPhCS1410a2073A. doi : 10.1088/1742-6596/1410/1/012073 . ISSN 1742-6588. S2CID 213065622.
^ ab Fang Zheng, Guoliang Zhang y Zhanjiang Song (2001), "Comparación de diferentes implementaciones de MFCC", J. Computer Science & Technology, 16 (6): 582–589.
^ ab S. Furui (1986), "Reconocimiento de palabras aisladas independiente del hablante basado en dinámica espectral enfatizada"
^ Instituto Europeo de Normas de Telecomunicaciones (2003), Aspectos de calidad, transmisión y procesamiento del habla (STQ); Reconocimiento de voz distribuido; Algoritmo de extracción de características de front-end; Algoritmos de compresión. Norma técnica ES 201 108, v1.1.3.
^ T. Ganchev, N. Fakotakis y G. Kokkinakis (2005), "Evaluación comparativa de varias implementaciones de MFCC en la tarea de verificación del hablante Archivado el 17 de julio de 2011 en Wayback Machine ", en la Décima Conferencia Internacional sobre el Habla y la Computación ( SPECOM 2005), vol. 1, págs. 191-194.
^ Meinard Muller (2007). Recuperación de información para música y movimiento. Saltador. pag. 65.ISBN 978-3-540-74047-6.
^ "librosa.feature.inverse.mfcc_to_audio - documentación de librosa 0.10.0". librosa.org .
^ V. Tyagi y C. Wellekens (2005), Sobre la desensibilización del Mel-Cepstrum a componentes espectrales espurios para un reconocimiento robusto del habla, en Acústica, habla y procesamiento de señales, 2005. Actas. (ICASP '05). Conferencia internacional IEEE sobre, vol. 1, págs. 529–532.
^ ab P. Mermelstein (1976), "Medidas de distancia para el reconocimiento del habla, psicológicas e instrumentales", en Reconocimiento de patrones e inteligencia artificial , CH Chen, Ed., págs. Académico, Nueva York.
^ ab SB Davis y P. Mermelstein (1980), "Comparación de representaciones paramétricas para el reconocimiento de palabras monosilábicas en oraciones habladas continuamente", en IEEE Transactions on Acoustics, Speech, and Signal Processing , 28 (4), págs. .
^ JS Bridle y MD Brown (1974), "Un sistema experimental de reconocimiento automático de palabras", Informe JSRU No. 1003, Unidad Conjunta de Investigación del Habla, Ruislip, Inglaterra.
^ Nelson Morgan ; Hervé Bourlard y Hynek Hermansky (2004). "Reconocimiento automático de voz: una perspectiva auditiva". En Steven Greenberg y William A. Ainsworth (eds.). Procesamiento del habla en el sistema auditivo . Saltador. pag. 315.ISBN 978-0-387-00590-4.
^ LCW Pols (1966), "Análisis espectral e identificación de vocales holandesas en palabras monosilábicas", tesis doctoral, Universidad Libre, Ámsterdam, Países Bajos
^ R. Plomp, LCW Pols y JP van de Geer (1967). "Análisis dimensional de espectros vocales". J. Sociedad Acústica de América, 41(3):707–712.

enlaces externos

Códigos MATLAB para MFCC y otras funciones de voz
Un tutorial sobre MFCC para el reconocimiento automático de voz