Escala de Mel

A440 Reproducir ^ⓘ . 440 Hz = 549,64 mels

La escala mel (de la palabra melodía ) ^[1] es una escala perceptual de tonos que los oyentes consideran que están separados por una distancia igual. El punto de referencia entre esta escala y la medición de frecuencia normal se define asignando un tono perceptual de 1000 mels a un tono de 1000 Hz , 40 dB por encima del umbral del oyente. Por encima de unos 500 Hz, los oyentes consideran que los intervalos cada vez más grandes producen incrementos de tono iguales.

Fórmula

Una fórmula (O'Shaughnessy 1987) para convertir f hertz en m mels es ^[2] $m=2595\log _{10}\left(1+{\frac {f}{700}}\right).$

Escala Mel de 200 a 1500, en intervalos de 50

Historia y otras fórmulas

La fórmula del libro de O'Shaughnessy se puede expresar con diferentes bases logarítmicas: $m=2595\log _{10}\left(1+{\frac {f}{700}}\right)=1127\ln \left(1+{\frac {f}{700}}\right).$

Las expresiones inversas correspondientes son $f=700\left(10^{\frac {m}{2595}}-1\right)=700\left(e^{\frac {m}{1127}}-1\right).$

^{Desde las curvas de Steinberg de 1937 [3],} basadas en diferencias de tono apenas perceptibles, se han publicado curvas y tablas sobre escalas de tono psicofísicas . Pronto se publicaron más curvas en los artículos de Fletcher y Munson de 1937 ^[4] y Fletcher de 1938 ^[5] y Stevens de 1937 ^[1] y Stevens y Volkmann de 1940 ^[6], que utilizan una variedad de métodos experimentales y enfoques de análisis.

En 1949 Koenig publicó una aproximación basada en segmentos lineales y logarítmicos separados, con una ruptura a 1000 Hz. ^[7]

Gunnar Fant propuso la fórmula lineal/logarítmica popular actual en 1949, pero con la frecuencia de esquina de 1000 Hz. ^[8]

Una expresión alternativa de la fórmula, que no depende de la elección de la base del logaritmo, se señala en Fant (1968): ^[9]^[10] $m={\frac {1000}{\log 2}}\log \left(1+{\frac {f}{1000}}\right).$

En 1976, Makhoul y Cosell publicaron la ahora popular versión con la frecuencia de esquina de 700 Hz. ^[11] Como han observado Ganchev et al., "Las fórmulas [con 700], en comparación con [la de Fant con 1000], proporcionan una aproximación más cercana de la escala de Mel para frecuencias inferiores a 1000 Hz, al precio de una mayor inexactitud para frecuencias superiores a 1000 Hz". ^[12] Sin embargo, por encima de 7 kHz, la situación se invierte y la versión de 700 Hz vuelve a ajustarse mejor.

Los datos que motivan algunas de estas fórmulas están tabulados en Beranek (1949), medidos a partir de las curvas de Stevens y Volkmann: ^[13]

Lindsay y Norman (1977) dan una fórmula con una frecuencia de ruptura de 625 Hz; ^[14] la fórmula no aparece en su primera edición de 1972: $m=2410\log _{10}(0.0016f+1).$

Para comparación directa con otras fórmulas, esto es equivalente a $m=2410\log _{10}\left(1+{\frac {f}{625}}\right).$

La mayoría de las fórmulas de escala de mel dan exactamente 1000 mels a 1000 Hz. La frecuencia de corte (por ejemplo, 700 Hz, 1000 Hz o 625 Hz) es el único parámetro libre en la forma habitual de la fórmula. Algunas fórmulas de escala de frecuencia auditiva que no son de escala de mel utilizan la misma forma, pero con una frecuencia de corte mucho menor, que no necesariamente se corresponde con 1000 a 1000 Hz; por ejemplo, la escala de frecuencia ERB de Glasberg y Moore (1990) utiliza un punto de corte de 228,8 Hz ^[15] , y el mapa de frecuencia-lugar coclear de Greenwood (1990) utiliza 165,3 Hz ^{[16] .}

Umesh et al. han explorado otras formas funcionales para la escala mel; señalan que las fórmulas tradicionales con una región logarítmica y una región lineal no se ajustan a los datos de las curvas de Stevens y Volkmann tan bien como algunas otras formas, basándose en la siguiente tabla de datos de mediciones que realizaron a partir de esas curvas: ^[17]

La caja de herramientas auditoria MATLAB de Slaney concuerda con Umesh et al. y utiliza el siguiente ajuste de dos piezas, aunque notablemente no utiliza la convención "1000 mels a 1000 Hz": ^[18] $m(f)={\begin{cases}{\dfrac {3f}{200}},&f<1000,\\15+27\log _{6.4}\left({\dfrac {f}{1000}}\right),&f\geq 1000.\end{cases}}$

Aplicaciones

La primera versión del códec Lyra de Google utiliza espectrogramas log-mel como paso de extracción de características. Los datos transmitidos son una forma cuantificada vectorial del espectrograma, que luego se sintetiza nuevamente en voz mediante una red neuronal. Se cree que el uso de la escala mel pondera los datos de una manera apropiada para la percepción humana. ^[19] MelGAN adopta un enfoque similar. ^[20]

Crítica

Donald D. Greenwood, alumno de Stevens que había trabajado en los experimentos de la escala mel en 1956, considera que la escala está sesgada por defectos experimentales. En 2009, publicó en una lista de correo: ^[21]

Me gustaría preguntar por qué utilizar ahora la escala Mel, si parece estar sesgada. Si alguien quiere una escala Mel, debería volver a utilizarla, controlando cuidadosamente el sesgo de orden y utilizando muchos sujetos (más que en el pasado) y utilizando tanto a músicos como a no músicos para buscar diferencias en la interpretación que puedan estar regidas por diferencias entre músicos y no músicos o por diferencias entre sujetos en general.

Véase también

Referencias

^ ab Stevens, Stanley Smith; Volkmann; John; Newman, Edwin B. (1937). "Una escala para la medición de la magnitud psicológica del tono". Revista de la Sociedad Acústica de América . 8 (3): 185–190. Código Bibliográfico :1937ASAJ....8..185S. doi :10.1121/1.1915893. Archivado desde el original el 14 de abril de 2013.
^ Douglas O'Shaughnessy (1987). Comunicación oral: humanos y máquinas. Addison-Wesley. pág. 150. ISBN 978-0-201-16520-3.
^ John C. Steinberg (1937). "Posiciones de estimulación en la cóclea por tonos puros". Revista de la Sociedad Acústica de América . 8 (3): 176–180. Bibcode :1937ASAJ....8..176S. doi :10.1121/1.1915891.
^ Harvey Fletcher; WA Munson (1937). "Relación entre sonoridad y enmascaramiento". Revista de la Sociedad Acústica de América . 9 (1): 1–10. Código Bibliográfico :1937ASAJ....9....1F. doi :10.1121/1.1915904.
^ Harvey Fletcher (1938). "Loudness, Masking and Their Relation to the Hearing Process and the Problem of Noise Measurement" (Volumen, enmascaramiento y su relación con el proceso auditivo y el problema de la medición del ruido). Journal of the Acoustical Society of America . 9 (4): 275–293. Bibcode :1938ASAJ....9..275F. doi :10.1121/1.1915935.
^ Stevens, S.; Volkmann, J. (1940). "La relación entre el tono y la frecuencia: una escala revisada". Revista estadounidense de psicología . 53 (3): 329–353. doi :10.2307/1417526. JSTOR 1417526.
^ W. Koenig (1949). "Una nueva escala de frecuencia para mediciones acústicas". Bell Telephone Laboratory Record . 27 : 299–301.
^ Gunnar Fant (1949) "Analys av de svenska konsonantljuden: talets allmänna svängningsstruktur", protocolo LM Ericsson H/P 1064.
^ Fant, Gunnar. (1968). Análisis y síntesis de los procesos del habla. En B. Malmberg (ed.), Manual de fonética (pp. 173-177). Ámsterdam: Holanda Septentrional.
^ Jonathan Harrington; Steve Cassidy (1999). Técnicas de acústica del habla. Springer. pág. 18. ISBN 978-0-7923-5731-5.
^ John Makhoul ; Lynn Cosell (1976). "LPCW: Un vocoder LPC con deformación espectral predictiva lineal". ICASSP '76. IEEE International Conference on Acoustics, Speech, and Signal Processing . Vol. 1. IEEE. págs. 466–469. doi :10.1109/ICASSP.1976.1170013.
^ T. Ganchev; N. Fakotakis; G. Kokkinakis (2005), "Evaluación comparativa de varias implementaciones de MFCC en la tarea de verificación de hablantes", Actas del SPECOM-2005 , págs. 191-194, CiteSeerX 10.1.1.75.8303
^ Beranek, Leo L. (1949). Mediciones acústicas . Nueva York: McGraw-Hill.
^ Lindsay, Peter H.; y Norman, Donald A. (1977). Procesamiento de la información humana: Introducción a la psicología (2.ª ed.). Nueva York: Academic Press.
^ BCJ Moore y BR Glasberg, "Fórmulas sugeridas para calcular los anchos de banda de los filtros auditivos y los patrones de excitación", Journal of the Acoustical Society of America 74: 750–753, 1983.
^ Greenwood, DD (1990). Una función de frecuencia-posición coclear para varias especies, 29 años después. The Journal of the Acoustical Society of America , 87, 2592–2605.
^ Umesh, S.; Cohen, L.; Nelson, D. (1999). Ajuste de la escala mel. Proc. ICASSP 1999. págs. 217–220. doi :10.1109/ICASSP.1999.758101. ISBN 978-0-7803-5041-0.
^ Slaney, M. Auditory Toolbox: A MATLAB Toolbox for Auditory Modeling Work. Informe técnico, versión 2, Interval Research Corporation, 1998., traducido a Python en librosa (documentación de librosa).
^ "Lyra: un nuevo códec de muy baja tasa de bits para la compresión de voz". ai.googleblog.com . 25 de febrero de 2021.Véase también: arXiv :2102.11906, arXiv :2102.09660.
^ Kumar, Kundan; Kumar, Rithesh; de Boissiere, Thibault; Gestin, Lucas; Teoh, Wei Zhen; Sotelo, Jose; de Brebisson, Alexandre; Bengio, Yoshua; Courville, Aaron (8 de diciembre de 2019). "MelGAN: redes generativas adversarias para síntesis de formas de onda condicionales". Actas de la 33.ª Conferencia internacional sobre sistemas de procesamiento de información neuronal . Curran Associates Inc.: 14910–14921.
^ "Copia archivada". Archivado desde el original el 8 de febrero de 2013. Consultado el 12 de diciembre de 2012 .{{cite web}}: CS1 maint: archived copy as title (link)

Enlaces externos

Medios relacionados con la escala Mel en Wikimedia Commons
Volkmann, J; Stevens, SS; Newman, EB (1937). "Una escala para la medición de la magnitud psicológica del tono". Revista de la Sociedad Acústica de América . 8 (3): 208. Bibcode :1937ASAJ....8..208V. doi : 10.1121/1.1901999 .
Manual de ecología acústica