Una fórmula (O'Shaughnessy 1987) para convertir f hertz en m mels es [2]
Historia y otras fórmulas
La fórmula del libro de O'Shaughnessy se puede expresar con diferentes bases logarítmicas:
Las expresiones inversas correspondientes son
Desde las curvas de Steinberg de 1937 [3],
basadas en diferencias de tono apenas perceptibles, se han publicado curvas y tablas sobre escalas de tono psicofísicas . Pronto se publicaron más curvas en los artículos de Fletcher y Munson de 1937 [4]
y Fletcher de 1938 [5]
y Stevens de 1937 [1] y Stevens y Volkmann de 1940 [6],
que utilizan una variedad de métodos experimentales y enfoques de análisis.
En 1949 Koenig publicó una aproximación basada en segmentos lineales y logarítmicos separados, con una ruptura a 1000 Hz. [7]
Gunnar Fant propuso la fórmula lineal/logarítmica popular actual en 1949, pero con la frecuencia de esquina de 1000 Hz. [8]
Una expresión alternativa de la fórmula, que no depende de la elección de la base del logaritmo, se señala en Fant (1968): [9] [10]
En 1976, Makhoul y Cosell publicaron la ahora popular versión con la frecuencia de esquina de 700 Hz. [11]
Como han observado Ganchev et al., "Las fórmulas [con 700], en comparación con [la de Fant con 1000], proporcionan una aproximación más cercana de la escala de Mel para frecuencias inferiores a 1000 Hz, al precio de una mayor inexactitud para frecuencias superiores a 1000 Hz". [12] Sin embargo, por encima de 7 kHz, la situación se invierte y la versión de 700 Hz vuelve a ajustarse mejor.
Los datos que motivan algunas de estas fórmulas están tabulados en Beranek (1949), medidos a partir de las curvas de Stevens y Volkmann: [13]
Lindsay y Norman (1977) dan una fórmula con una frecuencia de ruptura de 625 Hz; [14] la fórmula no aparece en su primera edición de 1972:
Para comparación directa con otras fórmulas, esto es equivalente a
La mayoría de las fórmulas de escala de mel dan exactamente 1000 mels a 1000 Hz. La frecuencia de corte (por ejemplo, 700 Hz, 1000 Hz o 625 Hz) es el único parámetro libre en la forma habitual de la fórmula. Algunas fórmulas de escala de frecuencia auditiva que no son de escala de mel utilizan la misma forma, pero con una frecuencia de corte mucho menor, que no necesariamente se corresponde con 1000 a 1000 Hz; por ejemplo, la escala de frecuencia ERB de Glasberg y Moore (1990) utiliza un punto de corte de 228,8 Hz [15] , y el mapa de frecuencia-lugar coclear de Greenwood (1990) utiliza 165,3 Hz [16] .
Umesh et al. han explorado otras formas funcionales para la escala mel; señalan que las fórmulas tradicionales con una región logarítmica y una región lineal no se ajustan a los datos de las curvas de Stevens y Volkmann tan bien como algunas otras formas, basándose en la siguiente tabla de datos de mediciones que realizaron a partir de esas curvas: [17]
La primera versión del códec Lyra de Google utiliza espectrogramas log-mel como paso de extracción de características. Los datos transmitidos son una forma cuantificada vectorial del espectrograma, que luego se sintetiza nuevamente en voz mediante una red neuronal. Se cree que el uso de la escala mel pondera los datos de una manera apropiada para la percepción humana. [19] MelGAN adopta un enfoque similar. [20]
Crítica
Donald D. Greenwood, alumno de Stevens que había trabajado en los experimentos de la escala mel en 1956, considera que la escala está sesgada por defectos experimentales. En 2009, publicó en una lista de correo: [21]
Me gustaría preguntar por qué utilizar ahora la escala Mel, si parece estar sesgada. Si alguien quiere una escala Mel, debería volver a utilizarla, controlando cuidadosamente el sesgo de orden y utilizando muchos sujetos (más que en el pasado) y utilizando tanto a músicos como a no músicos para buscar diferencias en la interpretación que puedan estar regidas por diferencias entre músicos y no músicos o por diferencias entre sujetos en general.
^ ab Stevens, Stanley Smith; Volkmann; John; Newman, Edwin B. (1937). "Una escala para la medición de la magnitud psicológica del tono". Revista de la Sociedad Acústica de América . 8 (3): 185–190. Código Bibliográfico :1937ASAJ....8..185S. doi :10.1121/1.1915893. Archivado desde el original el 14 de abril de 2013.
^ Douglas O'Shaughnessy (1987). Comunicación oral: humanos y máquinas. Addison-Wesley. pág. 150. ISBN978-0-201-16520-3.
^ John C. Steinberg (1937). "Posiciones de estimulación en la cóclea por tonos puros". Revista de la Sociedad Acústica de América . 8 (3): 176–180. Bibcode :1937ASAJ....8..176S. doi :10.1121/1.1915891.
^ Harvey Fletcher; WA Munson (1937). "Relación entre sonoridad y enmascaramiento". Revista de la Sociedad Acústica de América . 9 (1): 1–10. Código Bibliográfico :1937ASAJ....9....1F. doi :10.1121/1.1915904.
^ Harvey Fletcher (1938). "Loudness, Masking and Their Relation to the Hearing Process and the Problem of Noise Measurement" (Volumen, enmascaramiento y su relación con el proceso auditivo y el problema de la medición del ruido). Journal of the Acoustical Society of America . 9 (4): 275–293. Bibcode :1938ASAJ....9..275F. doi :10.1121/1.1915935.
^ Stevens, S.; Volkmann, J. (1940). "La relación entre el tono y la frecuencia: una escala revisada". Revista estadounidense de psicología . 53 (3): 329–353. doi :10.2307/1417526. JSTOR 1417526.
^ W. Koenig (1949). "Una nueva escala de frecuencia para mediciones acústicas". Bell Telephone Laboratory Record . 27 : 299–301.
^
Gunnar Fant (1949) "Analys av de svenska konsonantljuden: talets allmänna svängningsstruktur", protocolo LM Ericsson H/P 1064.
^ Fant, Gunnar. (1968). Análisis y síntesis de los procesos del habla. En B. Malmberg (ed.), Manual de fonética (pp. 173-177). Ámsterdam: Holanda Septentrional.
^ Jonathan Harrington; Steve Cassidy (1999). Técnicas de acústica del habla. Springer. pág. 18. ISBN978-0-7923-5731-5.
^ John Makhoul ; Lynn Cosell (1976). "LPCW: Un vocoder LPC con deformación espectral predictiva lineal". ICASSP '76. IEEE International Conference on Acoustics, Speech, and Signal Processing . Vol. 1. IEEE. págs. 466–469. doi :10.1109/ICASSP.1976.1170013.
^ T. Ganchev; N. Fakotakis; G. Kokkinakis (2005), "Evaluación comparativa de varias implementaciones de MFCC en la tarea de verificación de hablantes", Actas del SPECOM-2005 , págs. 191-194, CiteSeerX 10.1.1.75.8303
^ Beranek, Leo L. (1949). Mediciones acústicas . Nueva York: McGraw-Hill.
^ Lindsay, Peter H.; y Norman, Donald A. (1977). Procesamiento de la información humana: Introducción a la psicología (2.ª ed.). Nueva York: Academic Press.
^ BCJ Moore y BR Glasberg, "Fórmulas sugeridas para calcular los anchos de banda de los filtros auditivos y los patrones de excitación", Journal of the Acoustical Society of America 74: 750–753, 1983.
^ Greenwood, DD (1990). Una función de frecuencia-posición coclear para varias especies, 29 años después. The Journal of the Acoustical Society of America , 87, 2592–2605.
^ Umesh, S.; Cohen, L.; Nelson, D. (1999). Ajuste de la escala mel. Proc. ICASSP 1999. págs. 217–220. doi :10.1109/ICASSP.1999.758101. ISBN978-0-7803-5041-0.
^ Slaney, M. Auditory Toolbox: A MATLAB Toolbox for Auditory Modeling Work. Informe técnico, versión 2, Interval Research Corporation, 1998., traducido a Python en librosa (documentación de librosa).
^ "Lyra: un nuevo códec de muy baja tasa de bits para la compresión de voz". ai.googleblog.com . 25 de febrero de 2021.Véase también: arXiv :2102.11906, arXiv :2102.09660.
^ Kumar, Kundan; Kumar, Rithesh; de Boissiere, Thibault; Gestin, Lucas; Teoh, Wei Zhen; Sotelo, Jose; de Brebisson, Alexandre; Bengio, Yoshua; Courville, Aaron (8 de diciembre de 2019). "MelGAN: redes generativas adversarias para síntesis de formas de onda condicionales". Actas de la 33.ª Conferencia internacional sobre sistemas de procesamiento de información neuronal . Curran Associates Inc.: 14910–14921.
^ "Copia archivada". Archivado desde el original el 8 de febrero de 2013. Consultado el 12 de diciembre de 2012 .{{cite web}}: CS1 maint: archived copy as title (link)
Enlaces externos
Medios relacionados con la escala Mel en Wikimedia Commons
Volkmann, J; Stevens, SS; Newman, EB (1937). "Una escala para la medición de la magnitud psicológica del tono". Revista de la Sociedad Acústica de América . 8 (3): 208. Bibcode :1937ASAJ....8..208V. doi : 10.1121/1.1901999 .