stringtranslate.com

escala mel

Gráficos de la escala de tono mel versus la escala de Hertz
A440 Reproducir . 440 Hz = 549,64 melios

La escala mel (después de la palabra melodía ) [1] es una escala perceptual de tonos que los oyentes consideran iguales en distancia entre sí. El punto de referencia entre esta escala y la medición de frecuencia normal se define asignando un tono perceptual de 1000 mels a un tono de 1000  Hz , 40  dB por encima del umbral del oyente. Por encima de aproximadamente 500 Hz, los oyentes consideran que intervalos cada vez más grandes producen incrementos de tono iguales.

Fórmula

Una fórmula (O'Shaughnessy 1987) para convertir f hertz en m mels es: [2]

Mel-escala de 200 a 1500, en intervalos de 50

Historia y otras fórmulas

La fórmula del libro de O'Shaughnessy se puede expresar con diferentes bases logarítmicas:

Las expresiones inversas correspondientes son:

Se han publicado curvas y tablas sobre escalas de tono psicofísico desde las curvas de Steinberg de 1937 [3] basadas en diferencias de tono apenas perceptibles . Pronto siguieron más curvas en los artículos de Fletcher y Munson de 1937 [4] y Fletcher de 1938 [5] y de Stevens de 1937 [1] y de Stevens y Volkmann de 1940 [6] utilizando una variedad de métodos experimentales y enfoques de análisis.

En 1949 Koenig publicó una aproximación basada en segmentos lineales y logarítmicos separados, con una ruptura en 1000 Hz. [7]

Gunnar Fant propuso la popular fórmula lineal/logarítmica actual en 1949, pero con la frecuencia de esquina de 1000 Hz. [8]

Fant (1968) indica una expresión alternativa de la fórmula, que no depende de la elección de la base del logaritmo: [9] [10]

En 1976, Makhoul y Cosell publicaron la ahora popular versión con la frecuencia angular de 700 Hz. [11] Como Ganchev et al. han observado: "Las fórmulas [con 700], en comparación con [las de Fant con 1000], proporcionan una aproximación más cercana de la escala Mel para frecuencias inferiores a 1000 Hz, al precio de una mayor inexactitud para frecuencias superiores a 1000 Hz". [12] Por encima de 7 kHz, sin embargo, la situación se invierte y la versión de 700 Hz vuelve a encajar mejor.

Los datos que motivan algunas de estas fórmulas se tabulan en Beranek (1949), medidos a partir de las curvas de Stevens y Volkmann: [13]

Lindsay y Norman (1977) dan una fórmula con una frecuencia de interrupción de 625 Hz; [14] la fórmula no aparece en su primera edición de 1972:

Para comparación directa con otras fórmulas, esto equivale a:

La mayoría de las fórmulas en escala mel dan exactamente 1000 mels a 1000 Hz. La frecuencia de ruptura (p. ej. 700 Hz, 1000 Hz o 625 Hz) es el único parámetro libre en la forma habitual de la fórmula. Algunas fórmulas de escala de frecuencia auditiva que no son mel usan la misma forma pero con una frecuencia de interrupción mucho más baja, no necesariamente mapeándose a 1000 a 1000 Hz; por ejemplo, la escala de frecuencia ERB de Glasberg y Moore (1990) utiliza un punto de interrupción de 228,8 Hz [15] y el mapa coclear de frecuencia-lugar de Greenwood (1990) utiliza 165,3 Hz. [dieciséis]

Umesh et al. han explorado otras formas funcionales de la escala mel; señalan que las fórmulas tradicionales con una región logarítmica y una región lineal no se ajustan a los datos de las curvas de Stevens y Volkmann, así como a algunas otras formas, basándose en la siguiente tabla de datos de mediciones que hicieron a partir de esas curvas: [17]

MATLAB Auditory Toolbox de Slaney está de acuerdo con Umesh et al. y utiliza el siguiente ajuste de dos piezas, aunque en particular no utiliza la convención "1000 mels a 1000 Hz": [18]

Aplicaciones

La primera versión del códec Lyra de Google utiliza espectrogramas log mel como paso de extracción de funciones. Los datos transmitidos son una forma vectorial cuantificada del espectrograma, que luego se sintetiza en voz mediante una red neuronal. Se cree que el uso de la escala mel pesa los datos de una manera apropiada a la percepción humana. [19] MelGAN adopta un enfoque similar. [20]

Crítica

El alumno de Stevens, Donald D. Greenwood, que había trabajado en los experimentos de la escala mel en 1956, considera que la escala está sesgada por fallas experimentales. En 2009 publicó en una lista de correo, [21]

Yo preguntaría, ¿por qué utilizar la escala Mel ahora, ya que parece estar sesgada? Si alguien quiere una escala de Mel, debería hacerlo de nuevo, controlando cuidadosamente el sesgo de orden y utilizando muchos temas (más que en el pasado) y utilizando tanto a músicos como a no músicos para buscar cualquier diferencia en la interpretación que pueda estar gobernada por el músico. / diferencias entre no músicos o diferencias de tema en general.

Ver también

Referencias

  1. ^ ab Stevens, Stanley Smith; Volkmann; John y Newman, Edwin B. (1937). "Una escala para la medición del tono de magnitud psicológica". Revista de la Sociedad de Acústica de América . 8 (3): 185-190. Código bibliográfico : 1937ASAJ....8..185S. doi :10.1121/1.1915893. Archivado desde el original el 14 de abril de 2013.
  2. ^ Douglas O'Shaughnessy (1987). Comunicación oral: humana y máquina. Addison-Wesley. pag. 150.ISBN _ 978-0-201-16520-3.
  3. ^ John C. Steinberg (1937). "Posiciones de estimulación en la cóclea por tonos puros". Revista de la Sociedad de Acústica de América . 8 (3): 176–180. Código bibliográfico : 1937ASAJ....8..176S. doi : 10.1121/1.1915891.
  4. ^ Harvey Fletcher y WA Munson (1937). "Relación entre sonoridad y enmascaramiento". Revista de la Sociedad de Acústica de América . 9 (1): 1–10. Código bibliográfico : 1937ASAJ....9....1F. doi :10.1121/1.1915904.
  5. ^ Harvey Fletcher (1938). "Sonoridad, enmascaramiento y su relación con el proceso auditivo y el problema de la medición del ruido". Revista de la Sociedad de Acústica de América . 9 (4): 275–293. Código bibliográfico : 1938ASAJ....9..275F. doi :10.1121/1.1915935.
  6. ^ Stevens, S. y Volkmann, J. (1940). "La relación entre el tono y la frecuencia: una escala revisada". Revista Estadounidense de Psicología . 53 (3): 329–353. doi :10.2307/1417526. JSTOR  1417526.
  7. ^ W. Koenig (1949). "Una nueva escala de frecuencia para mediciones acústicas". Registro de laboratorio de Bell Telephone . 27 : 299–301.
  8. ^ Gunnar Fant (1949) "Analys av de svenska konsonantljuden: talets allmänna svängningsstruktur", protocolo LM Ericsson H/P 1064
  9. ^ Fant, Gunnar. (1968). Análisis y síntesis de los procesos del habla. En B. Malmberg (Ed.), Manual de fonética (págs. 173-177). Ámsterdam: Holanda Septentrional.
  10. ^ Jonathan Harrington y Steve Cassidy (1999). Técnicas en acústica del habla. Saltador. pag. 18.ISBN _ 978-0-7923-5731-5.
  11. ^ John Makhoul y Lynn Cosell (1976). "LPCW: un vocoder LPC con deformación espectral predictiva lineal". ICASSP '76. Conferencia internacional IEEE sobre acústica, voz y procesamiento de señales . vol. 1. IEEE. págs. 466–469. doi :10.1109/ICASSP.1976.1170013.
  12. ^ T. Ganchev; N. Fakotakis y G. Kokkinakis (2005), "Evaluación comparativa de varias implementaciones de MFCC en la tarea de verificación del hablante", Actas de SPECOM-2005 , págs. 191-194, CiteSeerX 10.1.1.75.8303 
  13. ^ Beranek, Leo L. (1949). Mediciones acústicas . Nueva York: McGraw-Hill.
  14. ^ Lindsay, Peter H.; Y Norman, Donald A. (1977). Procesamiento de información humana: una introducción a la psicología (2ª ed.). Nueva York: Academic Press.
  15. ^ BCJ Moore y BR Glasberg, "Fórmulas sugeridas para calcular anchos de banda de filtros auditivos y patrones de excitación" Journal of the Acoustical Society of America 74: 750-753, 1983.
  16. ^ Greenwood, DD (1990). Una función coclear de frecuencia-posición para varias especies, 29 años después. Revista de la Sociedad Acústica de América , 87, 2592–2605.
  17. ^ Umesh, S. y Cohen, L. y Nelson, D. (1999). Colocación de la escala mel. Proc. ICASSP 1999. págs. doi :10.1109/ICASSP.1999.758101. ISBN 978-0-7803-5041-0.{{cite conference}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
  18. ^ Slaney, M. Auditory Toolbox: una caja de herramientas de MATLAB para el trabajo de modelado auditivo. Informe técnico, versión 2, Interval Research Corporation, 1998., traducido a Python en librosa (documentación biblioteca)
  19. ^ "Lyra: un nuevo códec de muy baja tasa de bits para la compresión de voz". ai.googleblog.com . 25 de febrero de 2021.Ver también: arXiv:2102.11906, arXiv:2102.09660
  20. ^ Kumar, Kundan; Kumar, Rithesh; de Boissière, Thibault; Gestín, Lucas; Teoh, Wei Zhen; Sotelo, José; de Brébisson, Alexandre; Bengio, Yoshua; Courville, Aaron (8 de diciembre de 2019). "MelGAN: redes generativas adversarias para síntesis de formas de onda condicionales". Actas de la 33ª Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural . Curran Associates Inc.: 14910–14921.
  21. ^ "Copia archivada". Archivado desde el original el 8 de febrero de 2013 . Consultado el 12 de diciembre de 2012 .{{cite web}}: Mantenimiento CS1: copia archivada como título ( enlace )

enlaces externos