Enmascaramiento auditivo

En el procesamiento de señales de audio , el enmascaramiento auditivo ocurre cuando la percepción de un sonido se ve afectada por la presencia de otro sonido. ^[1]

El enmascaramiento auditivo en el dominio de la frecuencia se conoce como enmascaramiento simultáneo , enmascaramiento de frecuencia o enmascaramiento espectral . El enmascaramiento auditivo en el dominio del tiempo se conoce como enmascaramiento temporal o enmascaramiento no simultáneo .

Umbral enmascarado

El umbral desenmascarado es el nivel más bajo de la señal que se puede percibir sin que esté presente una señal de enmascaramiento. El umbral enmascarado es el nivel más bajo de la señal percibida cuando se combina con un ruido de enmascaramiento específico. La cantidad de enmascaramiento es la diferencia entre los umbrales enmascarados y desenmascarados.

Gelfand proporciona un ejemplo básico. ^[1] Digamos que para un individuo determinado, el sonido de un gato rascando un poste en un ambiente tranquilo es audible por primera vez a un nivel de 10 dB SPL . Sin embargo, en presencia de un ruido de enmascaramiento (por ejemplo, una aspiradora que está funcionando simultáneamente), ese mismo individuo no puede detectar el sonido del gato rascándose a menos que el nivel del sonido del rascado sea de al menos 26 dB SPL. Diríamos que el umbral desenmascarado para ese individuo para el sonido objetivo (es decir, el gato rascándose) es de 10 dB SPL, mientras que el umbral enmascarado es de 26 dB SPL. La cantidad de enmascaramiento es simplemente la diferencia entre estos dos umbrales: 16 dB.

La cantidad de enmascaramiento variará dependiendo de las características tanto de la señal objetivo como del enmascarador, y también será específica de un oyente individual. Si bien la persona en el ejemplo anterior pudo detectar al gato rascándose a 26 dB SPL, es posible que otra persona no pueda escuchar al gato rascarse mientras la aspiradora estaba encendida hasta que el nivel de sonido del gato rascándose aumentó a 30 dB SPL ( con lo que la cantidad de enmascaramiento para el segundo oyente es de 20 dB).

Enmascaramiento simultáneo

El enmascaramiento simultáneo ocurre cuando un sonido se vuelve inaudible debido a un ruido o sonido no deseado de la misma duración que el sonido original. ^[2] Por ejemplo, un pico potente a 1 kHz tenderá a enmascarar un tono de nivel inferior a 1,1 kHz. Además, se pueden percibir claramente dos tonos sinusoidales a 440 y 450 Hz cuando se separan. No se pueden percibir claramente cuando se presentan simultáneamente.

Ancho de banda crítico

Si se reproducen dos sonidos de dos frecuencias diferentes al mismo tiempo, a menudo se pueden escuchar dos sonidos separados en lugar de un tono combinado . La capacidad de escuchar frecuencias por separado se conoce como resolución de frecuencia o selectividad de frecuencia . Cuando las señales se perciben como un tono combinado, se dice que residen en el mismo ancho de banda crítico . Se cree que este efecto se debe al filtrado dentro de la cóclea , el órgano auditivo del oído interno. Un sonido complejo se divide en diferentes componentes de frecuencia y estos componentes provocan un pico en el patrón de vibración en un lugar específico de los cilios dentro de la membrana basilar dentro de la cóclea. Luego, estos componentes se codifican de forma independiente en el nervio auditivo que transmite información sonora al cerebro. Esta codificación individual sólo se produce si los componentes de frecuencia son lo suficientemente diferentes en frecuencia; de lo contrario, se encuentran en la misma banda crítica y están codificados en el mismo lugar y se perciben como un sonido en lugar de dos. ^[3]

Los filtros que distinguen un sonido de otro se denominan filtros auditivos, canales de escucha o anchos de banda críticos . La resolución de frecuencia se produce en la membrana basilar debido a que el oyente elige un filtro que está centrado sobre la frecuencia que espera escuchar, la frecuencia de la señal. Un filtro bien sintonizado tiene una buena resolución de frecuencia, ya que permite el paso de las frecuencias centrales pero no de otras frecuencias (Pickles 1982). El daño a la cóclea y a las células ciliadas externas de la cóclea puede afectar la capacidad de distinguir sonidos (Moore 1986). Esto explica por qué una persona con pérdida auditiva debido a un daño en la cóclea tendría más dificultades que una persona con audición normal para distinguir entre diferentes consonantes en el habla. ^[4]

El enmascaramiento ilustra los límites de la selectividad de frecuencia. Si una señal es enmascarada por un enmascarador con una frecuencia diferente a la señal, entonces el sistema auditivo no puede distinguir entre las dos frecuencias. Al experimentar con condiciones en las que un sonido puede enmascarar una señal escuchada previamente, se puede probar la selectividad de frecuencia del sistema auditivo. ^[5]

Frecuencias similares

La eficacia del enmascarador para elevar el umbral de la señal depende de la frecuencia de la señal y de la frecuencia del enmascarador. Los gráficos de la Figura B son una serie de patrones de enmascaramiento, también conocidos como audiogramas de enmascaramiento . Cada gráfico muestra la cantidad de enmascaramiento producido en cada frecuencia de enmascaramiento que se muestra en la esquina superior, 250, 500, 1000 y 2000 Hz. Por ejemplo, en el primer gráfico el enmascarador se presenta a una frecuencia de 250 Hz al mismo tiempo que la señal. Se traza la cantidad que el enmascarador aumenta el umbral de la señal y esto se repite para diferentes frecuencias de señal, que se muestran en el eje X. La frecuencia del enmascarador se mantiene constante. El efecto de enmascaramiento se muestra en cada gráfico en varios niveles de sonido de enmascaramiento.

Figura C – Adaptado de Gelfand 2004 ^[1]

La Figura B muestra a lo largo del eje Y la cantidad de enmascaramiento. El mayor enmascaramiento se produce cuando el enmascarador y la señal tienen la misma frecuencia y esto disminuye a medida que la frecuencia de la señal se aleja de la frecuencia del enmascarador. ^[1] Este fenómeno se llama enmascaramiento de frecuencia y ocurre porque el enmascarador y la señal están dentro del mismo filtro auditivo (Figura C). Esto significa que el oyente no puede distinguir entre ellos y se perciben como un solo sonido, con el sonido más bajo enmascarado por el más fuerte (Figura D).

La cantidad que el enmascarador eleva el umbral de la señal es mucho menor en el enmascaramiento fuera de frecuencia, pero tiene cierto efecto de enmascaramiento porque parte del enmascarador se superpone en el filtro auditivo de la señal (Figura E) ^[5]

El enmascaramiento fuera de frecuencia requiere que el nivel del enmascarador sea mayor para tener un efecto de enmascaramiento; esto se muestra en la Figura F. Esto se debe a que solo una cierta cantidad de enmascarador se superpone en el filtro auditivo de la señal y se necesita más enmascarador para cubrir la señal. ^[5]

Frecuencias más bajas

El patrón de enmascaramiento cambia según la frecuencia del enmascarador y la intensidad (Figura B). Para niveles bajos en el gráfico de 1000 Hz, como el rango de 20 a 40 dB, la curva es relativamente paralela. A medida que aumenta la intensidad del enmascarador, las curvas se separan, especialmente para señales con una frecuencia superior a la del enmascarador. Esto muestra que hay una extensión del efecto de enmascaramiento hacia arriba en frecuencia a medida que aumenta la intensidad del enmascarador. La curva es mucho menos profunda en las frecuencias altas que en las frecuencias bajas. Este aplanamiento se denomina extensión ascendente del enmascaramiento y es la razón por la cual un sonido de interferencia enmascara las señales de alta frecuencia mucho mejor que las de baja frecuencia. ^[1]

La Figura B también muestra que a medida que aumenta la frecuencia del enmascarador, los patrones de enmascaramiento se comprimen cada vez más. Esto demuestra que los enmascaradores de alta frecuencia sólo son efectivos en un rango estrecho de frecuencias, cercano a la frecuencia del enmascarador. Por otra parte, los enmascaradores de baja frecuencia son eficaces en un amplio rango de frecuencias. ^[1]

Figura G – adaptada de un diagrama de Gelfand ^[1]

Harvey Fletcher llevó a cabo un experimento para descubrir en qué medida una banda de ruido contribuye al enmascaramiento de un tono. En el experimento, una señal de tono fijo tenía varios anchos de banda de ruido centrados en ella. El umbral enmascarado se registró para cada ancho de banda. Su investigación demostró que existe un ancho de banda crítico de ruido que provoca el máximo efecto de enmascaramiento y la energía fuera de esa banda no afecta el enmascaramiento. Esto puede explicarse porque el sistema auditivo tiene un filtro auditivo centrado sobre la frecuencia del tono. El ancho de banda del enmascarador que está dentro de este filtro auditivo enmascara efectivamente el tono, pero el enmascarador fuera del filtro no tiene ningún efecto (Figura G).

Esto se utiliza en archivos MP3 para reducir el tamaño de los archivos de audio. Las partes de las señales que están fuera del ancho de banda crítico se representan con precisión reducida. Las partes de las señales que percibe el oyente se reproducen con mayor fidelidad. ^[6]

Efectos de la intensidad

Los distintos niveles de intensidad también pueden tener un efecto sobre el enmascaramiento. El extremo inferior del filtro se vuelve más plano a medida que aumenta el nivel de decibeles, mientras que el extremo superior se vuelve ligeramente más pronunciado. Los cambios en la pendiente del lado de alta frecuencia del filtro con la intensidad son menos consistentes que en las bajas frecuencias. En las frecuencias medias (1–4 kHz), la pendiente aumenta a medida que aumenta la intensidad, pero en las frecuencias bajas no hay una inclinación clara con el nivel y los filtros en frecuencias centrales altas muestran una pequeña disminución en la pendiente al aumentar el nivel. La nitidez del filtro depende del nivel de entrada y no del nivel de salida al filtro. La parte inferior del filtro auditivo también se ensancha al aumentar el nivel. ^[5] Estas observaciones se ilustran en la Figura H.

Enmascaramiento temporal

El enmascaramiento temporal o enmascaramiento no simultáneo ocurre cuando un sonido de estímulo repentino hace inaudibles otros sonidos que están presentes inmediatamente antes o después del estímulo. El enmascaramiento que oscurece un sonido inmediatamente anterior al enmascarador se llama enmascaramiento hacia atrás o preenmascaramiento y el enmascaramiento que oscurece un sonido inmediatamente después del enmascarador se llama enmascaramiento directo o post-enmascaramiento . ^[5] La eficacia del enmascaramiento temporal se atenúa exponencialmente desde el inicio y el desplazamiento del enmascarador, con una atenuación de inicio que dura aproximadamente 20 ms y una atenuación de desplazamiento que dura aproximadamente 100 ms.

De manera similar al enmascaramiento simultáneo, el enmascaramiento temporal revela el análisis de frecuencia realizado por el sistema auditivo; Los umbrales de enmascaramiento directo para tonos armónicos complejos (por ejemplo, una sonda de diente de sierra con una frecuencia fundamental de 500 Hz) exhiben picos de umbral (es decir, altos niveles de enmascaramiento) para bandas de frecuencia centradas en los primeros armónicos. De hecho, los anchos de banda auditivos medidos a partir de umbrales de enmascaramiento directo son más estrechos y precisos que los medidos utilizando enmascaramiento simultáneo.

El enmascaramiento temporal no debe confundirse con el reflejo acústico del oído , una respuesta involuntaria en el oído medio que se activa para proteger las delicadas estructuras del oído de los sonidos fuertes.

Otras condiciones de enmascaramiento

figura I – enmascaramiento simultáneo ipsilateral

El enmascaramiento ipsilateral ("mismo lado") no es la única condición en la que se realiza el enmascaramiento. Otra situación en la que se produce el enmascaramiento se denomina enmascaramiento simultáneo contralateral ("otro lado"). En este caso, la señal puede ser audible en un oído pero se elimina deliberadamente aplicando un enmascarador en el otro oído.

La última situación en la que se produce el enmascaramiento se denomina enmascaramiento central. Esto se refiere al caso en el que un enmascarador provoca una elevación del umbral. Esto puede ocurrir en ausencia de otro efecto o además de él, y se debe a interacciones dentro del sistema nervioso central entre las entradas neuronales separadas obtenidas del enmascarador y la señal. ^[1]

Efectos de diferentes tipos de estímulos.

Se han llevado a cabo experimentos para ver los diferentes efectos de enmascaramiento cuando se utiliza un enmascarador que tiene la forma de un ruido de banda estrecha o un tono sinusoidal .

Cuando se presentan simultáneamente una señal sinusoidal y un enmascarador sinusoidal (tono), la envolvente del estímulo combinado fluctúa en un patrón regular descrito como latidos. Las fluctuaciones ocurren a un ritmo definido por la diferencia entre las frecuencias de los dos sonidos. Si la diferencia de frecuencia es pequeña, entonces el sonido se percibe como un cambio periódico en el volumen de un solo tono. Si los latidos son rápidos, esto puede describirse como una sensación de aspereza. Cuando hay una gran separación de frecuencias, los dos componentes se escuchan como tonos separados sin asperezas ni ritmos. Los ritmos pueden ser una señal de la presencia de una señal incluso cuando la señal en sí no es audible. La influencia de los tiempos se puede reducir utilizando un ruido de banda estrecha en lugar de un tono sinusoidal para la señal o el enmascarador. ^[3]

Mecanismos de enmascaramiento

Hay muchos mecanismos diferentes de enmascaramiento, uno de los cuales es la supresión. Es cuando hay una reducción de la respuesta a una señal debido a la presencia de otra. Esto sucede porque la actividad neuronal original causada por la primera señal se reduce por la actividad neuronal del otro sonido. ^[7]

Los tonos combinados son productos de una señal y un enmascarador. Esto sucede cuando los dos sonidos interactúan provocando un sonido nuevo, que puede ser más audible que la señal original. Esto es causado por la distorsión no lineal que ocurre en el oído. Por ejemplo, el tono combinado de dos enmascaradores puede ser un mejor enmascarador que los dos enmascaradores originales solos. ^[5]

Los sonidos interactúan de muchas maneras dependiendo de la diferencia de frecuencia entre los dos sonidos. Los dos más importantes son los tonos de diferencia cúbica ^{[ definición necesaria ]} y los tonos de diferencia cuadrática ^{[ definición necesaria ]} . ^[5]

Los tonos de diferencia cúbica se calculan mediante la suma. ^{[ se necesita aclaración ]}

2F1-F2 ^[8]

(Siendo F1 la primera frecuencia, F2 la segunda) Estos son audibles la mayor parte del tiempo y especialmente cuando el nivel del tono original es bajo. Por tanto, tienen un mayor efecto sobre las curvas de afinación psicoacústica que los tonos de diferencia cuadrática.

Los tonos de diferencia cuadrática son el resultado de ^{[ se necesita aclaración ]}

F2 – F1

Esto ocurre a niveles relativamente altos y por lo tanto tiene un efecto menor en las curvas de afinación psicoacústica. ^[5]

Los tonos combinados pueden interactuar con los tonos primarios dando como resultado tonos combinados secundarios debido a que son similares a sus tonos primarios originales en la naturaleza, similares a un estímulo. Un ejemplo de esto es

3F1 – 2F2

Los tonos combinados secundarios son nuevamente similares a los tonos combinados del tono primario. ^[5]

Escucha fuera de frecuencia

La escucha fuera de frecuencia se produce cuando un oyente elige un filtro justo por debajo de la frecuencia de la señal para mejorar su rendimiento auditivo. Este filtro de "fuera de frecuencia" reduce el nivel del enmascarador más que la señal en el nivel de salida del filtro, lo que significa que pueden escuchar la señal con mayor claridad y, por lo tanto, mejora el rendimiento auditivo. ^[2]

Aplicaciones

El enmascaramiento auditivo se utiliza en enmascaradores de tinnitus para suprimir los molestos zumbidos, silbidos o zumbidos o tinnitus que a menudo se asocian con la pérdida de audición. También se utiliza en varios tipos de audiometría, incluida la audiometría de tonos puros y la prueba de audición estándar para evaluar cada oído unilateralmente y probar el reconocimiento del habla en presencia de ruido parcialmente enmascarante.

El enmascaramiento auditivo se aprovecha para realizar la compresión de datos de señales de sonido ( MP3 ).

Ver también

Referencias

^ abcdefghij Gelfand, SA (2004) Audiencia: introducción a la acústica psicológica y fisiológica, 4ª ed. Nueva York, Marcel Dekker
^ ab Moore, BCJ (2004) Introducción a la psicología de la audición , 5ª ed. Londres, Elsevier Academic Press
^ ab Moore, BCJ (1986) Selectividad de frecuencia en la audición , Londres, Academic Press
^ Moore, BCJ (1995) Consecuencias perceptuales del daño coclear , Oxford, Oxford University Press
^ abcdefghijkl Moore, BCJ (1998) Pérdida auditiva coclear , Londres, Whurr Publishers Ltd
^ Sellars, P. (2000), Codificación perceptual: cómo funciona la compresión de MP3, Cambridge: sonido sobre sonido, archivado desde el original el 31 de julio de 2015 , consultado el 12 de diciembre de 2020
^ Oxenham, AJ Plack, CJ Suppression y la creciente difusión del enmascaramiento, Journal of the Acoustical Society of America, 104 (6) págs.
^ Lee, Kyogu y Kim, Minjong. Estimación de la amplitud del tono de diferencia cúbica utilizando un filtro Volterra adaptativo de tercer orden , Actas de la octava conferencia internacional sobre efectos de audio digital (DAFx'05), Madrid, España, 20 al 22 de septiembre de 2005, p. 297

Pickles, JO (1982) Introducción a la fisiología de la audición , Londres, Academic Press

enlaces externos

"Adición de enmascaramiento simultáneo" por B. Lincoln de la Universidad de Stanford
Enmascaramiento auditivo y codificación de audio de banda ancha: videoconferencia del profesor E. Ambikairajah