En el procesamiento de señales de audio , el enmascaramiento auditivo ocurre cuando la percepción de un sonido se ve afectada por la presencia de otro sonido. [1]
El enmascaramiento auditivo en el dominio de la frecuencia se conoce como enmascaramiento simultáneo , enmascaramiento de frecuencia o enmascaramiento espectral . El enmascaramiento auditivo en el dominio del tiempo se conoce como enmascaramiento temporal o enmascaramiento no simultáneo .
El umbral sin enmascaramiento es el nivel más bajo de la señal que se puede percibir sin la presencia de una señal de enmascaramiento. El umbral enmascarado es el nivel más bajo de la señal que se percibe cuando se combina con un ruido de enmascaramiento específico. La cantidad de enmascaramiento es la diferencia entre los umbrales enmascarado y sin enmascaramiento.
Gelfand proporciona un ejemplo básico. [1] Digamos que para un individuo dado, el sonido de un gato rascando un poste en un entorno por lo demás silencioso es audible primero a un nivel de 10 dB SPL . Sin embargo, en presencia de un ruido enmascarador (por ejemplo, una aspiradora que está funcionando simultáneamente) ese mismo individuo no puede detectar el sonido del gato rascando a menos que el nivel del sonido del rascado sea de al menos 26 dB SPL. Diríamos que el umbral no enmascarado para ese individuo para el sonido objetivo (es decir, el gato rascando) es 10 dB SPL, mientras que el umbral enmascarado es 26 dB SPL. La cantidad de enmascaramiento es simplemente la diferencia entre estos dos umbrales: 16 dB.
La cantidad de enmascaramiento variará según las características tanto de la señal de destino como del enmascarador, y también será específica de cada oyente. Mientras que la persona del ejemplo anterior pudo detectar el rasguño del gato a 26 dB SPL, otra persona podría no ser capaz de oír el rasguño del gato mientras la aspiradora estaba encendida hasta que el nivel de sonido del rasguño del gato se incrementó a 30 dB SPL (lo que hace que la cantidad de enmascaramiento para el segundo oyente sea de 20 dB).
El enmascaramiento simultáneo se produce cuando un sonido se vuelve inaudible debido a un ruido o un sonido no deseado de la misma duración que el sonido original. [2] Por ejemplo, un pico potente a 1 kHz tenderá a enmascarar un tono de nivel más bajo a 1,1 kHz. Además, dos tonos sinusoidales a 440 y 450 Hz se pueden percibir claramente cuando están separados. No se pueden percibir claramente cuando se presentan simultáneamente.
Si se reproducen dos sonidos de dos frecuencias diferentes al mismo tiempo, a menudo se pueden escuchar dos sonidos separados en lugar de un tono combinado . La capacidad de escuchar frecuencias por separado se conoce como resolución de frecuencia o selectividad de frecuencia . Cuando las señales se perciben como un tono combinado, se dice que residen en el mismo ancho de banda crítico . Se cree que este efecto ocurre debido al filtrado dentro de la cóclea , el órgano auditivo en el oído interno. Un sonido complejo se divide en diferentes componentes de frecuencia y estos componentes causan un pico en el patrón de vibración en un lugar específico en los cilios dentro de la membrana basilar dentro de la cóclea. Estos componentes luego se codifican de forma independiente en el nervio auditivo que transmite información sonora al cerebro. Esta codificación individual solo ocurre si los componentes de frecuencia son lo suficientemente diferentes en frecuencia, de lo contrario están en la misma banda crítica y se codifican en el mismo lugar y se perciben como un sonido en lugar de dos. [3]
Los filtros que distinguen un sonido de otro se denominan filtros auditivos, canales de escucha o anchos de banda críticos . La resolución de frecuencia se produce en la membrana basilar debido a que el oyente elige un filtro que está centrado sobre la frecuencia que espera oír, la frecuencia de la señal. Un filtro bien ajustado tiene una buena resolución de frecuencia, ya que permite el paso de las frecuencias centrales, pero no de otras frecuencias (Pickles 1982). Los daños en la cóclea y en las células ciliadas externas de la cóclea pueden afectar la capacidad de distinguir los sonidos (Moore 1986). Esto explica por qué una persona con pérdida auditiva debido a un daño en la cóclea tendría más dificultades que una persona con audición normal para distinguir entre diferentes consonantes en el habla. [4]
El enmascaramiento ilustra los límites de la selectividad de frecuencia. Si una señal es enmascarada por un enmascarador con una frecuencia diferente a la de la señal, entonces el sistema auditivo no puede distinguir entre las dos frecuencias. Al experimentar con condiciones en las que un sonido puede enmascarar una señal previamente escuchada, se puede probar la selectividad de frecuencia del sistema auditivo. [5]
La eficacia del enmascarador para elevar el umbral de la señal depende de la frecuencia de la señal y de la frecuencia del enmascarador. Los gráficos de la Figura B son una serie de patrones de enmascaramiento, también conocidos como audiogramas de enmascaramiento . Cada gráfico muestra la cantidad de enmascaramiento producido en cada frecuencia del enmascarador que se muestra en la esquina superior, 250, 500, 1000 y 2000 Hz. Por ejemplo, en el primer gráfico, el enmascarador se presenta a una frecuencia de 250 Hz al mismo tiempo que la señal. Se representa gráficamente la cantidad en que el enmascarador aumenta el umbral de la señal y esto se repite para diferentes frecuencias de señal, que se muestran en el eje X. La frecuencia del enmascarador se mantiene constante. El efecto de enmascaramiento se muestra en cada gráfico en varios niveles de sonido del enmascarador.
La figura B muestra a lo largo del eje Y la cantidad de enmascaramiento. El mayor enmascaramiento se produce cuando el enmascarador y la señal tienen la misma frecuencia y este disminuye a medida que la frecuencia de la señal se aleja de la frecuencia del enmascarador. [1] Este fenómeno se denomina enmascaramiento en la misma frecuencia y se produce porque el enmascarador y la señal están dentro del mismo filtro auditivo (figura C). Esto significa que el oyente no puede distinguir entre ellos y los percibe como un solo sonido, con el sonido más bajo enmascarado por el más fuerte (figura D).
La cantidad en que el enmascarador eleva el umbral de la señal es mucho menor en el enmascaramiento fuera de frecuencia, pero tiene cierto efecto de enmascaramiento porque parte del enmascarador se superpone al filtro auditivo de la señal (Figura E) [5].
El enmascaramiento fuera de frecuencia requiere que el nivel del enmascarador sea mayor para tener un efecto de enmascaramiento; esto se muestra en la Figura F. Esto se debe a que solo una cierta cantidad del enmascarador se superpone al filtro auditivo de la señal y se necesita más enmascarador para cubrir la señal. [5]
El patrón de enmascaramiento cambia dependiendo de la frecuencia del enmascarador y de la intensidad (Figura B). Para niveles bajos en el gráfico de 1000 Hz, como el rango de 20 a 40 dB, la curva es relativamente paralela. A medida que aumenta la intensidad del enmascarador, las curvas se separan, especialmente para señales a una frecuencia más alta que el enmascarador. Esto muestra que hay una propagación del efecto de enmascaramiento hacia arriba en la frecuencia a medida que aumenta la intensidad del enmascarador. La curva es mucho más plana en las frecuencias altas que en las bajas. Este aplanamiento se llama propagación ascendente del enmascaramiento y es la razón por la que un sonido interferente enmascara las señales de alta frecuencia mucho mejor que las señales de baja frecuencia. [1]
La figura B también muestra que a medida que aumenta la frecuencia del enmascarador, los patrones de enmascaramiento se comprimen cada vez más. Esto demuestra que los enmascaradores de alta frecuencia solo son efectivos en un rango estrecho de frecuencias, cerca de la frecuencia del enmascarador. Los enmascaradores de baja frecuencia, por otro lado, son efectivos en un rango de frecuencias amplio. [1]
Harvey Fletcher realizó un experimento para descubrir cuánto de una banda de ruido contribuye al enmascaramiento de un tono. En el experimento, una señal de tono fija tenía varios anchos de banda de ruido centrados en ella. Se registró el umbral de enmascaramiento para cada ancho de banda. Su investigación demostró que existe un ancho de banda crítico de ruido que causa el máximo efecto de enmascaramiento y la energía fuera de esa banda no afecta el enmascaramiento. Esto se puede explicar por el hecho de que el sistema auditivo tiene un filtro auditivo que está centrado sobre la frecuencia del tono. El ancho de banda del enmascarador que está dentro de este filtro auditivo enmascara efectivamente el tono, pero el enmascarador fuera del filtro no tiene efecto (Figura G).
Se utiliza en archivos MP3 para reducir el tamaño de los archivos de audio. Las partes de las señales que están fuera del ancho de banda crítico se representan con precisión reducida. Las partes de las señales que percibe el oyente se reproducen con mayor fidelidad. [6]
Los niveles de intensidad variables también pueden tener un efecto en el enmascaramiento. El extremo inferior del filtro se vuelve más plano a medida que aumenta el nivel de decibeles, mientras que el extremo superior se vuelve ligeramente más pronunciado. Los cambios en la pendiente del lado de alta frecuencia del filtro con la intensidad son menos consistentes que en las frecuencias bajas. En las frecuencias medias (1–4 kHz) la pendiente aumenta a medida que aumenta la intensidad, pero en las frecuencias bajas no hay una inclinación clara con el nivel y los filtros en las frecuencias centrales altas muestran una pequeña disminución en la pendiente con el aumento del nivel. La nitidez del filtro depende del nivel de entrada y no del nivel de salida al filtro. El lado inferior del filtro auditivo también se ensancha con el aumento del nivel. [5] Estas observaciones se ilustran en la Figura H.
El enmascaramiento temporal o enmascaramiento no simultáneo ocurre cuando un estímulo sonoro repentino hace inaudibles otros sonidos que están presentes inmediatamente antes o después del estímulo. El enmascaramiento que oscurece un sonido inmediatamente anterior al enmascarador se denomina enmascaramiento inverso o preenmascaramiento y el enmascaramiento que oscurece un sonido inmediatamente posterior al enmascarador se denomina enmascaramiento directo o posenmascaramiento . [5] La eficacia del enmascaramiento temporal se atenúa exponencialmente desde el inicio y el final del enmascarador, con la atenuación del inicio durando aproximadamente 20 ms y la atenuación del final dura aproximadamente 100 ms.
De manera similar al enmascaramiento simultáneo, el enmascaramiento temporal revela el análisis de frecuencia realizado por el sistema auditivo; los umbrales de enmascaramiento hacia adelante para tonos armónicos complejos (por ejemplo, una sonda de dientes de sierra con una frecuencia fundamental de 500 Hz) exhiben picos de umbral (es decir, niveles altos de enmascaramiento) para bandas de frecuencia centradas en los primeros armónicos. De hecho, los anchos de banda auditivos medidos a partir de los umbrales de enmascaramiento hacia adelante son más estrechos y más precisos que los medidos utilizando enmascaramiento simultáneo.
El enmascaramiento temporal no debe confundirse con el reflejo acústico del oído , una respuesta involuntaria en el oído medio que se activa para proteger las delicadas estructuras del oído de los sonidos fuertes.
El enmascaramiento ipsilateral ("del mismo lado") no es la única situación en la que se produce el enmascaramiento. Otra situación en la que se produce el enmascaramiento se denomina enmascaramiento simultáneo contralateral ("del otro lado"). En este caso, se trata de la instancia en la que la señal puede ser audible en un oído, pero se elimina deliberadamente al aplicar un enmascarador en el otro oído.
La última situación en la que se produce el enmascaramiento se denomina enmascaramiento central. Se refiere al caso en el que un enmascarador provoca una elevación del umbral. Esto puede ocurrir en ausencia de otro efecto o además de este y se debe a interacciones dentro del sistema nervioso central entre las entradas neuronales independientes obtenidas del enmascarador y la señal. [1]
Se han realizado experimentos para ver los diferentes efectos de enmascaramiento al utilizar un enmascarador que tiene la forma de un ruido de banda estrecha o un tono sinusoidal .
Cuando se presentan simultáneamente una señal sinusoidal y un enmascarador sinusoidal (tono), la envolvente del estímulo combinado fluctúa en un patrón regular descrito como pulsaciones. Las fluctuaciones ocurren a una velocidad definida por la diferencia entre las frecuencias de los dos sonidos. Si la diferencia de frecuencia es pequeña, el sonido se percibe como un cambio periódico en la intensidad de un solo tono. Si las pulsaciones son rápidas, esto puede describirse como una sensación de aspereza. Cuando hay una gran separación de frecuencia, los dos componentes se escuchan como tonos separados sin aspereza ni pulsaciones. Las pulsaciones pueden ser una señal de la presencia de una señal incluso cuando la señal en sí no es audible. La influencia de las pulsaciones se puede reducir utilizando un ruido de banda estrecha en lugar de un tono sinusoidal para la señal o el enmascarador. [3]
Existen muchos mecanismos diferentes de enmascaramiento, uno de los cuales es la supresión, que se produce cuando se reduce la respuesta a una señal debido a la presencia de otra. Esto sucede porque la actividad neuronal original causada por la primera señal se ve reducida por la actividad neuronal del otro sonido. [7]
Los tonos combinados son productos de una señal y un enmascarador. Esto sucede cuando los dos sonidos interactúan y generan un sonido nuevo, que puede ser más audible que la señal original. Esto se debe a la distorsión no lineal que se produce en el oído. Por ejemplo, el tono combinado de dos enmascaradores puede ser un mejor enmascarador que los dos enmascaradores originales solos. [5]
Los sonidos interactúan de muchas maneras dependiendo de la diferencia de frecuencia entre los dos sonidos. Los dos más importantes son los tonos de diferencia cúbicos [ se necesita definición ] y los tonos de diferencia cuadráticos [ se necesita definición ] . [5]
Los tonos de diferencia cúbica se calculan mediante la suma. [ aclaración necesaria ]
2F1-F2 [8]
(F1 es la primera frecuencia, F2 la segunda) Son audibles la mayor parte del tiempo y especialmente cuando el nivel del tono original es bajo. Por lo tanto, tienen un mayor efecto en las curvas de afinación psicoacústica que los tonos de diferencia cuadrática.
Los tonos de diferencia cuadrática son el resultado de [ aclaración necesaria ]
F2-F1
Esto sucede a niveles relativamente altos, por lo que tiene un efecto menor en las curvas de ajuste psicoacústico. [5]
Los tonos combinados pueden interactuar con los tonos primarios, lo que da como resultado tonos combinados secundarios debido a que son similares a sus tonos primarios originales en la naturaleza, como un estímulo. Un ejemplo de esto es
3F1 – 2F2
Los tonos de combinación secundarios son nuevamente similares a los tonos de combinación del tono primario. [5]
La escucha fuera de frecuencia es cuando un oyente elige un filtro que está justo por debajo de la frecuencia de la señal para mejorar su desempeño auditivo. Este filtro “fuera de frecuencia” reduce el nivel del enmascarador más que la señal en el nivel de salida del filtro, lo que significa que puede escuchar la señal con mayor claridad y, por lo tanto, mejora el desempeño auditivo. [2]
El enmascaramiento auditivo se utiliza en los enmascaradores de tinnitus para suprimir los molestos pitidos, silbidos o zumbidos o tinnitus que suelen asociarse con la pérdida auditiva. También se utiliza en varios tipos de audiometría, incluida la audiometría de tonos puros y la prueba de audición estándar para examinar cada oído unilateralmente y para probar el reconocimiento del habla en presencia de ruido parcialmente enmascarador.
El enmascaramiento auditivo se aprovecha para realizar la compresión de datos para señales de sonido ( MP3 ).