En percepción y psicofísica , el análisis de escenas auditivas ( ASA ) es un modelo propuesto para la base de la percepción auditiva. Esto se entiende como el proceso mediante el cual el sistema auditivo humano organiza el sonido en elementos perceptivamente significativos. El término fue acuñado por el psicólogo Albert Bregman . [1] El concepto relacionado en la percepción de las máquinas es el análisis computacional de escenas auditivas (CASA), que está estrechamente relacionado con la separación de fuentes y la separación de señales ciegas .
Los tres aspectos clave del modelo ASA de Bregman son: segmentación, integración y segregación.
El sonido llega al oído y el tímpano vibra como un todo. Esta señal tiene que ser analizada (de alguna manera). El modelo ASA de Bregman propone que los sonidos se escucharán como "integrados" (escuchados como un todo, muy parecido a la armonía en la música) o "segregados" en componentes individuales (lo que conduce al contrapunto). [2] Por ejemplo, una campana se puede escuchar como un sonido "único" (integrado), o algunas personas pueden escuchar los componentes individuales: pueden segregar el sonido. Esto se puede hacer con acordes donde se pueda escuchar como un "color" o como notas individuales. Los sonidos naturales , como la voz humana , los instrumentos musicales o los coches que pasan por la calle, se componen de muchas frecuencias que contribuyen a la calidad percibida (como el timbre) de los sonidos. Cuando dos o más sonidos naturales ocurren a la vez, todos los componentes de los sonidos activos simultáneamente son recibidos al mismo tiempo, o superpuestos en el tiempo, por los oídos de los oyentes. Esto plantea un problema a sus sistemas auditivos: ¿qué partes del sonido deberían agruparse y tratarse como partes de la misma fuente u objeto? Agruparlos incorrectamente puede hacer que el oyente escuche sonidos inexistentes creados a partir de combinaciones incorrectas de los componentes originales.
En muchas circunstancias, los elementos segregados pueden vincularse en el tiempo, produciendo una corriente auditiva. Esta capacidad de transmisión auditiva puede demostrarse mediante el llamado efecto cóctel . Hasta cierto punto, con varias voces hablando al mismo tiempo o con sonidos de fondo, uno puede seguir una voz en particular aunque haya otras voces y sonidos de fondo presentes. [3] En este ejemplo, el oído segrega esta voz de otros sonidos (que están integrados) y la mente "transmite" estos sonidos segregados en una corriente auditiva. Esta es una habilidad altamente desarrollada por los músicos, en particular los directores que pueden escuchar uno, dos, tres o más instrumentos al mismo tiempo (segregándolos) y seguir cada uno como una línea independiente a través de una transmisión auditiva [ cita necesaria ] .
Varios principios de agrupación parecen subyacer en la ASA, muchos de los cuales están relacionados con principios de organización perceptual descubiertos por la escuela de psicología Gestalt . Estos se pueden clasificar en términos generales en mecanismos de agrupación secuencial (aquellos que operan a lo largo del tiempo) y mecanismos de agrupación simultánea (aquellos que operan a través de la frecuencia):
La segregación puede basarse principalmente en señales de percepción o depender del reconocimiento de patrones aprendidos ("basada en esquemas").
El trabajo de ASA es agrupar la información sensorial entrante para formar una representación mental precisa de los sonidos individuales. Cuando el sistema auditivo agrupa los sonidos en una secuencia percibida, distinta de otras secuencias concurrentes, cada una de estas secuencias percibidas se denomina "flujo auditivo". En el mundo real, si el ASA tiene éxito, una corriente corresponde a una fuente de sonido ambiental distinta que produce un patrón que persiste en el tiempo, como una persona hablando, tocando el piano o un perro ladrando. Sin embargo, en el laboratorio, manipulando los parámetros acústicos de los sonidos, es posible inducir la percepción de una o más corrientes auditivas.
Un ejemplo de ello es el fenómeno del streaming , también llamado "segregación de flujos". [7] Si dos sonidos, A y B, se alternan rápidamente en el tiempo, después de unos segundos la percepción puede parecer "dividida" de modo que el oyente escucha dos corrientes de sonido en lugar de una, correspondiendo cada corriente a las repeticiones de una. de los dos sonidos, por ejemplo, AAAA-, etc. acompañado de BBBB-, etc. La tendencia hacia la segregación en corrientes separadas se ve favorecida por las diferencias en las propiedades acústicas de los sonidos A y B. Entre las diferencias que clásicamente se ha demostrado que promueven la segregación se encuentran los de frecuencia (para tonos puros ), frecuencia fundamental (para tonos complejos ), composición de frecuencia, ubicación de la fuente. Pero se ha sugerido que cualquier diferencia perceptiva sistemática entre dos secuencias puede provocar la transmisión, [8] siempre que la velocidad de la secuencia sea suficiente.
Puede encontrar una página web interactiva que ilustra esta transmisión y la importancia de la separación de frecuencias y la velocidad aquí.
Andranik Tangian sostiene que el fenómeno de agrupación se observa no sólo en la dinámica sino también en la estática. Por ejemplo, la sensación de un acorde es el efecto de la representación de datos acústicos más que una causalidad física (de hecho, un solo cuerpo físico, como la membrana de un altavoz, puede producir un efecto de varios tonos, y varios cuerpos físicos, como tubos de órgano afinados como un acorde, puede producir un efecto de un solo tono). Desde el punto de vista de la acústica musical , un acorde es un tipo especial de sonido cuyo espectro , el conjunto de tonos parciales (oscilaciones sinusoidales), puede considerarse generado por desplazamientos de un solo espectro tonal a lo largo del eje de frecuencia. En otras palabras, la estructura de intervalos del acorde es un contorno acústico trazado por un tono (en dinámica, las voces polifónicas son trayectorias de espectros tonales). Esto está justificado por la teoría de la información. Si el tono generativo es armónico (= tiene una prominencia tonal), entonces se demuestra que dicha representación es única y requiere la menor cantidad de memoria, es decir, es la menos compleja en el sentido de Kolmogorov . Dado que todas las demás representaciones son más simples, incluida aquella en la que el acorde se considera como un sonido único y complejo, el acorde se percibe como un compuesto. Si el tono generativo es inarmónico, como un sonido de campana, la estructura de intervalos todavía se puede reconocer como desplazamientos de un espectro tonal, cuyo tono puede ser incluso indetectable. Esta definición óptima de un acorde basada en la representación explica, entre otras cosas, el predominio de la audición de intervalo sobre la audición de tono absoluto. [9] [10]
Muchos experimentos han estudiado la segregación de patrones de sonido más complejos, como una secuencia de notas altas de diferentes tonos, intercaladas con notas bajas. En tales secuencias, la segregación de sonidos concurrentes en corrientes distintas tiene un efecto profundo en la forma en que se escuchan. La percepción de una melodía se forma más fácilmente si todas sus notas caen en la misma corriente auditiva. Tendemos a escuchar los ritmos entre notas que están en la misma secuencia, excluyendo aquellas que están en otras secuencias. Los juicios sobre el tiempo son más precisos entre notas de la misma secuencia que entre notas de secuencias separadas. Incluso la ubicación espacial percibida y el volumen percibido pueden verse afectados por la agrupación secuencial. Si bien la investigación inicial sobre este tema se realizó en adultos humanos, estudios recientes han demostrado que algunas capacidades de ASA están presentes en los recién nacidos, lo que demuestra que están integradas, en lugar de aprendidas a través de la experiencia. Otras investigaciones han demostrado que los animales no humanos también presentan ASA. Actualmente, los científicos están estudiando la actividad de las neuronas en las regiones auditivas de la corteza cerebral para descubrir los mecanismos subyacentes al ASA.