Análisis de la escena auditiva

En percepción y psicofísica , el análisis de escena auditiva ( ASA ) es un modelo propuesto para la base de la percepción auditiva. Esto se entiende como el proceso por el cual el sistema auditivo humano organiza el sonido en elementos perceptualmente significativos. El término fue acuñado por el psicólogo Albert Bregman . ^[1] El concepto relacionado en la percepción de la máquina es el análisis computacional de escena auditiva (CASA), que está estrechamente relacionado con la separación de fuentes y la separación ciega de señales .

Los tres aspectos clave del modelo ASA de Bregman son: segmentación, integración y segregación.

Fondo

El sonido llega al oído y el tímpano vibra como un todo. Esta señal tiene que ser analizada (de alguna manera). El modelo ASA de Bregman propone que los sonidos se escucharán como "integrados" (escuchados como un todo, como la armonía en la música) o "segregados" en componentes individuales (lo que conduce al contrapunto). ^[2] Por ejemplo, una campana se puede escuchar como un sonido "único" (integrado), o algunas personas pueden escuchar los componentes individuales: pueden segregar el sonido. Esto se puede hacer con acordes donde se puede escuchar como un "color", o como notas individuales. Los sonidos naturales , como la voz humana , los instrumentos musicales o los autos que pasan por la calle, se componen de muchas frecuencias, que contribuyen a la calidad percibida (como el timbre) de los sonidos. Cuando dos o más sonidos naturales ocurren a la vez, todos los componentes de los sonidos activos simultáneamente se reciben al mismo tiempo, o se superponen en el tiempo, por los oídos de los oyentes. Esto plantea un problema a sus sistemas auditivos: ¿qué partes del sonido deben agruparse y tratarse como partes de la misma fuente u objeto? Agruparlas incorrectamente puede provocar que el oyente escuche sonidos inexistentes formados a partir de combinaciones incorrectas de los componentes originales.

En muchas circunstancias, los elementos separados pueden vincularse entre sí en el tiempo, produciendo una corriente auditiva. Esta capacidad de transmisión auditiva puede demostrarse mediante el llamado efecto cóctel . Hasta cierto punto, con varias voces hablando al mismo tiempo o con sonidos de fondo, uno puede seguir una voz en particular aunque haya otras voces y sonidos de fondo presentes. ^[3] En este ejemplo, el oído separa esta voz de otros sonidos (que están integrados) y la mente "transmite" estos sonidos separados en una corriente auditiva. Esta es una habilidad muy desarrollada por los músicos, en particular los directores que pueden escuchar uno, dos, tres o más instrumentos al mismo tiempo (segregándolos) y seguir cada uno como una línea independiente a través de la transmisión auditiva ^{[ cita requerida ]} .

Agrupamiento y flujos

Parece que la ASA se sustenta en una serie de principios de agrupamiento, muchos de los cuales están relacionados con los principios de organización perceptual descubiertos por la escuela de psicología de la Gestalt . Estos pueden clasificarse en general en mecanismos de agrupamiento secuencial (aquellos que operan a lo largo del tiempo) y mecanismos de agrupamiento simultáneo (aquellos que operan a lo largo de la frecuencia):

Los errores en la agrupación simultánea pueden dar lugar a la combinación de sonidos que deberían escucharse por separado, y los sonidos combinados tienen cualidades percibidas diferentes (como tono o timbre) que cualquiera de los sonidos que se reciben realmente. Por ejemplo, dos vocales presentadas simultáneamente pueden no ser identificables si están separadas. ^[4]
Los errores en la agrupación secuencial pueden llevar, por ejemplo, a escuchar una palabra formada por sílabas originadas por dos voces diferentes. ^[5]^[6]

La segregación puede basarse principalmente en señales perceptivas o depender del reconocimiento de patrones aprendidos ("basada en esquemas").

La función del ASA es agrupar la información sensorial entrante para formar una representación mental precisa de los sonidos individuales. Cuando el sistema auditivo agrupa los sonidos en una secuencia percibida, distinta de otras secuencias coexistentes, cada una de estas secuencias percibidas se denomina "flujo auditivo". En el mundo real, si el ASA tiene éxito, un flujo corresponde a una fuente de sonido ambiental distinta que produce un patrón que persiste en el tiempo, como una persona hablando, un piano tocando o un perro ladrando. Sin embargo, en el laboratorio, al manipular los parámetros acústicos de los sonidos, es posible inducir la percepción de uno o más flujos auditivos.

Un ejemplo de esto es el fenómeno de streaming , también llamado "segregación de stream". ^[7] Si dos sonidos, A y B, se alternan rápidamente en el tiempo, después de unos segundos la percepción puede parecer "dividida" de modo que el oyente oye dos en lugar de un flujo de sonido, cada flujo correspondiente a las repeticiones de uno de los dos sonidos, por ejemplo, AAAA-, etc. acompañado de BBBB-, etc. La tendencia hacia la segregación en flujos separados se ve favorecida por las diferencias en las propiedades acústicas de los sonidos A y B. Entre las diferencias que clásicamente se ha demostrado que promueven la segregación están las de frecuencia (para tonos puros ), frecuencia fundamental (para tonos complejos ), composición de frecuencia, ubicación de la fuente. Pero se ha sugerido que casi cualquier diferencia perceptiva sistemática entre dos secuencias puede provocar streaming, ^[8] siempre que la velocidad de la secuencia sea suficiente.

Puede encontrar una página web interactiva que ilustra esta transmisión y la importancia de la separación de frecuencias y la velocidad aquí.

Andranik Tangian sostiene que el fenómeno de agrupamiento se observa no sólo en dinámica sino también en estática. Por ejemplo, la sensación de un acorde es el efecto de la representación de datos acústicos más que la causalidad física (de hecho, un solo cuerpo físico, como la membrana de un altavoz, puede producir un efecto de varios tonos, y varios cuerpos físicos, como los tubos de un órgano afinados como un acorde, pueden producir un efecto de un solo tono). Desde el punto de vista de la acústica musical , un acorde es un tipo especial de sonido cuyo espectro —el conjunto de tonos parciales (oscilaciones sinusoidales)— puede considerarse generado por desplazamientos de un solo espectro de tonos a lo largo del eje de frecuencias. En otras palabras, la estructura de intervalos del acorde es un contorno acústico dibujado por un tono (en dinámica, las voces polifónicas son trayectorias de espectros de tonos). Esto se justifica mediante la teoría de la información. Si el tono generativo es armónico (= tiene una prominencia de tono), entonces se demuestra que dicha representación es única y requiere la menor cantidad de memoria, es decir, es la menos compleja en el sentido de Kolmogorov . Dado que es más simple que todas las demás representaciones, incluida aquella en la que el acorde se considera un sonido complejo único, el acorde se percibe como un compuesto. Si el tono generativo es inarmónico, como un sonido de campana, la estructura de intervalos todavía es reconocible como desplazamientos de un espectro de tonos, cuyo tono puede ser incluso indetectable. Esta definición óptima basada en la representación de un acorde explica, entre otras cosas, el predominio de la audición de intervalos sobre la audición de tono absoluto. ^[9]^[10]

Base experimental

Muchos experimentos han estudiado la segregación de patrones de sonido más complejos, como una secuencia de notas altas de diferentes tonos intercaladas con otras bajas. En tales secuencias, la segregación de sonidos que ocurren simultáneamente en corrientes distintas tiene un profundo efecto en la forma en que se escuchan. La percepción de una melodía se forma más fácilmente si todas sus notas caen en la misma corriente auditiva. Tendemos a escuchar los ritmos entre notas que están en la misma corriente, excluyendo aquellas que están en otras corrientes. Los juicios de tiempo son más precisos entre notas de la misma corriente que entre notas de corrientes separadas. Incluso la ubicación espacial percibida y la intensidad percibida pueden verse afectadas por la agrupación secuencial. Si bien la investigación inicial sobre este tema se realizó en adultos humanos, estudios recientes han demostrado que algunas capacidades de ASA están presentes en los recién nacidos, lo que demuestra que son innatas, en lugar de aprendidas a través de la experiencia. Otras investigaciones han demostrado que los animales no humanos también presentan ASA. Actualmente, los científicos están estudiando la actividad de las neuronas en las regiones auditivas de la corteza cerebral para descubrir los mecanismos subyacentes a la ASA.

Véase también

Referencias

^ Bregman, AS (1990). Análisis de la escena auditiva: la organización perceptual del sonido . Cambridge, MA: MIT Press. ISBN 9780262022972.
^ Wright, James y Albert S. Bregman (1987). "Segregación de la corriente auditiva y el control de la disonancia en la música polifónica". Revista de música contemporánea . 2 (1): 63-92.
^ Miller, GA (1947). "El enmascaramiento del habla". Psychological Bulletin . 44 (2): 105–129. doi :10.1037/h0055960. PMID 20288932.
^ Assmann, PF; Summerfield, Q. (agosto de 1990). "Modelado de la percepción de vocales concurrentes: vocales con diferentes frecuencias fundamentales". Revista de la Sociedad Acústica de América . 88 (2): 680–697. Bibcode :1990ASAJ...88..680A. doi :10.1121/1.399772. PMID 2212292.
^ Gaudrain, E.; Grimault, N.; Healy, EW; Béra, J.-C. (2007). "Efecto del smearing espectral en la segregación perceptual de secuencias vocálicas". Hearing Research . 231 (1–2): 32–41. doi :10.1016/j.heares.2007.05.001. PMC 2128787 . PMID 17597319.
^ Billig, AJ; Davis, MH; Deeks, JM; Monstrey, J.; Carlyon, RP (2013). "Influencias léxicas en la transmisión auditiva". Current Biology . 23 (16): 1585–1589. doi :10.1016/j.cub.2013.06.042. PMC 3748342 . PMID 23891107.
^ van Noorden, LPAS (1975). Coherencia temporal en la percepción de secuencias de tonos (PDF) (PhD). Países Bajos: Universidad Tecnológica de Eindhoven . Consultado el 10 de marzo de 2018 .
^ Moore, BCJ; Gockel, HE (2012). "Propiedades de la formación de la corriente auditiva". Philosophical Transactions of the Royal Society B: Biological Sciences . 367 (1591): 919–931. doi :10.1098/rstb.2011.0355. PMC 3282308 . PMID 22371614.
^ Tanguiane (Tangian), Andranick (1993). Percepción artificial y reconocimiento musical . Apuntes de clase sobre inteligencia artificial. Vol. 746. Berlín-Heidelberg: Springer. ISBN 978-3-540-57394-4.
^ Tanguiane (Tanguiane), Andranick (1994). "Un principio de correlatividad de la percepción y su aplicación al reconocimiento musical". Percepción musical . 11 (4): 465–502. doi :10.2307/40285634.