La localización de sonido 3D basada en la percepción es la aplicación del conocimiento del sistema auditivo humano para desarrollar tecnología de localización de sonido 3D .
Los oyentes humanos combinan información de sus dos oídos para localizar y separar fuentes de sonido que se originan en diferentes lugares en un proceso llamado audición binaural. Los potentes métodos de procesamiento de señales que se encuentran en los sistemas neuronales y los cerebros de los humanos y otros animales son flexibles, se adaptan al entorno [1] y se llevan a cabo rápidamente y aparentemente sin esfuerzo. [2] La emulación de los mecanismos de la audición binaural puede mejorar la precisión del reconocimiento y la separación de señales en los algoritmos DSP , especialmente en entornos ruidosos. [3] Además, al comprender y explotar los mecanismos biológicos de localización del sonido, las escenas de sonido virtuales se pueden representar con métodos más relevantes desde el punto de vista perceptual, lo que permite a los oyentes percibir con precisión las ubicaciones de los eventos auditivos. [4] Una forma de obtener la localización del sonido basada en la percepción es a partir de las aproximaciones dispersas de las características antropométricas. La localización del sonido basada en la percepción se puede utilizar para mejorar y complementar la navegación robótica y la capacidad de reconocimiento del entorno. [1] Además, también se utiliza para crear espacios auditivos virtuales que se implementan ampliamente en los audífonos.
Si bien la relación entre la percepción humana del sonido y varios atributos del campo sonoro aún no se comprende bien, [2] los algoritmos DSP para la localización del sonido pueden emplear varios mecanismos que se encuentran en los sistemas neuronales, incluida la diferencia de tiempo interaural (ITD, la diferencia en el tiempo de llegada de un sonido entre dos ubicaciones), la diferencia de intensidad interaural (IID, la diferencia en la intensidad de un sonido entre dos ubicaciones), las orejas artificiales , el efecto de precedencia y las funciones de transferencia relacionadas con la cabeza (HRTF). Al localizar el sonido 3D en el dominio espacial, se podría tener en cuenta que la señal de sonido entrante podría reflejarse, difractarse y dispersarse por la parte superior del torso del humano, que consta de hombros, cabeza y orejas . La localización también depende de la dirección de la fuente de sonido. [5]
El simulador de cabeza y torso (HATS) de Brüel & Kjær es un prototipo de maniquí con simuladores de oído y boca incorporados que proporciona una reproducción realista de las propiedades acústicas de la cabeza y el torso de un ser humano adulto promedio. Está diseñado para usarse en pruebas electroacústicas, por ejemplo, auriculares, dispositivos de audioconferencia, micrófonos, cascos y audífonos. Varios enfoques existentes se basan en este modelo estructural. [6]
Es esencial poder analizar la distancia y la intensidad de varias fuentes en un dominio espacial. Podemos rastrear cada una de estas fuentes de sonido, utilizando una integración temporal probabilística, basada en datos obtenidos a través de una matriz de micrófonos y un rastreador de filtrado de partículas. Usando este enfoque, la Función de Densidad de Probabilidad (PDF) que representa la ubicación de cada fuente se representa como un conjunto de partículas a las que se les asignan diferentes pesos (probabilidades). La elección del filtrado de partículas en lugar del filtrado de Kalman se justifica además por las probabilidades no gaussianas que surgen de las detecciones falsas y de múltiples fuentes. [7]
Según la teoría dúplex, los ITD tienen una mayor contribución a la localización de sonidos de baja frecuencia (por debajo de 1 kHz), [4] mientras que los ILD se utilizan en la localización de sonido de alta frecuencia. Estos enfoques se pueden aplicar a reconstrucciones selectivas de señales espacializadas, donde los componentes espectrotemporales que se cree que están dominados por la fuente de sonido deseada se identifican y aíslan a través de la transformada de Fourier de tiempo corto (STFT). Los sistemas modernos normalmente calculan la STFT de la señal entrante de dos o más micrófonos, y estiman el ITD o cada componente espectrotemporal comparando las fases de las STFT. Una ventaja de este enfoque es que se puede generalizar a más de dos micrófonos, lo que puede mejorar la precisión en 3 dimensiones y eliminar la ambigüedad de localización frontal-posterior que ocurre con solo dos oídos o micrófonos. [1] Otra ventaja es que el ITD es relativamente fuerte y fácil de obtener sin instrumentos biomiméticos como cabezas de maniquí y pabellones auriculares artificiales, aunque estos aún se pueden utilizar para mejorar las disparidades de amplitud. [1] La respuesta de fase HRTF es mayoritariamente lineal y los oyentes son insensibles a los detalles del espectro de fase interaural siempre que se mantenga el retardo de tiempo interaural (ITD) de la parte combinada de baja frecuencia de la forma de onda.
Las diferencias de nivel interaural (ILD) representan la diferencia en el nivel de presión sonora que llega a los dos oídos. Proporcionan pistas destacadas para localizar sonidos de alta frecuencia en el espacio, y las poblaciones de neuronas que son sensibles a la ILD se encuentran en casi todos los niveles sinápticos desde el tronco encefálico hasta la corteza. Estas células se excitan predominantemente por la estimulación de un oído y se inhiben predominantemente por la estimulación del otro oído, de modo que la magnitud de su respuesta está determinada en gran parte por las intensidades en los dos oídos. Esto da lugar al concepto de amortiguación resonante. [8] La diferencia de nivel interaural (ILD) es mejor para los sonidos de alta frecuencia porque los sonidos de baja frecuencia no se atenúan mucho por la cabeza. La ILD (también conocida como diferencia de intensidad interaural) surge cuando la fuente de sonido no está centrada, la cabeza del oyente ensombrece parcialmente el oído opuesto a la fuente, disminuyendo la intensidad del sonido en ese oído (particularmente en frecuencias más altas). Las orejas filtran el sonido de una manera que depende de la dirección. Esto es particularmente útil para determinar si un sonido viene de arriba, abajo, delante o detrás.
Las diferencias de tiempo y nivel interaurales (ITD, ILD) desempeñan un papel en la percepción del acimut , pero no pueden explicar la localización vertical. Según la teoría dúplex, las ITD tienen una mayor contribución a la localización de sonidos de baja frecuencia (por debajo de 1 kHz), mientras que las ILD se utilizan en la localización de sonidos de alta frecuencia. [8] La ILD surge del hecho de que un sonido que proviene de una fuente ubicada a un lado de la cabeza tendrá una mayor intensidad, o será más fuerte, en el oído más cercano a la fuente de sonido. Por lo tanto, se puede crear la ilusión de una fuente de sonido que emana de un lado de la cabeza simplemente ajustando el nivel relativo de los sonidos que se envían a dos altavoces o auriculares separados. Esta es la base del control de panorámica de uso común.
La diferencia de fase interaural (IPD) se refiere a la diferencia en la fase de una onda que llega a cada oído y depende de la frecuencia de la onda sonora y de las diferencias de tiempo interaurales (ITD). [8]
Una vez que el cerebro ha analizado IPD, ITD e ILD, se puede determinar la ubicación de la fuente de sonido con relativa precisión.
El efecto de precedencia es la observación de que la localización del sonido puede estar dominada por los componentes de un sonido complejo que son los primeros en llegar. Al permitir que los componentes de campo directo (aquellos que llegan directamente desde la fuente de sonido) dominen mientras se suprime la influencia de los componentes reflejados retrasados desde otras direcciones, el efecto de precedencia puede mejorar la precisión de la ubicación del sonido percibido en un entorno reverberante. El procesamiento del efecto de precedencia implica mejorar el borde delantero de las envolventes de sonido de la señal después de dividirla en bandas de frecuencia mediante un filtrado de paso de banda. Este enfoque se puede realizar tanto a nivel monoaural como a nivel binaural, y mejora la precisión en entornos reverberantes en ambos casos. Sin embargo, los beneficios de utilizar el efecto de precedencia pueden desaparecer en un entorno anecoico.
El cuerpo de un oyente humano obstruye las ondas sonoras entrantes, lo que provoca un filtrado lineal de la señal sonora debido a la interferencia de la cabeza, los oídos y el cuerpo. Los humanos utilizan señales dinámicas para reforzar la localización. Estas surgen de movimientos activos, a veces inconscientes, del oyente, que cambian la posición relativa de la fuente. Se ha informado de que las confusiones de frente/atrás que son comunes en las pruebas de escucha estática desaparecen cuando se permite a los oyentes girar ligeramente la cabeza para ayudarlos en la localización. Sin embargo, si la escena sonora se presenta a través de auriculares sin compensación por el movimiento de la cabeza, la escena no cambia con el movimiento del usuario y no hay señales dinámicas. [9]
Las funciones de transferencia relacionadas con la cabeza contienen todos los descriptores de señales de localización como ITD e IID, así como señales monoaurales. Cada HRTF representa de forma única la transferencia de sonido desde una posición específica en el espacio 3D hasta los oídos de un oyente. El proceso de decodificación realizado por el sistema auditivo se puede imitar utilizando una configuración artificial que consta de dos micrófonos, dos oídos artificiales y una base de datos HRTF. [10] Para determinar la posición de una fuente de audio en el espacio 3D, las señales de entrada del oído se convolucionan con las inversas de todos los pares HRTF posibles, donde la inversa correcta maximiza la correlación cruzada entre las señales derecha e izquierda convolucionadas. En el caso de múltiples fuentes de sonido simultáneas, la transmisión de sonido desde la fuente a los oídos se puede considerar una entrada y salida múltiples . Aquí, las HRTF con las que se filtraron las señales de la fuente en ruta a los micrófonos se pueden encontrar utilizando métodos como la separación ciega de fuentes convolucional, que tiene la ventaja de una implementación eficiente en sistemas en tiempo real. En general, estos enfoques que utilizan HRTF se pueden optimizar bien para localizar múltiples fuentes de sonido en movimiento. [10] El ser humano promedio tiene la notable capacidad de localizar una fuente de sonido con una precisión de más de 5 ◦ tanto en acimut como en elevación, en entornos desafiantes. [ cita requerida ]
{{cite journal}}
: Requiere citar revista |journal=
( ayuda ){{cite journal}}
: Requiere citar revista |journal=
( ayuda ){{cite journal}}
: Requiere citar revista |journal=
( ayuda )