La localización de sonido 3D se refiere a una tecnología acústica que se utiliza para localizar la fuente de un sonido en un espacio tridimensional . La ubicación de la fuente suele estar determinada por la dirección de las ondas sonoras entrantes (ángulos horizontales y verticales) y la distancia entre la fuente y los sensores. Implica el diseño de la disposición de la estructura de los sensores y las técnicas de procesamiento de señales .
La mayoría de los mamíferos (incluidos los humanos) utilizan la audición binaural para localizar el sonido, comparando la información que reciben de cada oído en un proceso complejo que implica una cantidad significativa de síntesis. Es difícil localizar utilizando la audición monoaural , especialmente en el espacio 3D .
La tecnología de localización de sonido se utiliza en algunos campos de audio y acústica , como los audífonos , la vigilancia [1] y la navegación . Los sistemas de localización de sonido pasivos en tiempo real existentes se basan principalmente en el enfoque de diferencia de tiempo de llegada ( TDOA ), que limita la localización del sonido al espacio bidimensional y no son prácticos en condiciones ruidosas.
Las aplicaciones de la localización de fuentes de sonido incluyen la separación de fuentes de sonido, el seguimiento de fuentes de sonido y la mejora del habla. El sonar utiliza técnicas de localización de fuentes de sonido para identificar la ubicación de un objetivo. La localización de sonido 3D también se utiliza para una interacción eficaz entre humanos y robots. Con la creciente demanda de audición robótica, se están explorando algunas aplicaciones de la localización de sonido 3D, como la interfaz hombre-máquina, la asistencia a discapacitados y las aplicaciones militares. [2]
Las señales de localización [3] son características que ayudan a localizar el sonido. Las señales para la localización del sonido incluyen señales binaurales y monoaurales.
La primera pista que utiliza nuestro oído es la diferencia de tiempo interaural. El sonido procedente de una fuente situada justo delante o detrás de nosotros llegará simultáneamente a ambos oídos. Si la fuente se mueve hacia la izquierda o hacia la derecha, nuestros oídos captan el sonido de la misma fuente que llega a ambos oídos, pero con un cierto retraso. Otra forma de decirlo podría ser que los dos oídos captan diferentes fases de la misma señal. [4]
Existen muchos métodos diferentes de localización de sonido 3D. Por ejemplo:
Este método utiliza ocho micrófonos combinados con un conformador de haz dirigido mejorado por la Transformada de Fase Ponderada por Confiabilidad (RWPHAT). Los resultados finales se filtran a través de un filtro de partículas que rastrea las fuentes y evita direcciones falsas.
La motivación para utilizar este método se basa en investigaciones previas. Este método se utiliza para el seguimiento y localización de múltiples fuentes de sonido, a pesar de que el seguimiento y la localización del sonido solo se aplican a una única fuente de sonido.
Para maximizar la energía de salida de un conformador de haz de retardo y suma con el fin de encontrar el valor máximo de la salida de un conformador de haz orientado en todas las direcciones posibles. Utilizando el método de Transformada de Fase Ponderada por Confiabilidad (RWPHAT), la energía de salida del conformador de haz de retardo y suma de micrófono M es
Donde E indica la energía y K es una constante, es la correlación cruzada de pares de micrófonos definida por la Transformada de Fase Ponderada por Confiabilidad:
El factor ponderado refleja la confiabilidad de cada componente de frecuencia y se define como la ganancia del filtro Wiener , donde es una estimación de una relación señal/ruido (SNR) previa en el micrófono, en el intervalo de tiempo , para la frecuencia , calculada utilizando el enfoque dirigido por decisiones. [8]
La señal del micrófono es la demora de llegada a ese micrófono. El procedimiento más específico de este método es propuesto por Valin y Michaud [9].
La ventaja de este método es que detecta la dirección del sonido y calcula la distancia de las fuentes sonoras. La principal desventaja del método de formación de haces es la naturaleza imperfecta de la precisión y la capacidad de localización del sonido, en comparación con el método de red neuronal, que utiliza altavoces en movimiento.
Este método se relaciona con la técnica de localización de sonido en tiempo real que utiliza un conjunto de sensores de vector acústico (AVS), que mide los tres componentes de la velocidad de las partículas acústicas, así como la presión del sonido, a diferencia de los conjuntos de sensores acústicos convencionales que solo utilizan la información de la presión y los retrasos en el campo acústico que se propaga. Al aprovechar esta información adicional, los conjuntos de AVS pueden mejorar significativamente la precisión de la localización de la fuente.
• Contiene tres sensores de velocidad de partículas acústicas colocados ortogonalmente (mostrados como matriz X, Y y Z) y un micrófono acústico omnidireccional (O).
• Se utiliza comúnmente tanto en el aire [10] como bajo el agua.
• Se puede utilizar en combinación con el proceso de calibración fuera de línea [11] para medir e interpolar la respuesta al impulso de las matrices X, Y, Z y O, para obtener su vector de dirección.
Primero se divide una señal de sonido en ventanas utilizando una ventana rectangular, luego cada señal de segmento resultante se crea como un marco. Se detectan 4 marcos paralelos de la matriz XYZO y se utilizan para la estimación de DOA. Los 4 marcos se dividen en bloques pequeños con el mismo tamaño, luego se utilizan la ventana de Hamming y FFT para convertir cada bloque de un dominio de tiempo a un dominio de frecuencia. Luego, la salida de este sistema se representa mediante un ángulo horizontal y un ángulo vertical de las fuentes de sonido que se encuentra mediante el pico en el espectro espacial 3D combinado.
Las ventajas de este conjunto, en comparación con los conjuntos de micrófonos anteriores, son que este dispositivo tiene un alto rendimiento incluso si la apertura es pequeña y puede localizar múltiples fuentes de sonido de banda ancha de baja y alta frecuencia simultáneamente. La aplicación de un conjunto O puede hacer que haya más información acústica disponible, como la amplitud y la diferencia de tiempo. Lo más importante es que el conjunto XYZO tiene un mejor rendimiento con un tamaño diminuto.
El AVS es un tipo de matriz de micrófonos múltiples ubicados uno al lado del otro, utiliza un enfoque de matriz de micrófonos múltiples para estimar las direcciones del sonido mediante múltiples matrices y luego encuentra las ubicaciones utilizando información de reflexión, como dónde se detecta la dirección donde se cruzan diferentes matrices.
Las reflexiones de sonido siempre ocurren en un entorno real y los conjuntos de micrófonos [12] no pueden evitar observar esas reflexiones. Este enfoque de conjuntos múltiples se probó utilizando conjuntos fijos en el techo; aún queda por probar el rendimiento del escenario móvil.
La incertidumbre angular (AU) se producirá al estimar la dirección, y la incertidumbre de posición (PU) también se agravará con el aumento de la distancia entre el conjunto y la fuente. Sabemos que:
Donde r es la distancia entre el centro de la matriz y la fuente, y AU es el ángulo incierto. La medición se utiliza para juzgar si dos direcciones se cruzan en algún lugar o no. Distancia mínima entre dos líneas:
donde y son dos direcciones, son vectores paralelos a la dirección detectada y son la posición de las matrices.
Si
Se considera que dos líneas se cruzan. Cuando dos líneas se cruzan, podemos calcular la ubicación de la fuente de sonido utilizando lo siguiente:
es la estimación de la posición de la fuente de sonido, es la posición en la que cada dirección interseca la línea con la distancia mínima y son los factores ponderados. Como factor de ponderación , determinamos el uso o desde la matriz hasta la línea con la distancia mínima.
Las técnicas basadas en escaneo son una herramienta poderosa para localizar y visualizar fuentes de sonido estacionarias en el tiempo, ya que solo requieren el uso de un único sensor y un sistema de seguimiento de posición. Un método popular para lograr esto es mediante el uso de un sensor de vector acústico (AVS), también conocido como sonda de intensidad de sonido 3D, en combinación con un rastreador 3D.
El procedimiento de medición implica mover manualmente el sensor AVS alrededor de la fuente de sonido mientras se utiliza una cámara estéreo para extraer la posición instantánea del sensor en el espacio tridimensional. Las señales registradas se dividen luego en múltiples segmentos y se asignan a un conjunto de posiciones mediante un algoritmo de discretización espacial. Esto permite el cálculo de una representación vectorial de las variaciones acústicas en el campo sonoro, utilizando combinaciones de la presión sonora y las tres velocidades de partículas acústicas ortogonales.
Los resultados del análisis AVS se pueden presentar en un boceto 3D del objeto analizado, lo que proporciona una representación visual de la distribución del sonido alrededor de una malla 3D del objeto o entorno. Esto puede resultar útil para localizar fuentes de sonido en diversos campos, como la acústica arquitectónica, el control del ruido y la ingeniería de audio, ya que permite una comprensión detallada de la distribución del sonido y sus interacciones con el entorno circundante.
El aprendizaje auditivo binaural [5] es un método biónico . El sensor es una cabeza de robot ficticia con 2 micrófonos sensores junto con el pabellón auricular artificial (reflector). La cabeza del robot tiene 2 ejes de rotación y puede rotar horizontal y verticalmente. El reflector hace que el espectro cambie a un patrón determinado para la onda sonora de ruido blanco entrante y este patrón se utiliza como señal de localización vertical. La señal para la localización horizontal es ITD. El sistema utiliza un proceso de aprendizaje que utiliza redes neuronales al rotar la cabeza con una fuente sonora de ruido blanco establecida y analizar el espectro. Los experimentos muestran que el sistema puede identificar bien la dirección de la fuente en un cierto rango de ángulo de llegada. No puede identificar el sonido que viene fuera del rango debido al patrón de espectro colapsado del reflector. La audición binaural utiliza solo 2 micrófonos y es capaz de concentrarse en una fuente entre múltiples fuentes de ruido.
En la localización del sonido real, la cabeza y el torso del robot desempeñan un papel funcional, además de los dos pabellones auriculares. Esto funciona como un filtrado lineal espacial y el filtrado siempre se cuantifica en términos de la función de transferencia relacionada con la cabeza (HRTF). [14] La HRTF también utiliza el sensor de la cabeza del robot, que es el modelo de audición binaural. La HRTF se puede derivar en función de varias señales para la localización. La localización del sonido con HRTF consiste en filtrar la señal de entrada con un filtro diseñado en función de la HRTF. En lugar de utilizar las redes neuronales, se utiliza una función de transferencia relacionada con la cabeza y la localización se basa en un enfoque de correlación simple.
Ver más: Función de transferencia relacionada con la cabeza .
El método CSP [15] también se utiliza para el modelo binaural. La idea es que el ángulo de llegada se puede derivar a través del retardo de tiempo de llegada (TDOA) entre dos micrófonos, y el TDOA se puede estimar hallando los coeficientes máximos de CSP. Los coeficientes de CSP se derivan de la siguiente manera:
Donde y son las señales que ingresan al micrófono y respectivamente
El tiempo de retardo de llegada ( ) se puede estimar mediante:
La dirección de la fuente de sonido es
Donde es la velocidad de propagación del sonido, es la frecuencia de muestreo y es la distancia con máximo retardo de tiempo entre 2 micrófonos.
El método CPS no requiere los datos de respuesta al impulso del sistema que necesita HRTF. También se utiliza un algoritmo de maximización de expectativas para localizar varias fuentes de sonido y reducir los errores de localización. El sistema es capaz de identificar varias fuentes de sonido en movimiento utilizando solo dos micrófonos.
Para estimar la ubicación de una fuente en el espacio 3D, se pueden colocar dos conjuntos de sensores lineales horizontal y verticalmente. Un ejemplo es un conjunto lineal 2D utilizado para la localización de fuentes submarinas. [16] Al procesar los datos de dos conjuntos utilizando el método de máxima verosimilitud , se pueden identificar simultáneamente la dirección, el alcance y la profundidad de la fuente. A diferencia del modelo de audición binaural, este método es similar al método de análisis espectral . El método se puede utilizar para localizar una fuente distante.
La rotación de la matriz de dos micrófonos (también denominada matriz de dos micrófonos [17] ) genera una señal de diferencia de tiempo entre canales (ICTD) sinusoidal para una fuente de sonido estacionaria presente en un entorno 3D. El cambio de fase de la señal sinusoidal resultante se puede asignar directamente al ángulo acimutal de la fuente de sonido, y la amplitud de la señal ICTD se puede representar como una función del ángulo de elevación de la fuente de sonido y la distancia entre los dos micrófonos. [18] En el caso de múltiples fuentes, la señal ICTD tiene puntos de datos que forman múltiples formas de onda sinusoidales discontinuas. Se pueden aplicar técnicas de aprendizaje automático como el consenso de muestras aleatorias (RANSAC) y la agrupación espacial basada en la densidad de aplicaciones con ruido (DBSCAN) para identificar cambios de fase (asignación a acimutes) y amplitudes (asignación a elevaciones) de cada forma de onda sinusoidal discontinua en la señal ICTD. [19]
El sistema de localización de sonido basado en redes neuronales artificiales difusas jerárquicas se modeló a partir de la localización de sonido binaural biológica. Algunos animales primitivos con dos orejas y cerebros pequeños pueden percibir el espacio 3D y procesar sonidos, aunque el proceso no se comprende completamente. Algunos animales experimentan dificultades para localizar sonidos 3D debido al pequeño tamaño de su cabeza. Además, la longitud de onda del sonido de comunicación puede ser mucho mayor que el diámetro de su cabeza, como es el caso de las ranas .
Basado en métodos de localización de sonido binaural previos, un sistema de red neuronal artificial difusa jerárquica combina métodos de localización de sonido basados en diferencia de tiempo interaural (ITD) y diferencia de intensidad interaural (IID) para lograr una mayor precisión similar a la de los humanos. Se utilizaron redes neuronales artificiales difusas jerárquicas [20] con el objetivo de lograr la misma precisión de localización de sonido que los oídos humanos.
Los métodos de localización de sonido basados en IID o ITD tienen un problema principal llamado confusión frontal-posterior. [21] En esta localización de sonido basada en un sistema de red neuronal jerárquica, para resolver este problema, se realiza una estimación de IID con una estimación de ITD. Este sistema se utilizó para sonidos de banda ancha y se implementará para escenarios no estacionarios.
Por lo general, la localización del sonido se realiza utilizando dos (o más) micrófonos. Al utilizar la diferencia de los tiempos de llegada de un sonido a los dos micrófonos, se puede estimar matemáticamente la dirección de la fuente de sonido. Sin embargo, la precisión con la que un conjunto de micrófonos puede localizar un sonido (utilizando la diferencia de tiempo interaural ) está limitada fundamentalmente por el tamaño físico del conjunto. Si el conjunto es demasiado pequeño, los micrófonos se espacian demasiado juntos, de modo que todos graban esencialmente el mismo sonido (con una ITF cercana a cero), lo que hace extremadamente difícil estimar la orientación. Por lo tanto, no es raro que los conjuntos de micrófonos tengan una longitud que va desde decenas de centímetros (para aplicaciones de escritorio) hasta muchas decenas de metros (para localización subacuática). Sin embargo, los conjuntos de micrófonos de este tamaño se vuelven poco prácticos para usar en robots pequeños. Incluso para robots grandes, estos conjuntos de micrófonos pueden ser engorrosos de montar y maniobrar. Por el contrario, la capacidad de localizar el sonido utilizando un solo micrófono (que puede hacerse extremadamente pequeño) ofrece el potencial de dispositivos de localización significativamente más compactos y de menor costo y consumo de energía.
Una forma general de implementar la localización de sonido 3D es usar la HRTF ( función de transferencia relacionada con la cabeza ). Primero, calcule las HRTF para la localización de sonido 3D, formulando dos ecuaciones; una representa la señal de una fuente de sonido dada y la otra indica la salida de señal de los micrófonos de la cabeza del robot para el sonido transferido desde la fuente. Los datos de entrada monoaurales son procesados por estas HRTF y los resultados se emiten desde auriculares estéreo. La desventaja de este método es que se necesitan muchas operaciones paramétricas para que todo el conjunto de filtros realice la localización de sonido 3D, lo que resulta en una alta complejidad computacional.
Una implementación basada en DSP de un enfoque de localización de sonido 3D en tiempo real con el uso de un DSP integrado puede reducir la complejidad computacional. Como se muestra en la figura, el procedimiento de implementación de este algoritmo en tiempo real se divide en tres fases, (i) División de frecuencia, (ii) Localización de sonido y (iii) Mezcla. En el caso de la localización de sonido 3D para una fuente de sonido monoaural, los datos de entrada de audio se dividen en dos: canales izquierdo y derecho y los datos de entrada de audio en series de tiempo se procesan uno tras otro. [22]
Una característica distintiva de este enfoque es que la banda de frecuencia audible se divide en tres, de modo que se puede explotar un procedimiento distinto de localización de sonido 3D para cada una de las tres subbandas.
La localización monoaural es posible gracias a la estructura del pabellón auricular (oído externo), que modifica el sonido de una manera que depende de su ángulo de incidencia. Se ha adaptado un enfoque de aprendizaje automático para la localización monoaural utilizando solo un micrófono y un “pabellón auricular artificial” (que distorsiona el sonido de una manera dependiente de la dirección). El enfoque modela la distribución típica de sonidos naturales y artificiales, así como los cambios dependientes de la dirección de los sonidos inducidos por el pabellón auricular. [23] Los resultados experimentales también muestran que el algoritmo es capaz de localizar con bastante precisión una amplia gama de sonidos, como el habla humana, el ladrido de un perro, una cascada, un trueno, etc. A diferencia de los conjuntos de micrófonos, este enfoque también ofrece el potencial de dispositivos significativamente más compactos, así como de menor costo y consumo de energía, para la localización del sonido.