stringtranslate.com

Síntesis de sonido 3D

El sonido 3D se define más comúnmente como la experiencia humana diaria de los sonidos. Los sonidos llegan a los oídos desde todas las direcciones y a diferentes distancias, lo que contribuye a la imagen auditiva tridimensional que escuchan los humanos. Los científicos e ingenieros que trabajan con sonido 3D trabajan para sintetizar con precisión la complejidad de los sonidos del mundo real.

Objetivo

Debido a la presencia del sonido 3D en la vida diaria y al uso generalizado de la localización de sonido 3D , la aplicación de la síntesis de sonido 3D ganó popularidad en campos como los juegos, los cines en casa y los sistemas de ayuda humana. El propósito de la síntesis de sonido 3D es interpretar la información recopilada a partir del sonido 3D, de una manera que permita estudiar y aplicar los datos.

Aplicaciones

Una aplicación de la síntesis de sonido 3D es la sensación de presencia en un entorno virtual , al producir entornos y sensaciones más realistas en juegos, sistemas de teleconferencia y sistemas de teleconjunto. El sonido 3D también se puede utilizar para ayudar a las personas con discapacidades sensoriales, como las personas con discapacidad visual , y actuar como sustituto de otros comentarios sensoriales.

El sonido 3D puede incluir la ubicación de una fuente en un espacio tridimensional, así como las características de radiación sonora tridimensional de una fuente de sonido. [1]

Planteamiento del problema y conceptos básicos

Los tres problemas principales en la síntesis de sonido 3D son las inversiones de adelante hacia atrás, los sonidos escuchados intracranealmente y las mediciones de HRTF .

Las inversiones de delante hacia atrás son sonidos que se escuchan directamente delante de un sujeto cuando éste está situado detrás, y viceversa. Este problema puede reducirse mediante la inclusión precisa del movimiento de la cabeza y la respuesta del pabellón auricular del sujeto. Cuando estos dos se omiten durante el cálculo de HRTF, ocurrirá el problema inverso. Otra solución es la respuesta temprana del eco, que exagera las diferencias de los sonidos provenientes de diferentes direcciones y fortalece los efectos del pabellón auricular para reducir las tasas de inversión de adelante hacia atrás. [2] [3]

Los sonidos que se escuchan intracranealmente son sonidos externos que parecen escucharse dentro de la cabeza de una persona. Esto se puede resolver añadiendo señales de reverberación .

Las mediciones de HRTF son los ruidos sonoros y los problemas de linealidad que se producen. Al utilizar varias señales auditivas primarias con un sujeto experto en localización , se puede generar un HRTF eficaz en la mayoría de los casos.

Métodos

Los tres métodos principales utilizados en la síntesis de sonido 3D son la función de transferencia relacionada con la cabeza , la representación de sonido y la síntesis de sonido 3D con la ubicación del altavoz.

Función de transferencia relacionada con la cabeza

Estructura de síntesis que combina PCA y BMT.

La función de transferencia relacionada con la cabeza ( HRTF ) es una función lineal basada en la posición de la fuente de sonido y considera otra información que los humanos usan para localizar los sonidos, como la diferencia de tiempo interaural , la sombra de la cabeza , la respuesta del pabellón auricular, el eco del hombro, el movimiento de la cabeza y el eco temprano. respuesta, reverberación y visión.

El sistema intenta modelar el sistema acústico humano mediante el uso de una serie de micrófonos para grabar sonidos en los oídos humanos, lo que permite una síntesis más precisa de sonidos 3D. El HRTF se obtiene comparando estas grabaciones con los sonidos originales. Luego, el HRTF se utiliza para desarrollar pares de filtros de respuesta de impulso finito ( FIR ) para posiciones de sonido específicas y cada sonido tiene dos filtros para izquierda y derecha. Para colocar un sonido en una determinada posición en el espacio 3D, el conjunto de filtros FIR que corresponden a la posición se aplica al sonido entrante, produciendo un sonido espacial . [4] Los cálculos involucrados en la convolución de la señal de sonido desde un punto particular en el espacio suelen ser grandes, por lo que generalmente se necesita mucho trabajo para reducir la complejidad. Uno de esos trabajos se basa en la combinación del Análisis de Componentes Principales (PCA) y el Truncamiento Equilibrado del Modelo (BMT). PCA es un método ampliamente utilizado en minería y reducción de datos , que se utilizaba en la síntesis de sonido 3D antes del BMT para reducir la redundancia. El BMT se aplica para reducir la complejidad del cálculo.

Representación de sonido

El método de representación de sonido implica crear un mundo sonoro adjuntando un sonido característico a cada objeto de la escena para sintetizarlo como un sonido 3D. Las fuentes de sonido pueden obtenerse mediante muestreo o mediante métodos artificiales . Hay dos pasos distintos en el método. La primera pasada calcula las rutas de propagación desde cada objeto hasta el micrófono y el resultado se recopila para las transformaciones geométricas de la fuente de sonido. La transformación del primer paso está controlada tanto por el retraso como por la atenuación . La segunda pasada crea la banda sonora final de los objetos sonoros después de ser creados, modulados y sumados. [5]

El método de renderizado, un método más simple que la generación HRTF, utiliza la similitud entre las ondas de luz y sonido porque los sonidos en el espacio se propagan en todas direcciones. Las ondas sonoras se reflejan y refractan como la luz. El sonido final que se escucha es la integral de las señales transmitidas por trayectos múltiples.

Hay cuatro pasos para el procedimiento de procesamiento. El primer paso consiste en generar el sonido característico en cada objeto. El segundo paso es cuando se crea el sonido y se adjunta a los objetos en movimiento. El tercer paso es calcular las convoluciones , que están relacionadas con el efecto de la reverberación. La reproducción del sonido se aproxima a esto utilizando la longitud de onda del sonido similar al objeto para que se difunda en sus reflejos, proporcionando un efecto de suavizado del sonido. El último paso es aplicar las convoluciones calculadas a las fuentes de sonido en el paso dos. Estos pasos permiten utilizar un algoritmo de banda sonora simplificado sin hacer mucha diferencia.

Sintetizando sonido 3D con ubicación del altavoz

Reproducción del campo sonoro [6]

Este método implica colocar estratégicamente ocho altavoces para simular el sonido espacial , en lugar de adjuntar sonido muestreado a objetos. [6] El primer paso consiste en capturar el sonido mediante el uso de un conjunto de micrófonos cúbicos en el campo sonoro original. Luego, el sonido se captura utilizando el conjunto de altavoces cúbicos en el campo sonoro reproducido. El oyente, que está en el conjunto de altavoces, sentirá que el sonido se mueve por encima de su cabeza cuando el sonido se mueve por encima del conjunto de micrófonos. [6]

La síntesis de campo de ondas es una técnica de representación de audio espacial que sintetiza frentes de onda utilizando el principio de Huygens-Fresnel . Primero, el sonido original se graba mediante conjuntos de micrófonos y luego se utilizan conjuntos de altavoces para reproducir el sonido en el área de escucha. Los arreglos se colocan a lo largo de los límites de su propia área donde también se colocan los micrófonos y los altavoces. Esta técnica permite que varios oyentes se muevan en el área de escucha y aún escuchen el mismo sonido desde todas las direcciones, algo que las técnicas de cancelación binaural y de diafonía no pueden lograr. Generalmente, los sistemas de reproducción de sonido que utilizan síntesis de campo ondulatorio colocan los altavoces en una línea o alrededor del oyente en un espacio 2D .

Referencias

  1. ^ Ziemer, Tim (2020). Síntesis del campo sonoro de la música psicoacústica . Investigaciones actuales en Musicología Sistemática. vol. 7. Cham: Springer. pag. 287. doi :10.1007/978-3-030-23033-3. ISBN 978-3-030-23033-3. S2CID  201136171.
  2. ^ Burgess; David A (1992). "Técnicas de audio espacial de bajo coste". Actas del quinto simposio anual de ACM sobre software y tecnología de interfaz de usuario . págs. 53–59. CiteSeerX 10.1.1.464.4403 . doi :10.1145/142621.142628. ISBN  978-0897915496. S2CID  7413673.
  3. ^ Zhang, Ming; Tan, Kah-Chye; MHEr (1998). "Un algoritmo refinado de síntesis de sonido 3-D". PEPIP '98. 1998 Cuarta Conferencia Internacional sobre Procesamiento de Señales (Cat. No.98TH8344) . vol. 2. págs. 1408-1411 vol.2. doi :10.1109/ICOSP.1998.770884. ISBN 978-0-7803-4325-2. S2CID  57484436.
  4. ^ Tonnesen, Cindy; Steinmetz, Joe. "Síntesis de sonido 3D".
  5. ^ Takala; Tapio; James, Hahn (1992). "Representación de sonido". Actas de la 19ª conferencia anual sobre gráficos por computadora y técnicas interactivas . vol. 26. págs. 211-220. doi :10.1145/133994.134063. ISBN 978-0897914796. S2CID  6252100.
  6. ^ abc M. Naoe; T. Kimura; Y. Yamakata; M. Katsumoto (2008). "Evaluación del rendimiento del sistema de reproducción de campos sonoros 3D utilizando unos pocos altavoces y síntesis de campos de ondas". 2008 Segundo Simposio Internacional sobre Comunicación Universal . págs. 36–41. doi :10.1109/ISUC.2008.35. ISBN 978-0-7695-3433-6. S2CID  16506730.