stringtranslate.com

Función de transferencia relacionada con la cabeza

Efecto de filtrado HRTF

Una función de transferencia relacionada con la cabeza ( HRTF ) es una respuesta que caracteriza cómo un oído recibe un sonido desde un punto en el espacio. A medida que el sonido golpea al oyente, el tamaño y la forma de la cabeza, las orejas, el canal auditivo, la densidad de la cabeza, el tamaño y la forma de las cavidades nasales y orales, todos transforman el sonido y afectan cómo se percibe, potenciando algunas frecuencias y atenuando otras. En términos generales, la HRTF potencia las frecuencias de 2 a 5 kHz con una resonancia primaria de +17 dB a 2700 Hz. Pero la curva de respuesta es más compleja que una sola protuberancia, afecta a un amplio espectro de frecuencias y varía significativamente de una persona a otra.

Se puede utilizar un par de HRTF para dos oídos para sintetizar un sonido binaural que parece provenir de un punto particular en el espacio. Es una función de transferencia , que describe cómo un sonido de un punto específico llegará al oído (generalmente al extremo exterior del canal auditivo ). Algunos productos de entretenimiento doméstico diseñados para reproducir sonido envolvente desde auriculares estéreo (de dos altavoces) utilizan HRTF. Algunas formas de procesamiento de HRTF también se han incluido en software informático para simular la reproducción de sonido envolvente desde altavoces.

Localización del sonido

Los humanos tienen solo dos oídos , pero pueden localizar sonidos en tres dimensiones: en rango (distancia), en dirección arriba y abajo (elevación), al frente y hacia atrás, así como a ambos lados (acimut). Esto es posible porque el cerebro, el oído interno y los oídos externos ( pabellón auricular ) trabajan juntos para hacer inferencias sobre la ubicación. Esta capacidad de localizar fuentes de sonido puede haberse desarrollado en los humanos y sus antepasados ​​como una necesidad evolutiva, ya que los ojos solo pueden ver una fracción del mundo alrededor de un espectador y la visión se ve obstaculizada en la oscuridad, mientras que la capacidad de localizar una fuente de sonido funciona en todas las direcciones, con precisión variable, [1] independientemente de la luz circundante.

Los seres humanos calculan la ubicación de una fuente tomando señales derivadas de un oído ( señales monoaurales ) y comparando las señales recibidas en ambos oídos ( señales de diferencia o señales binaurales ). Entre las señales de diferencia se encuentran las diferencias de tiempo de llegada y las diferencias de intensidad. Las señales monoaurales provienen de la interacción entre la fuente de sonido y la anatomía humana, en la que el sonido de la fuente original se modifica antes de que entre en el canal auditivo para su procesamiento por el sistema auditivo. Estas modificaciones codifican la ubicación de la fuente y pueden capturarse a través de una respuesta de impulso que relaciona la ubicación de la fuente y la ubicación del oído. Esta respuesta de impulso se denomina respuesta de impulso relacionada con la cabeza (HRIR). La convolución de un sonido de fuente arbitrario con la HRIR convierte el sonido en el que habría sido escuchado por el oyente si se hubiera reproducido en la ubicación de la fuente, con el oído del oyente en la ubicación del receptor. Las HRIR se han utilizado para producir sonido envolvente virtual. [2] [3] [ ejemplo necesario ]

La HRTF es la transformada de Fourier de HRIR.

Las HRTF para el oído izquierdo y derecho (expresadas anteriormente como HRIR) describen el filtrado de una fuente de sonido ( x ( t )) antes de que se perciba en los oídos izquierdo y derecho como x L ( t ) y x R ( t ), respectivamente.

La HRTF también se puede describir como las modificaciones que sufre un sonido desde una dirección en el aire libre hasta el sonido que llega al tímpano . Estas modificaciones incluyen la forma del oído externo del oyente, la forma de la cabeza y el cuerpo del oyente, las características acústicas del espacio en el que se reproduce el sonido, etc. Todas estas características influirán en cómo (o si) un oyente puede determinar con precisión de qué dirección proviene un sonido.

En el estándar AES69-2015, [4] la Audio Engineering Society (AES) ha definido el formato de archivo SOFA para almacenar datos acústicos orientados espacialmente, como las funciones de transferencia relacionadas con la cabeza (HRTF). Las bibliotecas y archivos de software SOFA se encuentran en el sitio web de Sofa Conventions. [5]

Cómo funciona HRTF

El mecanismo asociado varía entre individuos, ya que la forma de su cabeza y sus orejas es diferente.

La HRTF describe cómo una entrada de onda sonora dada (parametrizada como frecuencia y ubicación de la fuente) es filtrada por las propiedades de difracción y reflexión de la cabeza , el pabellón auricular y el torso , antes de que el sonido llegue a la maquinaria de transducción del tímpano y el oído interno (ver sistema auditivo ). Biológicamente, los efectos de prefiltrado específicos de la ubicación de la fuente de estas estructuras externas ayudan en la determinación neuronal de la ubicación de la fuente , particularmente la determinación de la elevación de la fuente . [6]

Derivación técnica

El análisis de sistemas lineales define la función de transferencia como la relación compleja entre el espectro de la señal de salida y el espectro de la señal de entrada en función de la frecuencia. Blauert (1974; citado en Blauert, 1981) definió inicialmente la función de transferencia como la función de transferencia de campo libre (FFTF). Otros términos incluyen la función de transferencia de campo libre al tímpano y la transformación de presión del campo libre al tímpano. Descripciones menos específicas incluyen la función de transferencia del pabellón auricular, la función de transferencia del oído externo, la respuesta del pabellón auricular o la función de transferencia direccional (DTF).

La función de transferencia H ( f ) de cualquier sistema lineal invariante en el tiempo en la frecuencia f es:

H ( f ) = Salida ( f ) / Entrada ( f )

Un método utilizado para obtener la HRTF de una ubicación de fuente dada es, por lo tanto, medir la respuesta al impulso relacionada con la cabeza (HRIR), h ( t ), en el tímpano para el impulso Δ ( t ) colocado en la fuente. La HRTF H ( f ) es la transformada de Fourier de la HRIR h ( t ).

Incluso cuando se miden para una "cabeza de maniquí" de geometría idealizada, las HRTF son funciones complicadas de la frecuencia y las tres variables espaciales . Sin embargo, para distancias mayores de 1 m desde la cabeza, se puede decir que la HRTF se atenúa inversamente con el alcance. Es esta HRTF de campo lejano , H ( f , θ , φ ), la que se ha medido con más frecuencia. A un alcance más cercano, la diferencia de nivel observada entre los oídos puede llegar a ser bastante grande, incluso en la región de baja frecuencia dentro de la cual se observan diferencias de nivel insignificantes en el campo lejano.

Las HRTF se miden normalmente en una cámara anecoica para minimizar la influencia de las reflexiones tempranas y la reverberación en la respuesta medida. Las HRTF se miden en pequeños incrementos de θ , como 15° o 30° en el plano horizontal, y se utiliza la interpolación para sintetizar las HRTF para posiciones arbitrarias de θ . Sin embargo, incluso con pequeños incrementos, la interpolación puede provocar confusión entre lo anterior y lo posterior, y la optimización del procedimiento de interpolación es un área activa de investigación.

Para maximizar la relación señal-ruido (SNR) en una HRTF medida, es importante que el impulso que se genere sea de alto volumen. Sin embargo, en la práctica, puede resultar difícil generar impulsos a altos volúmenes y, si se generan, pueden ser perjudiciales para los oídos humanos, por lo que es más común que las HRTF se calculen directamente en el dominio de frecuencia utilizando una onda sinusoidal barrida en frecuencia o utilizando secuencias de longitud máxima . Sin embargo, la fatiga del usuario sigue siendo un problema, lo que resalta la necesidad de poder interpolar en función de menos mediciones.

La función de transferencia relacionada con la cabeza está involucrada en la resolución del cono de confusión , una serie de puntos donde la diferencia de tiempo interaural (ITD) y la diferencia de nivel interaural (ILD) son idénticas para fuentes de sonido de muchas ubicaciones alrededor de la parte 0 del cono. Cuando un sonido es recibido por el oído, puede pasar directamente por el oído hacia el canal auditivo o puede reflejarse en las orejas del oído, hacia el canal auditivo una fracción de segundo después. El sonido contendrá muchas frecuencias, por lo tanto, muchas copias de esta señal pasarán por el oído, todas en diferentes momentos dependiendo de su frecuencia (de acuerdo con la reflexión, la difracción y su interacción con frecuencias altas y bajas y el tamaño de las estructuras del oído). Estas copias se superponen entre sí, y durante esto, ciertas señales se mejoran (donde las fases de las señales coinciden) mientras que otras copias se cancelan (donde las fases de la señal no coinciden). Básicamente, el cerebro está buscando muescas de frecuencia en la señal que corresponden a direcciones particulares conocidas del sonido. [ cita requerida ]

Si se sustituyeran los oídos de otra persona, el individuo no sería capaz de localizar el sonido inmediatamente, ya que los patrones de realce y cancelación serían diferentes a los patrones a los que está acostumbrado el sistema auditivo de la persona. Sin embargo, después de algunas semanas, el sistema auditivo se adaptaría a la nueva función de transferencia relacionada con la cabeza. [7] La ​​variabilidad interindividual en los espectros de las HRTF se ha estudiado mediante análisis de conglomerados. [8]

Evaluando la variación a través de los cambios entre las orejas de la persona, podemos limitar nuestra perspectiva con los grados de libertad de la cabeza y su relación con el dominio espacial. De esta manera, eliminamos la inclinación y otros parámetros de coordenadas que añaden complejidad. Para el propósito de la calibración, solo nos interesa el nivel de dirección hacia nuestras orejas, es decir, un grado de libertad específico. Algunas de las formas en las que podemos deducir una expresión para calibrar la HRTF son:

  1. Localización del sonido en el espacio auditivo virtual [9]
  2. Síntesis de la fase HRTF [10]
  3. Síntesis de magnitud HRTF [11]

Localización del sonido en el espacio auditivo virtual

Un supuesto básico en la creación de un espacio auditivo virtual es que si las formas de onda acústicas presentes en los tímpanos de un oyente son las mismas bajo los auriculares que en campo libre, entonces la experiencia del oyente también debería ser la misma.

Por lo general, los sonidos generados por los auriculares se perciben como si se originaran en el interior de la cabeza. En el espacio auditivo virtual, los auriculares deberían poder "externalizar" el sonido. Mediante la HRTF, los sonidos se pueden posicionar espacialmente utilizando la técnica que se describe a continuación. [9]

Sea x 1 ( t ) la señal eléctrica que activa un altavoz e y 1 ( t ) la señal recibida por un micrófono dentro del tímpano del oyente. De manera similar, sea x 2 ( t ) la señal eléctrica que activa un auricular e y 2 ( t ) la respuesta del micrófono a la señal. El objetivo del espacio auditivo virtual es elegir x 2 ( t ) de manera que y 2 ( t ) = y 1 ( t ). Aplicando la transformada de Fourier a estas señales, obtenemos las dos ecuaciones siguientes:

Y 1 = X 1 LFM, y
Y2 = X2HM ,

donde L es la función de transferencia del altavoz en el campo libre, F es la HRTF, M es la función de transferencia del micrófono y H es la función de transferencia del auricular al tímpano. Si se establece Y 1 = Y 2 y se resuelve X 2, se obtiene

X 2 = X 1 LF/H.

Por observación, la función de transferencia deseada es

T = LF / H.

Por lo tanto, teóricamente, si x 1 ( t ) pasa a través de este filtro y el x 2 ( t ) resultante se reproduce en los auriculares, debería producir la misma señal en el tímpano. Dado que el filtro se aplica solo a un solo oído, se debe derivar otro para el otro oído. Este proceso se repite para muchos lugares en el entorno virtual para crear una matriz de funciones de transferencia relacionadas con la cabeza para cada posición que se va a recrear, al tiempo que se garantiza que las condiciones de muestreo estén establecidas por los criterios de Nyquist .

Síntesis de la fase HRTF

En la parte más baja de la banda de frecuencias, la estimación de fase es menos fiable y en las frecuencias más altas la respuesta de fase se ve afectada por las características del pabellón auricular. Estudios anteriores también muestran que la respuesta de fase de la HRTF es principalmente lineal y que los oyentes son insensibles a los detalles del espectro de fase interaural siempre que se mantenga el retardo temporal interaural (ITD) de la parte de baja frecuencia combinada de la forma de onda. Esta es la respuesta de fase modelada de la HRTF del sujeto como un retardo temporal, que depende de la dirección y la elevación. [10]

Un factor de escala es una función de las características antropométricas. Por ejemplo, un conjunto de entrenamiento de N sujetos consideraría cada fase de HRTF y describiría un único factor de escala de ITD como el retraso promedio del grupo. Este factor de escala calculado puede estimar el retraso temporal como función de la dirección y la elevación para cualquier individuo determinado. Convertir el retraso temporal en respuesta de fase para los oídos izquierdo y derecho es trivial.

La fase HRTF se puede describir mediante el factor de escala ITD . Este, a su vez, se cuantifica mediante los datos antropométricos de un individuo determinado tomados como fuente de referencia. Para un caso genérico, consideramos β como un vector disperso.

que representa las características antropométricas del sujeto como una superposición lineal de las características antropométricas de los datos de entrenamiento (y ' = β T X), y luego aplicar el mismo vector disperso directamente sobre el vector de escala H. Podemos escribir esta tarea como un problema de minimización, para un parámetro de contracción no negativo λ :

A partir de esto, el valor del factor de escala ITD H ' se estima como:

Los factores de escala ITD para todas las personas en el conjunto de datos se apilan en un vector HR N , por lo que el valor H n corresponde al factor de escala de la n-ésima persona.

Síntesis de magnitud HRTF

Resolvemos el problema de minimización anterior utilizando el operador de selección y contracción mínima absoluta. Suponemos que las HRTF están representadas por la misma relación que las características antropométricas. [11] Por lo tanto, una vez que aprendemos el vector disperso β de las características antropométricas, lo aplicamos directamente a los datos del tensor HRTF y a los valores HRTF del sujeto H ' dados por:

donde Las HRTF para cada sujeto se describen mediante un tensor de tamaño D  ×  K , donde D es el número de direcciones HRTF y K es el número de contenedores de frecuencia. Todos los H n , d , k corresponden a todos los HRTF del conjunto de entrenamiento que se apilan en un nuevo tensor HR N × D × K , por lo que el valor H n,d,k corresponde al k -ésimo contenedor de frecuencia para la d -ésima dirección HRTF de la n -ésima persona. Además, H ' d , k corresponde a la k -ésima frecuencia para cada d-ésima dirección HRTF del HRTF sintetizado.

HRTF de geometría

La acumulación de datos de HRTF ha hecho posible que un programa informático infiera una HRTF aproximada a partir de la geometría de la cabeza. Se conocen dos programas que lo hacen, ambos de código abierto: Mesh2HRTF, [12] que ejecuta una simulación física en una malla 3D completa de la cabeza, y EAC, que utiliza una red neuronal entrenada a partir de HRTF existentes y trabaja a partir de fotografías y otras mediciones aproximadas. [13]

Tecnología de grabación y reproducción

Las grabaciones procesadas a través de una HRTF, como en un entorno de juegos de computadora (ver A3D , EAX y OpenAL ), que se aproxima a la HRTF del oyente, se pueden escuchar a través de auriculares o parlantes estéreo e interpretar como si comprendieran sonidos que provienen de todas las direcciones, en lugar de solo dos puntos a cada lado de la cabeza. La precisión percibida del resultado depende de qué tan cerca se corresponda el conjunto de datos de HRTF con las características de los propios oídos, aunque puede preferirse una HRTF genérica a una precisa medida a partir de un solo oído. [14] Algunos proveedores como Apple y Sony ofrecen una variedad de HRTF para seleccionar según la forma de la oreja del usuario. [15]

Windows 10 y versiones posteriores incluyen Microsoft Spatial Sound, el mismo marco de audio espacial utilizado en Xbox One y Hololens 2. En una PC con Windows o una Xbox One, el marco puede utilizar varios procesadores de audio descendentes diferentes, incluidos Windows Sonic for Headphones, Dolby Atmos y DTS Headphone:X , para aplicar un HRTF. El marco puede renderizar fuentes de sonido envolvente de posición fija y fuentes de "objetos" dinámicos que pueden moverse en el espacio. [16]

De manera similar, Apple tiene Spatial Sound para sus dispositivos que se usan con auriculares fabricados por Apple o Beats. Para la reproducción de música en auriculares, se puede habilitar Dolby Atmos y aplicar el HRTF. [17] El HRTF (o más bien, las posiciones de los objetos) pueden variar con el seguimiento de la cabeza para mantener la ilusión de dirección. [18] Qualcomm Snapdragon tiene un sistema de audio espacial con seguimiento de la cabeza similar, utilizado por algunas marcas de teléfonos Android. [19] YouTube usa HRTF con seguimiento de la cabeza con videos de 360 ​​grados y VR. [20]

Actualmente, Linux no puede procesar directamente ninguno de los formatos propietarios de audio espacial (envolvente más objetos dinámicos). SoundScape Renderer ofrece síntesis direccional. [21] PulseAudio y PipeWire pueden proporcionar sonido envolvente virtual (canales de ubicación fija) utilizando una HRTF. Las versiones recientes de PipeWire también pueden proporcionar renderizado espacial dinámico utilizando HRTF, [22] sin embargo, la integración con aplicaciones aún está en progreso. Los usuarios pueden configurar sus propias fuentes de sonido posicionales y dinámicas, así como simular una configuración de altavoces envolventes utilizando configuraciones existentes.

OpenAL Soft multiplataforma, una implementación de OpenAL , utiliza HRTF para mejorar la localización. [23]

Los sistemas de audio espacial de Windows y Linux admiten cualquier modelo de auriculares estéreo, mientras que Apple solo permite el uso de audio espacial con auriculares Bluetooth de marca Apple o Beats . [ cita requerida ]

Véase también

Referencias

  1. ^ Daniel Starch (1908). Perimetría de la localización del sonido. Universidad Estatal de Iowa. pág. 35 y siguientes.
  2. ^ Begault, DR (1994) Sonido 3D para realidad virtual y multimedia. AP Professional.
  3. ^ So, RHY, Leung, NM, Braasch, J. y Leung, KL (2006) Un sistema de sonido envolvente no individualizado y de bajo costo basado en funciones de transferencia relacionadas con la cabeza. Un estudio de ergonomía y desarrollo de prototipo. Applied Ergonomics, 37, págs. 695–707.
  4. ^ "Estándar AES AES69-2015: Estándar AES para intercambio de archivos - Formato de archivo de datos acústicos espaciales". www.aes.org . Consultado el 30 de diciembre de 2016 .
  5. ^ "Sitio web de las convenciones de sofás". Instituto de Investigación Acústica, un instituto de investigación de la Academia Austriaca de Ciencias.
  6. ^ Blauert, J. (1997) Audición espacial: la psicofísica de la localización del sonido humano. MIT Press.
  7. ^ Hofman, Paul M.; Van Riswick, JG; Van Opstal, AJ (septiembre de 1998). "Reaprendizaje de la localización del sonido con nuevos oídos" (PDF) . Nature Neuroscience . 1 (5): 417–421. doi :10.1038/1633. PMID  10196533. S2CID  10088534.
  8. ^ So, RHY, Ngan, B., Horner, A., Leung, KL, Braasch, J. y Blauert, J. (2010) Hacia funciones de transferencia relacionadas con la cabeza ortogonales no individualizadas para el sonido direccional hacia adelante y hacia atrás: análisis de grupos y un estudio experimental. Ergonomía, 53(6), pp.767-781.
  9. ^ ab Carlile, S. (1996). Espacio auditivo virtual: generación y aplicaciones (1.ª ed.). Berlín, Heidelberg: Springer. ISBN 9783662225967.
  10. ^ ab Tashev, Ivan (2014). "Síntesis de fase HRTF mediante representación dispersa de características antropométricas". Taller de teoría y aplicaciones de la información (ITA) de 2014. págs. 1–5. doi :10.1109/ITA.2014.6804239. ISBN 978-1-4799-3589-5.S2CID13232557  .​
  11. ^ ab Bilinski, Piotr; Ahrens, Jens; Thomas, Mark RP; Tashev, Ivan; Platt, John C (2014). "Síntesis de magnitud HRTF mediante representación dispersa de características antropométricas" (PDF) . 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) . IEEE ICASSP, Florencia, Italia. págs. 4468–4472. doi :10.1109/ICASSP.2014.6854447. ISBN . 978-1-4799-2893-4. Número de identificación del sujeto  5619011.
  12. ^ Ziegelwanger, H., y Kreuzer, W., Majdak, P. (2015). "Mesh2HRTF: Un paquete de software de código abierto para el cálculo numérico de funciones de transferencia relacionadas con la cabeza", en Actas del 22.º Congreso Internacional sobre Sonido y Vibración, Florencia, Italia.
  13. ^ Carvalho, Davi (17 de abril de 2023). "EAC - Síntesis de HRTF individualizada". GitHub .
  14. ^ Armstrong, Cal; Thresh, Lewis; Murphy, Damian; Kearney, Gavin (23 de octubre de 2018). "Una evaluación perceptual de HRTF individuales y no individuales: un estudio de caso de la base de datos SADIE II". Applied Sciences . 8 (11): 2029. doi : 10.3390/app8112029 .
  15. ^ "Audio espacial: Parte 1 - Formatos actuales y el auge de HRTF - The Broadcast Bridge - Conexión de TI con la transmisión". The Broadcast Bridge . 7 de diciembre de 2022.
  16. ^ "Sonido espacial para desarrolladores de aplicaciones para Windows, Xbox y Hololens 2: aplicaciones Win32". learn.microsoft.com . 27 de abril de 2023.
  17. ^ "Acerca del audio espacial con Dolby Atmos en Apple Music". Soporte técnico de Apple . 27 de marzo de 2023.
  18. ^ "Escucha con audio espacial para AirPods y Beats". Soporte técnico de Apple . 19 de julio de 2023.
  19. ^ "Audio espacial". www.qualcomm.com .
  20. ^ "Usar audio espacial en vídeos de 360 ​​grados y VR - Ayuda de YouTube". support.google.com .
  21. ^ "Renderizador de paisaje sonoro". Spatialudio.net . 9 de enero de 2013.
  22. ^ "Cadena de filtros". gitlab.freedesktop.org/pipewire/pipewire . 14 de abril de 2023.
  23. ^ "OpenAL Soft - Software de audio 3D". openal-soft.org .

Enlaces externos