stringtranslate.com

Head-related transfer function

HRTF filtering effect

A head-related transfer function (HRTF) is a response that characterizes how an ear receives a sound from a point in space. As sound strikes the listener, the size and shape of the head, ears, ear canal, density of the head, size and shape of nasal and oral cavities, all transform the sound and affect how it is perceived, boosting some frequencies and attenuating others. Generally speaking, the HRTF boosts frequencies from 2–5 kHz with a primary resonance of +17 dB at 2,700 Hz. But the response curve is more complex than a single bump, affects a broad frequency spectrum, and varies significantly from person to person.

A pair of HRTFs for two ears can be used to synthesize a binaural sound that seems to come from a particular point in space. It is a transfer function, describing how a sound from a specific point will arrive at the ear (generally at the outer end of the auditory canal). Some consumer home entertainment products designed to reproduce surround sound from stereo (two-speaker) headphones use HRTFs. Some forms of HRTF processing have also been included in computer software to simulate surround sound playback from loudspeakers.

Sound localization

Humans have just two ears, but can locate sounds in three dimensions – in range (distance), in direction above and below (elevation), in front and to the rear, as well as to either side (azimuth). This is possible because the brain, inner ear, and the external ears (pinna) work together to make inferences about location. This ability to localize sound sources may have developed in humans and ancestors as an evolutionary necessity since the eyes can only see a fraction of the world around a viewer, and vision is hampered in darkness, while the ability to localize a sound source works in all directions, to varying accuracy,[1] regardless of the surrounding light.

Los seres humanos estiman la ubicación de una fuente tomando señales derivadas de un oído ( señales monoaurales ) y comparando señales recibidas en ambos oídos ( señales de diferencia o señales binaurales ). Entre las señales de diferencia se encuentran las diferencias horarias de llegada y las diferencias de intensidad. Las señales monoaurales provienen de la interacción entre la fuente de sonido y la anatomía humana, en la que la fuente de sonido original se modifica antes de ingresar al canal auditivo para ser procesada por el sistema auditivo. Estas modificaciones codifican la ubicación de la fuente y pueden capturarse mediante una respuesta de impulso que relaciona la ubicación de la fuente y la ubicación del oído. Esta respuesta al impulso se denomina respuesta al impulso relacionada con la cabeza (HRIR). La convolución de un sonido fuente arbitrario con el HRIR convierte el sonido al que habría escuchado el oyente si se hubiera reproducido en la ubicación de la fuente, con el oído del oyente en la ubicación del receptor. Los HRIR se han utilizado para producir sonido envolvente virtual. [2] [3] [ ejemplo necesario ]

La HRTF es la transformada de Fourier de HRIR.

Los HRTF para el oído izquierdo y derecho (expresados ​​anteriormente como HRIR) describen el filtrado de una fuente de sonido ( x ( t )) antes de que se perciba en los oídos izquierdo y derecho como x L ( t ) y x R ( t ), respectivamente.

El HRTF también puede describirse como las modificaciones de un sonido desde una dirección en el aire libre hasta el sonido que llega al tímpano . Estas modificaciones incluyen la forma del oído externo del oyente, la forma de la cabeza y el cuerpo del oyente, las características acústicas del espacio en el que se reproduce el sonido, etc. Todas estas características influirán en cómo (o si) un oyente puede saber con precisión de qué dirección proviene un sonido.

En el estándar AES69-2015, [4] la Audio Engineering Society (AES) ha definido el formato de archivo SOFA para almacenar datos acústicos orientados espacialmente, como funciones de transferencia relacionadas con la cabeza (HRTF). Las bibliotecas y archivos de software de SOFA se recopilan en el sitio web de Sofa Conventions. [5]

Cómo funciona HRTF

El mecanismo asociado varía entre individuos, ya que la forma de su cabeza y oreja difiere.

HRTF describe cómo una entrada de onda sonora determinada (parametrizada como frecuencia y ubicación de la fuente) se filtra mediante las propiedades de difracción y reflexión de la cabeza , el pabellón auricular y el torso , antes de que el sonido llegue a la maquinaria de transducción del tímpano y el oído interno (ver sistema auditivo ). ). Biológicamente, los efectos de prefiltrado específicos de la ubicación de la fuente de estas estructuras externas ayudan en la determinación neuronal de la ubicación de la fuente , particularmente la determinación de la elevación de la fuente . [6]

Derivación técnica

El análisis de sistemas lineales define la función de transferencia como la relación compleja entre el espectro de la señal de salida y el espectro de la señal de entrada en función de la frecuencia. Blauert (1974; citado en Blauert, 1981) definió inicialmente la función de transferencia como la función de transferencia de campo libre (FFTF). Otros términos incluyen la función de transferencia de campo libre al tímpano y la transformación de presión del campo libre al tímpano. Descripciones menos específicas incluyen la función de transferencia del pabellón auricular, la función de transferencia del oído externo , la respuesta del pabellón auricular o la función de transferencia direccional (DTF).

La función de transferencia H ( f ) de cualquier sistema lineal invariante en el tiempo en la frecuencia f es:

H ( f ) = Salida ( f ) / Entrada ( f )

Por lo tanto, un método utilizado para obtener la HRTF de una ubicación de fuente determinada es medir la respuesta al impulso relacionada con la cabeza (HRIR), h ( t ), en el tímpano para el impulso Δ ( t ) colocado en la fuente. El HRTF H ( f ) es la transformada de Fourier del HRIR h ( t ).

Incluso cuando se miden para una "cabeza ficticia" de geometría idealizada, los HRTF son funciones complicadas de la frecuencia y las tres variables espaciales . Sin embargo, para distancias superiores a 1 m desde la cabeza, se puede decir que la HRTF se atenúa inversamente con el alcance. Es este HRTF de campo lejano , H ( f , θ , φ ), el que se ha medido con mayor frecuencia. A mayor distancia, la diferencia de nivel observada entre los oídos puede aumentar bastante, incluso en la región de baja frecuencia dentro de la cual se observan diferencias de nivel insignificantes en el campo lejano.

Los HRTF normalmente se miden en una cámara anecoica para minimizar la influencia de las reflexiones tempranas y la reverberación en la respuesta medida. Los HRTF se miden en pequeños incrementos de θ , como 15 ° o 30 ° en el plano horizontal, y se utiliza interpolación para sintetizar los HRTF para posiciones arbitrarias de θ . Sin embargo, incluso con pequeños incrementos, la interpolación puede generar confusión, y la optimización del procedimiento de interpolación es un área activa de investigación.

Para maximizar la relación señal-ruido (SNR) en una HRTF medida, es importante que el impulso generado sea de alto volumen. En la práctica, sin embargo, puede resultar difícil generar impulsos a volúmenes elevados y, si se generan, pueden dañar los oídos humanos, por lo que es más común que los HRTF se calculen directamente en el dominio de la frecuencia utilizando una onda sinusoidal barrida en frecuencia. o mediante el uso de secuencias de longitud máxima . Sin embargo, la fatiga del usuario sigue siendo un problema, lo que destaca la necesidad de poder interpolar basándose en menos mediciones.

La función de transferencia relacionada con la cabeza participa en la resolución del cono de confusión , una serie de puntos donde la diferencia de tiempo interaural (ITD) y la diferencia de nivel interaural (ILD) son idénticas para fuentes de sonido de muchas ubicaciones alrededor de la parte 0 del cono. Cuando el oído recibe un sonido, puede ir directamente hacia el canal auditivo o puede reflejarse en el pabellón auditivo hacia el canal auditivo una fracción de segundo después. El sonido contendrá muchas frecuencias, por lo que muchas copias de esta señal bajarán por el oído en diferentes momentos dependiendo de su frecuencia (según la reflexión, la difracción y su interacción con las frecuencias altas y bajas y el tamaño de las estructuras del oído.) Estas copias se superponen entre sí y, durante esto, ciertas señales se mejoran (donde las fases de las señales coinciden) mientras que otras copias se cancelan (donde las fases de la señal no coinciden). Básicamente, el cerebro busca muescas de frecuencia en la señal que corresponden a direcciones particulares conocidas del sonido. [ cita necesaria ]

Si se sustituyeran los oídos de otra persona, el individuo no sería capaz de localizar el sonido inmediatamente, ya que los patrones de realce y cancelación serían diferentes de aquellos a los que está acostumbrado el sistema auditivo de la persona. Sin embargo, después de algunas semanas, el sistema auditivo se adaptaría a la nueva función de transferencia relacionada con la cabeza. [7] La ​​variabilidad entre sujetos en los espectros de HRTF se ha estudiado mediante análisis de conglomerados. [8]

Valorando la variación a través de cambios entre los oídos de la persona, podemos limitar nuestra perspectiva a los grados de libertad de la cabeza y su relación con el dominio espacial. De esta manera, eliminamos la inclinación y otros parámetros de coordenadas que añaden complejidad. A los efectos de la calibración, solo nos preocupa el nivel de dirección hacia nuestros oídos, es decir, un grado específico de libertad. Algunas de las formas en las que podemos deducir una expresión para calibrar el HRTF son:

  1. Localización del sonido en el espacio Auditivo Virtual [9]
  2. Síntesis de fase HRTF [10]
  3. Síntesis de magnitud HRTF [11]

Localización del sonido en el espacio auditivo virtual.

Una suposición básica en la creación de un espacio auditivo virtual es que si las formas de onda acústica presentes en los tímpanos de un oyente son las mismas bajo auriculares que en campo libre, entonces la experiencia del oyente también debería ser la misma.

Normalmente, los sonidos generados por los auriculares se perciben como si se originaran en el interior de la cabeza. En el espacio auditivo virtual, los auriculares deberían poder "externalizar" el sonido. Con el HRTF, los sonidos se pueden posicionar espacialmente mediante la técnica que se describe a continuación. [9]

Sea x 1 ( t ) la señal eléctrica que impulsa un altavoz y y 1 ( t ) la señal recibida por un micrófono dentro del tímpano del oyente. De manera similar, represente x 2 ( t ) la señal eléctrica que activa un auricular y y 2 ( t ) represente la respuesta del micrófono a la señal. El objetivo del espacio auditivo virtual es elegir x 2 ( t ) tal que y 2 ( t ) = y 1 ( t ). Aplicando la transformada de Fourier a estas señales, obtenemos las dos ecuaciones siguientes:

Y 1 = X 1 LFM, y
Y 2 = X 2 HM,

donde L es la función de transferencia del altavoz en campo libre, F es la HRTF, M es la función de transferencia del micrófono y H es la función de transferencia de auriculares a tímpano. Estableciendo Y 1 = Y 2 y resolviendo X 2 se obtiene

X 2 = X 1 LF/H.

Por observación, la función de transferencia deseada es

T = LF / H .

Por lo tanto, teóricamente, si x 1 ( t ) pasa a través de este filtro y el x 2 ( t ) resultante se reproduce en los auriculares, debería producir la misma señal en el tímpano. Dado que el filtro se aplica sólo a un oído, se debe derivar otro para el otro oído. Este proceso se repite en muchos lugares del entorno virtual para crear una serie de funciones de transferencia relacionadas con la cabeza para cada posición que se va a recrear, garantizando al mismo tiempo que las condiciones de muestreo estén establecidas según los criterios de Nyquist .

Síntesis de fase HRTF

Hay una estimación de fase menos confiable en la parte muy baja de la banda de frecuencia, y en las frecuencias superiores la respuesta de fase se ve afectada por las características del pabellón auricular. Estudios anteriores también muestran que la respuesta de fase HRTF es mayoritariamente lineal y que los oyentes son insensibles a los detalles del espectro de fase interaural siempre que se mantenga el retardo de tiempo interaural (ITD) de la parte combinada de baja frecuencia de la forma de onda. Esta es la respuesta de fase modelada del HRTF sujeto como un retraso de tiempo, dependiendo de la dirección y la elevación. [10]

Un factor de escala es una función de las características antropométricas. Por ejemplo, un conjunto de entrenamiento de N sujetos consideraría cada fase HRTF y describiría un único factor de escala ITD como el retraso promedio del grupo. Este factor de escala calculado puede estimar el retraso de tiempo en función de la dirección y elevación de cualquier individuo determinado. Convertir el retardo de tiempo en respuesta de fase para los oídos izquierdo y derecho es trivial.

La fase HRTF se puede describir mediante el factor de escala ITD . Éste, a su vez, se cuantifica mediante los datos antropométricos de un determinado individuo tomado como fuente de referencia. Para un caso genérico consideramos β como un vector disperso.

que representa las características antropométricas del sujeto como una superposición lineal de las características antropométricas de los datos de entrenamiento (y ' = β T X), y luego aplica el mismo vector disperso directamente en el vector de escala H. Podemos escribir esta tarea como un problema de minimización , para un parámetro de contracción no negativo λ :

A partir de esto, el valor del factor de escala ITD H ' se estima como:

donde Los factores de escala ITD para todas las personas en el conjunto de datos se apilan en un vector HR N , por lo que el valor H n corresponde al factor de escala de la enésima persona.

Síntesis de magnitud HRTF

Resolvemos el problema de minimización anterior utilizando el operador de selección y contracción mínima absoluta (LASSO). Suponemos que los HRTF están representados por la misma relación que las características antropométricas. [11] Por lo tanto, una vez que aprendemos el vector disperso β de las características antropométricas, lo aplicamos directamente a los datos del tensor HRTF y los valores HRTF del sujeto H ' dados por:

donde Los HRTF para cada sujeto se describen mediante un tensor de tamaño D  ×  K , donde D es el número de direcciones HRTF y K es el número de contenedores de frecuencia. Todos los H n , d , k corresponden a todos los HRTF del conjunto de entrenamiento están apilados en un nuevo tensor HR N × D × K , por lo que el valor H n,d,k corresponde al k -ésimo contenedor de frecuencia para d -ésima dirección HRTF de la n -ésima persona. Además, H ' d , k corresponde a la k -ésima frecuencia para cada d -ésima dirección HRTF del HRTF sintetizado.

HRTF de la geometría

La acumulación de datos HRTF ha hecho posible que un programa de computadora infiera un HRTF aproximado a partir de la geometría de la cabeza. Se conocen dos programas que lo hacen, ambos de código abierto: Mesh2HRTF, [12] que ejecuta simulación física en una malla 3D completa de la cabeza, y EAC, que utiliza una red neuronal entrenada a partir de HRTF existentes y funciona a partir de fotografías y otros. medidas aproximadas. [13]

Tecnología de grabación y reproducción.

Las grabaciones procesadas a través de un HRTF, como en un entorno de juegos de computadora (ver A3D , EAX y OpenAL ), que se aproxima al HRTF del oyente, se pueden escuchar a través de auriculares o parlantes estéreo e interpretarse como si incluyeran sonidos provenientes de todas las direcciones. , en lugar de sólo dos puntos a cada lado de la cabeza. La precisión percibida del resultado depende de qué tan cerca coincida el conjunto de datos HRTF con las características de los propios oídos, aunque puede preferirse un HRTF genérico a uno preciso medido en un solo oído. [14] Algunos proveedores como Apple y Sony ofrecen una variedad de HRTF que se pueden seleccionar según la forma de la oreja del usuario. [15]

Windows 10 y superiores vienen con Microsoft Spatial Sound incluido, el mismo marco de audio espacial utilizado en Xbox One y Hololens 2 . En una PC con Windows o una Xbox One, el marco puede usar varios procesadores de audio descendentes diferentes, incluidos Windows Sonic para auriculares, Dolby Atmos y DTS Headphone:X , para aplicar un HRTF. El marco puede representar tanto fuentes de sonido envolvente de posición fija como fuentes dinámicas de "objetos" que pueden moverse en el espacio. [dieciséis]

Apple también tiene Spatial Sound para sus dispositivos que se usan con auriculares producidos por Apple o Beats. Para la reproducción de música en auriculares, se puede habilitar Dolby Atmos y aplicar HRTF. [17] El HRTF (o más bien, las posiciones de los objetos) puede variar con el seguimiento de la cabeza para mantener la ilusión de dirección. [18] Qualcomm Snapdragon tiene un sistema de audio espacial similar con seguimiento de la cabeza, utilizado por algunas marcas de teléfonos Android. [19] YouTube utiliza HRTF con seguimiento de cabeza con videos de 360 ​​grados y de realidad virtual. [20]

Actualmente, Linux no puede procesar directamente ninguno de los formatos propietarios de audio espacial (envolvente más objetos dinámicos). SoundScape Renderer ofrece síntesis direccional. [21] PulseAudio y PipeWire pueden proporcionar sonido envolvente virtual (canales de ubicación fija) utilizando un HRTF. Las versiones recientes de PipeWire también pueden proporcionar representación espacial dinámica utilizando HRTF, [22] sin embargo, la integración con aplicaciones aún está en progreso. Los usuarios pueden configurar sus propias fuentes de sonido posicionales y dinámicas, así como simular una configuración de altavoces envolventes utilizando configuraciones existentes.

OpenAL Soft multiplataforma, una implementación de OpenAL , utiliza HRTF para mejorar la localización. [23]

Los sistemas de audio espacial de Windows y Linux admiten cualquier modelo de auriculares estéreo, mientras que Apple solo permite el uso de audio espacial con auriculares Bluetooth de la marca Apple o Beats . [ cita necesaria ]

Ver también

Referencias

  1. ^ Daniel Almidón (1908). Perimetría de la localización del sonido. Universidad Estatal de Iowa. pag. 35 y sigs.
  2. ^ Begault, DR (1994) Sonido 3D para realidad virtual y multimedia. Profesional AP.
  3. ^ Entonces, RHY, Leung, NM, Braasch, J. y Leung, KL (2006) Un sistema de sonido envolvente no individualizado de bajo costo basado en funciones de transferencia relacionadas con la cabeza. Estudio de Ergonomía y desarrollo de prototipos. Ergonomía aplicada, 37, págs. 695–707.
  4. ^ "Estándar AES AES69-2015: Estándar AES para intercambio de archivos - Formato de archivo de datos acústicos espaciales". www.aes.org . Consultado el 30 de diciembre de 2016 .
  5. ^ "Sitio web de convenciones de sofás". Instituto de Investigación de Acústica, un instituto de investigación de la Academia de Ciencias de Austria.
  6. ^ Blauert, J. (1997) Audición espacial: la psicofísica de la localización del sonido humano. Prensa del MIT.
  7. ^ Hofman, Paul M.; Van Riswick, JG; Van Opstal, AJ (septiembre de 1998). "Reaprender la localización del sonido con nuevos oídos" (PDF) . Neurociencia de la Naturaleza . 1 (5): 417–421. doi :10.1038/1633. PMID  10196533. S2CID  10088534.
  8. ^ Entonces, RHY, Ngan, B., Horner, A., Leung, KL, Braasch, J. y Blauert, J. (2010) Hacia funciones de transferencia ortogonales no individualizadas relacionadas con la cabeza para sonido direccional hacia adelante y hacia atrás: análisis de conglomerados y un estudio experimental. Ergonomía, 53(6), págs.767-781.
  9. ^ ab Carlile, S. (1996). Espacio Auditivo Virtual: Generación y Aplicaciones (1 ed.). Berlín, Heidelberg: Springer. ISBN 9783662225967.
  10. ^ ab Tashev, Ivan (2014). "Síntesis de fase HRTF mediante representación escasa de características antropométricas". 2014 Taller de Teoría y Aplicaciones de la Información (ITA) . págs. 1 a 5. doi :10.1109/ITA.2014.6804239. ISBN 978-1-4799-3589-5. S2CID  13232557.
  11. ^ ab Bilinski, Piotr; Ahrens, Jens; Thomas, Mark RP; Tashev, Iván; Platt, John C (2014). "Síntesis de la magnitud HRTF mediante una representación escasa de características antropométricas" (PDF) . Conferencia internacional IEEE 2014 sobre acústica, habla y procesamiento de señales (ICASSP) . IEEE ICASSP, Florencia, Italia. págs. 4468–4472. doi :10.1109/ICASSP.2014.6854447. ISBN 978-1-4799-2893-4. S2CID  5619011.
  12. ^ Ziegelwanger, H. y Kreuzer, W., Majdak, P. (2015). "Mesh2HRTF: un paquete de software de código abierto para el cálculo numérico de funciones de transferencia relacionadas con la cabeza", en Actas del 22º Congreso Internacional sobre Sonido y Vibraciones, Florencia, Italia.
  13. ^ Carvalho, Davi (17 de abril de 2023). "EAC - Síntesis individualizada de HRTF". GitHub .
  14. ^ Armstrong, Cal; Trillar, Lewis; Murphy, Damián; Kearney, Gavin (23 de octubre de 2018). "Una evaluación perceptiva de HRTF individuales y no individuales: un estudio de caso de la base de datos SADIE II". Ciencias Aplicadas . 8 (11): 2029. doi : 10.3390/app8112029 .
  15. ^ "Audio espacial: Parte 1 - Formatos actuales y el auge de HRTF - El puente de transmisión - Conexión de TI a la transmisión". El puente de transmisión . 7 de diciembre de 2022.
  16. ^ "Spatial Sound para desarrolladores de aplicaciones para Windows, Xbox y Hololens 2: aplicaciones Win32". aprender.microsoft.com . 27 de abril de 2023.
  17. ^ "Acerca del audio espacial con Dolby Atmos en Apple Music". Soporte de Apple . 27 de marzo de 2023.
  18. ^ "Escuche con audio espacial para AirPods y Beats". Soporte de Apple . 19 de julio de 2023.
  19. ^ "Audio espacial". www.qualcomm.com .
  20. ^ "Utilice audio espacial en videos de realidad virtual y 360 grados: ayuda de YouTube". soporte.google.com .
  21. ^ "Renderizador SoundScape". espacialaudio.net . 9 de enero de 2013.
  22. ^ "Cadena de filtros". gitlab.freedesktop.org/pipewire/pipewire . 14 de abril de 2023.
  23. ^ "OpenAL Soft - Software de audio 3D". openal-soft.org .

enlaces externos