Poder de respuesta dirigida

La potencia de respuesta dirigida (SRP) es una familia de algoritmos de localización de fuentes acústicas que se puede interpretar como un enfoque basado en formación de haces que busca la posición o dirección candidata que maximiza la salida de un formador de haz de suma y retardo dirigido . ^[1]

La potencia de respuesta dirigida con transformación de fase (SRP-PHAT) es una variante que utiliza una "transformación de fase" para hacerla más robusta en entornos acústicos adversos. ^[2]^[3]

Algoritmo

Poder de respuesta dirigida

Considere un sistema de micrófonos, donde cada micrófono se indica mediante un subíndice . La señal de salida en tiempo discreto de un micrófono es . La potencia de respuesta direccional (SRP) (no ponderada) en un punto espacial se puede expresar como $M$ $m\in \{1,\dots,M\}$ $s_{m}(n)$ $\mathbf {x} =[x,y,z]^{T}$

P_{0}(\mathbf {x} )\triangleq \sum _{n\in \mathbb {Z} }\left\vert \sum _{m=1}^{M}s_{m}( n-\tau _{m}(\mathbf {x} ))\right\vert ^{2},

donde denota el conjunto de números enteros y sería el desfase debido a la propagación desde una fuente ubicada en hasta el -ésimo micrófono. $\mathbb {Z}$ $\tau _ {m}(\mathbf {x} )$ $\mathbf {x}$ $m$

El SRP (ponderado) se puede reescribir como

P(\mathbf {x} )={\frac {1}{2\pi }}\sum _ {m_ {1}=1}^{M}\sum _ {m_ {2}=1} ^{M}\int _{-\pi }^{\pi }\Phi _{m_{1},m_{2}}(e^{j\omega })S_{m_{1}}(e^ {j\omega })S_{m_{2}}^{*}(e^{j\omega })e^{j\omega \tau _{m_{1},m_{2}}(\mathbf { x} )}d\omega ,

donde denota conjugación compleja, representa la transformada de Fourier en tiempo discreto y es una función de ponderación en el dominio de la frecuencia (que se analiza más adelante). El término es la diferencia de tiempo discreta de llegada (TDOA) de una señal emitida en la posición de los micrófonos y , dada por $()^{*}$ $S_{m}(e^{j\omega })$ $s_{m}(n)$ $\Phi _{m_{1},m_{2}}(e^{j\omega })$ $\tau _{m_{1},m_{2}}(\mathbf {x} )$ $\mathbf {x}$ ${\ Displaystyle m_ {1}}$ ${\ Displaystyle m_ {2}}$

\tau _{m_{1},m_{2}}(\mathbf {x} )\triangleq \left\lfloor f_{s}{\frac {\|\mathbf {x} -\mathbf {x } _{m_{1}}\|-\|\mathbf {x} -\mathbf {x} _{m_{2}}\|}{c}}\right\rceil ,

donde es la frecuencia de muestreo del sistema, es la velocidad de propagación del sonido , es la posición del -ésimo micrófono, es la norma 2 y denota el operador de redondeo. $f_{s}$ $c$ $\mathbf {x} _ {m}$ $m$ $\|\cdot \|$ $\lfloor \cdot \rceil$

Correlación cruzada generalizada

La función objetivo SRP anterior se puede expresar como una suma de correlaciones cruzadas generalizadas (GCC) para los diferentes pares de micrófonos en el desfase temporal correspondiente a su TDOA.

P(\mathbf {x} )=\sum _{m_{1}=1}^{M}\sum _{m_{2}=1}^{M}R_{m_{1},m_ {2}}(\tau _{m_{1},m_{2}}(\mathbf {x} )),

donde el GCC para un par de micrófonos se define como ${\ Displaystyle (m_ {1}, m_ {2})}$

R_{m_{1},m_{2}}(\tau )\triangleq {\frac {1}{2\pi }}\int _{-\pi }^{\pi }\Phi _ m_{1},m_{2}}(e^{j\omega })S_{m_{1}}(e^{j\omega })S_{m_{2}}^{*}(e^{ j\omega })e^{j\omega \tau }d\omega .

La transformada de fase (PHAT) es una ponderación GCC eficaz para la estimación de retardo de tiempo en entornos reverberantes, que obliga al GCC a considerar sólo la información de fase de las señales involucradas:

\Phi _{m_{1},m_{2}}(e^{j\omega })\triangleq {\frac {1}{\vert S_{m_{1}}(e^{j\ omega })S_{m_{2}}^{*}(e^{j\omega })\vert }}.

Estimación de la ubicación de origen.

El algoritmo SRP-PHAT consiste en un procedimiento de búsqueda de grillas que evalúa la función objetivo sobre una grilla de ubicaciones de fuentes candidatas para estimar la ubicación espacial de la fuente de sonido, como el punto de la grilla que proporciona el máximo SRP: $P(\mathbf {x} )$ ${\mathcal {G}}$ ${\textbf {x}}_{s}$

{\hat {\mathbf {x} }}_{s}=\arg \max _{\mathbf {x} \in {\mathcal {G}}}P(\mathbf {x} ).

SRP-PHAT modificado

Se han propuesto modificaciones del algoritmo SRP-PHAT clásico para reducir el costo computacional del paso de búsqueda de cuadrícula del algoritmo y aumentar la robustez del método. En el SRP-PHAT clásico, para cada par de micrófonos y para cada punto de la cuadrícula, se selecciona un valor TDOA entero único como retardo acústico correspondiente a ese punto de la cuadrícula. Este procedimiento no garantiza que todos los TDOA estén asociados a puntos de la grilla, ni que la grilla espacial sea consistente, ya que algunos de los puntos pueden no corresponder a una intersección de hiperboloides. Este problema se vuelve más problemático con grillas gruesas ya que, cuando se reduce el número de puntos, parte de la información TDOA se pierde porque la mayoría de los retrasos ya no están asociados a ningún punto de la grilla.

El SRP-PHAT ^[4] modificado recopila y utiliza la información TDOA relacionada con el volumen que rodea cada punto espacial de la cuadrícula de búsqueda considerando una función objetivo modificada:

P'(\mathbf {x} )=\sum _{m_{1}=1}^{M}\sum _{m_{2}=1}^{M}\sum _{\tau = L_{m_{1},m_{2}}^{l}(\mathbf {x} )}^{L_{m_{1},m_{2}}^{u}(\mathbf {x} )} R_ {m_ {1}, m_ {2}} (\tau),

donde y son los límites de acumulación superior e inferior de los retrasos del GCC, que dependen de la ubicación espacial . $L_{m_{1},m_{2}}^{l}(\mathbf {x} )$ $L_{m_{1},m_{2}}^{u}(\mathbf {x} )$ $\mathbf {x}$

Límites de acumulación

Los límites de acumulación se pueden calcular de antemano de forma exacta explorando los límites que separan las regiones correspondientes a los puntos de la cuadrícula. Alternativamente, se pueden seleccionar considerando el gradiente espacial del TDOA , donde cada componente del gradiente es: $\nabla _{\tau _{m_{1},m_{2}}}(\mathbf {x} )=[\nabla _{x\tau _{m_{1},m_{2}}}(\mathbf {x} ),\nabla _{y\tau _{m_{1},m_{2}}}(\mathbf {x} ),\nabla _{z\tau _{m_{1},m_{2}}}(\mathbf {x} )]^{T}$ $\gamma \in \left\{x,y,z\right\}$

\nabla _{\gamma \tau _{m_{1},m_{2}}}(\mathbf {x} )={\frac {1}{c}}\left({\frac {\gamma -\gamma _{m_{1}}}{\|\mathbf {x} -\mathbf {x} _{m_{1}}\|}}-{\frac {\gamma -\gamma _{m_{2}}}{\|\mathbf {x} -\mathbf {x} _{m_{2}}\|}}\right).

Para una cuadrícula rectangular donde los puntos vecinos están separados una distancia , los límites de acumulación superior e inferior vienen dados por: $r$

L_{m_{1},m_{2}}^{l}(\mathbf {x} )=\tau _{m_{1},m_{2}}(\mathbf {x} )-\|\nabla _{\tau _{m_{1},m_{2}}}(\mathbf {x} )\|\cdot d

L_{m_{1},m_{2}}^{u}(\mathbf {x} )=\tau _{m_{1},m_{2}}(\mathbf {x} )+\|\nabla _{\tau _{m_{1},m_{2}}}(\mathbf {x} )\|\cdot d,

donde y los ángulos de dirección del gradiente están dados por $d=(r/2)\min \left({\frac {1}{\vert \sin(\theta )\cos(\phi )\vert }},{\frac {1}{\vert \sin(\theta )\sin(\phi )\vert }},{\frac {1}{\vert \cos(\theta )\vert }}\right)$

\theta =\cos ^{-1}\left({\frac {\nabla _{z\tau _{m_{1},m_{2}}}(\mathbf {x} )}{\|\nabla _{\tau _{m_{1},m_{2}}}(\mathbf {x} )\|}}\right),

\phi =\arctan _{2}\left(\nabla _{y\tau _{m_{1},m_{2}}}(\mathbf {x} ),\nabla _{x\tau _{m_{1},m_{2}}}(\mathbf {x} )\right).

Ver también

Referencias

^ Don H. Johnson; Dan E. Dudgeon (1993). Procesamiento de señales de matriz: conceptos y técnicas . Prentice Hall. ISBN 978-0-13-048513-7.
^ DiBiase, JH (2000). Una técnica de alta precisión y baja latencia para la localización de hablantes en entornos reverberantes utilizando conjuntos de micrófonos (PDF) (Ph.D.). Universidad Marrón.
^ Silverman, HF; Yu, Y.; Sachar, JM; Patterson III, WR (2005). "Rendimiento de estimadores de ubicación de fuente en tiempo real para una matriz de micrófonos de gran apertura". Traducción IEEE. Proceso de audio del habla . 13 (4). IEEE: 593–606. doi :10.1109/TSA.2005.848875. S2CID 9506719.
^ Cobos, M.; Martí, A.; López, JJ (2011). "Un funcional SRP-PHAT modificado para una localización sólida de fuentes de sonido en tiempo real con muestreo espacial escalable". Cartas de procesamiento de señales IEEE . 18 (1). IEEE: 71–74. Código Bib : 2011ISPL...18...71C. doi :10.1109/LSP.2010.2091502. hdl : 10251/55953 . S2CID 18207534.