Transformada de Fourier de corta duración

La transformada de Fourier de corta duración ( STFT ) es una transformada relacionada con Fourier que se utiliza para determinar la frecuencia sinusoidal y el contenido de fase de las secciones locales de una señal a medida que cambia con el tiempo. ^[1] En la práctica, el procedimiento para calcular las STFT es dividir una señal de tiempo más largo en segmentos más cortos de igual longitud y luego calcular la transformada de Fourier por separado en cada segmento más corto. Esto revela el espectro de Fourier en cada segmento más corto. Luego, generalmente se trazan los espectros cambiantes en función del tiempo, lo que se conoce como espectrograma o diagrama de cascada, como los que se usan comúnmente en las pantallas de espectro basadas en radio definida por software (SDR). Las pantallas de ancho de banda completo que cubren todo el rango de una SDR generalmente usan transformadas rápidas de Fourier (FFT) con 2^24 puntos en las computadoras de escritorio. ^{[ cita requerida ]}

Espectrograma que muestra los resultados de una prueba STFT de las palabras "siglo XIX". En este caso, las frecuencias se muestran en aumento en el eje vertical y el tiempo en el eje horizontal. La leyenda de la derecha muestra que la intensidad del color aumenta con la densidad.

Adelante STFT

STFT de tiempo continuo

En términos simples, en el caso de tiempo continuo, la función que se va a transformar se multiplica por una función de ventana que es distinta de cero solo durante un breve período de tiempo. Se toma la transformada de Fourier (una función unidimensional) de la señal resultante y luego se desliza la ventana a lo largo del eje del tiempo hasta el final, lo que da como resultado una representación bidimensional de la señal. Matemáticamente, esto se escribe así:

\mathbf {STFT} \{x(t)\}(\tau ,\omega )\equiv X(\tau ,\omega )=\int _{-\infty }^{\infty }x(t)w(t-\tau )e^{-i\omega t}\,dt

donde es la función de ventana , comúnmente una ventana de Hann o ventana gaussiana centrada alrededor de cero, y es la señal que se va a transformar (nótese la diferencia entre la función de ventana y la frecuencia ). es esencialmente la transformada de Fourier de , una función compleja que representa la fase y magnitud de la señal en el tiempo y la frecuencia. A menudo se emplea el desenrollado de fase a lo largo de uno o ambos ejes de tiempo, , y eje de frecuencia, , para suprimir cualquier discontinuidad de salto del resultado de fase de la STFT. El índice de tiempo normalmente se considera tiempo " lento " y generalmente no se expresa con tan alta resolución como el tiempo . Dado que la STFT es esencialmente una transformada de Fourier multiplicada por una función de ventana, la STFT también se llama transformada de Fourier en ventana o transformada de Fourier dependiente del tiempo. $w(\tau )$ ${\estilo de visualización x(t)}$ ${\estilo de visualización w}$ ${\estilo de visualización \omega}$ $X(\tau,\omega)$ $x(t)w(t-\tau )$ ${\estilo de visualización \tau}$ ${\estilo de visualización \omega}$ ${\estilo de visualización \tau}$ ${\estilo de visualización t}$

STFT de tiempo discreto

En el caso de tiempo discreto, los datos que se van a transformar se pueden dividir en fragmentos o cuadros (que normalmente se superponen entre sí, para reducir los artefactos en el límite). Cada fragmento se transforma en Fourier y el resultado complejo se agrega a una matriz, que registra la magnitud y la fase para cada punto en el tiempo y la frecuencia. Esto se puede expresar como:

\mathbf {STFT} \{x[n]\}(m,\omega )\equiv X(m,\omega )=\sum _{n=-\infty }^{\infty }x[n]w[nm]e^{-i\omega n}

Del mismo modo, con señal y ventana . En este caso, m es discreto y ω es continuo, pero en la mayoría de las aplicaciones típicas la STFT se realiza en una computadora utilizando la transformada rápida de Fourier , por lo que ambas variables son discretas y cuantificadas . $x[n]$ $w[n]$

La magnitud al cuadrado de la STFT produce la representación en espectrograma de la densidad espectral de potencia de la función:

\operatorname {espectrograma} \{x(t)\}(\tau ,\omega )\equiv |X(\tau ,\omega )|^{2}

Véase también la transformada de coseno discreta modificada (MDCT), que también es una transformada relacionada con Fourier que utiliza ventanas superpuestas.

DFT deslizante

Si solo se desea una pequeña cantidad de ω, o si se desea evaluar la STFT para cada desplazamiento m de la ventana, entonces la STFT se puede evaluar de manera más eficiente utilizando un algoritmo DFT deslizante . ^[2]

STFT inversa

La STFT es invertible , es decir, la señal original se puede recuperar de la transformación mediante la STFT inversa. La forma más aceptada de invertir la STFT es mediante el método de superposición y adición (OLA) , que también permite realizar modificaciones en el espectro complejo de la STFT. Esto lo convierte en un método de procesamiento de señales versátil, ^[3] conocido como el método de superposición y adición con modificaciones .

STFT de tiempo continuo

Dado el ancho y la definición de la función de ventana w ( t ), inicialmente requerimos que el área de la función de ventana se escale de modo que

\int _{-\infty }^{\infty }w(\tau )\,d\tau =1.

De ello se deduce fácilmente que

\int _{-\infty }^{\infty }w(t-\tau )\,d\tau =1\quad \para todo \ t

x(t)=x(t)\int _{-\infty }^{\infty }w(t-\tau )\,d\tau =\int _{-\infty }^{\infty }x(t)w(t-\tau )\,d\tau .

La transformada continua de Fourier es

X(\omega )=\int _{-\infty }^{\infty }x(t)e^{-i\omega t}\,dt.

Sustituyendo x ( t ) de arriba:

X(\omega )=\int _{-\infty }^{\infty }\left[\int _{-\infty }^{\infty }x(t)w(t-\tau )\,d\tau \right]\,e^{-i\omega t}\,dt

=\int _{-\infty }^{\infty }\int _{-\infty }^{\infty }x(t)w(t-\tau )\,e^{-i\omega t}\,d\tau \,dt.

Intercambiando el orden de integración:

X(\omega )=\int _{-\infty }^{\infty }\int _{-\infty }^{\infty }x(t)w(t-\tau )\,e^{-i\omega t}\,dt\,d\tau

=\int _{-\infty }^{\infty }\left[\int _{-\infty }^{\infty }x(t)w(t-\tau )\,e^{-i\omega t}\,dt\right]\,d\tau

=\int _{-\infty }^{\infty }X(\tau ,\omega )\,d\tau .

Por lo tanto, la transformada de Fourier puede verse como una especie de suma coherente de fase de todas las STFT de x ( t ). Dado que la transformada de Fourier inversa es

x(t)={\frac {1}{2\pi}}\int _{-\infty}^{\infty}X(\omega )e^{+i\omega t}\,d\omega ,

entonces x ( t ) se puede recuperar a partir de X (τ,ω) como

x(t)={\frac {1}{2\pi}}\int _{-\infty }^{\infty }\int _{-\infty }^{\infty }X(\tau ,\omega )e^{+i\omega t}\,d\tau \,d\omega .

x(t)=\int _{-\infty }^{\infty }\left[{\frac {1}{2\pi }}\int _{-\infty }^{\infty }X(\tau ,\omega )e^{+i\omega t}\,d\omega \right]\,d\tau .

Se puede ver, comparando con lo anterior, que el "grano" o "ondícula" ventanal de x ( t ) es

x(t)w(t-\tau )={\frac {1}{2\pi }}\int _{-\infty }^{\infty }X(\tau ,\omega )e^{+i\omega t}\,d\omega .

la transformada de Fourier inversa de X (τ,ω) para τ fija.

Una definición alternativa que es válida sólo en la vecindad de τ, la transformada inversa es:

x(t)={\frac {1}{w(t-\tau )}}{\frac {1}{2\pi }}\int _{-\infty }^{\infty }X(\tau ,\omega )e^{+i\omega t}\,d\omega .

En general, la función de ventana tiene las siguientes propiedades: $w(t)$

(a) simetría par: ;

w(t)=w(-t)

(b) no creciente (para tiempo positivo): si ;

w(t)\geq w(s)

|t|\leq |s|

w(t)

Problemas de resolución

Una de las desventajas de la STFT es que tiene una resolución fija. El ancho de la función de ventana se relaciona con la forma en que se representa la señal: determina si hay una buena resolución de frecuencia (los componentes de frecuencia cercanos se pueden separar) o una buena resolución temporal (el momento en el que cambian las frecuencias). Una ventana amplia brinda una mejor resolución de frecuencia pero una mala resolución temporal. Una ventana más estrecha brinda una buena resolución temporal pero una mala resolución de frecuencia. Estas se denominan transformadas de banda estrecha y de banda ancha, respectivamente.

Esta es una de las razones para la creación de la transformada wavelet y el análisis multirresolución , que puede proporcionar una buena resolución temporal para eventos de alta frecuencia y una buena resolución de frecuencia para eventos de baja frecuencia, la combinación más adecuada para muchas señales reales.

Esta propiedad está relacionada con el principio de incertidumbre de Heisenberg , pero no directamente (véase el límite de Gabor para más información). El producto de la desviación estándar en el tiempo y la frecuencia es limitado. El límite del principio de incertidumbre (mejor resolución simultánea de ambos) se alcanza con una función de ventana gaussiana (o función de máscara), ya que la gaussiana minimiza el principio de incertidumbre de Fourier . Esto se denomina transformada de Gabor (y con modificaciones para la resolución múltiple se convierte en la transformada wavelet de Morlet ).

Se puede considerar la STFT para tamaños de ventana variables como un dominio bidimensional (tiempo y frecuencia), como se ilustra en el ejemplo siguiente, que se puede calcular variando el tamaño de la ventana. Sin embargo, esta ya no es una representación estrictamente tiempo-frecuencia: el núcleo no es constante a lo largo de toda la señal.

Ejemplos

Cuando la función original es:

X(t,f)=\int _{-\infty }^{\infty }w(t-\tau )x(\tau )e^{-j2\pi f\tau }d\tau

Podemos tener un ejemplo sencillo:

w(t) = 1 para |t| menor o igual que B

w(t) = 0 en caso contrario

B = ventana

Ahora la función original de la transformada de Fourier de tiempo corto se puede cambiar como

X(t,f)=\int _{t-B}^{t+B}x(\tau )e^{-j2\pi f\tau }d\tau

Otro ejemplo:

Utilizando la siguiente señal de muestra que se compone de un conjunto de cuatro formas de onda sinusoidales unidas en secuencia. Cada forma de onda se compone únicamente de una de cuatro frecuencias (10, 25, 50, 100 Hz ). La definición de es: $x(t)$ $x(t)$

x(t)={\begin{cases}\cos(2\pi 10t)&0\,\mathrm {s} \leq t<5\,\mathrm {s} \\\cos(2\pi 25t)&5\,\mathrm {s} \leq t<10\,\mathrm {s} \\\cos(2\pi 50t)&10\,\mathrm {s} \leq t<15\,\mathrm {s} \\\cos(2\pi 100t)&15\,\mathrm {s} \leq t<20\,\mathrm {s} \\\end{cases}}

Luego se muestrea a 400 Hz. Se produjeron los siguientes espectrogramas:

La ventana de 25 ms nos permite identificar un momento preciso en el que cambian las señales, pero las frecuencias precisas son difíciles de identificar. En el otro extremo de la escala, la ventana de 1000 ms permite ver las frecuencias con precisión, pero el tiempo entre los cambios de frecuencia es difuso.

Otros ejemplos:

w(t)=exp(\sigma -t^{2})

Normalmente, a la función gaussiana la llamamos función de Gabor. Cuando la utilizamos, la transformada de Fourier de corta duración se denomina "transformada de Gabor". $exp(\sigma -t^{2})$

Explicación

También se puede explicar con referencia al muestreo y la frecuencia de Nyquist .

Tome una ventana de N muestras de una señal arbitraria de valor real a una frecuencia de muestreo f _s . Al tomar la transformada de Fourier se obtienen N coeficientes complejos. De estos coeficientes, solo la mitad son útiles (los últimos N/2 son el conjugado complejo de los primeros N/2 en orden inverso, ya que se trata de una señal de valor real).

Estos coeficientes N/2 representan las frecuencias 0 a f _s /2 (Nyquist) y dos coeficientes consecutivos están espaciados por f _s / N Hz.

Para aumentar la resolución de frecuencia de la ventana, es necesario reducir el espaciado de frecuencia de los coeficientes. Solo hay dos variables, pero al disminuir f _s (y mantener N constante) aumentará el tamaño de la ventana, ya que ahora hay menos muestras por unidad de tiempo. La otra alternativa es aumentar N , pero esto nuevamente hace que aumente el tamaño de la ventana. Por lo tanto, cualquier intento de aumentar la resolución de frecuencia provoca un tamaño de ventana más grande y, por lo tanto, una reducción en la resolución temporal, y viceversa.

Frecuencia de Rayleigh

Así como la frecuencia de Nyquist es una limitación en la frecuencia máxima que puede analizarse de manera significativa, la frecuencia de Rayleigh es una limitación en la frecuencia mínima.

La frecuencia de Rayleigh es la frecuencia mínima que se puede resolver en una ventana de tiempo de duración finita. ^[4]^[5]

Dada una ventana de tiempo de Τ segundos de duración, la frecuencia mínima que se puede resolver es 1/Τ Hz.

La frecuencia de Rayleigh es una consideración importante en las aplicaciones de la transformada de Fourier de tiempo corto (STFT), así como cualquier otro método de análisis armónico en una señal de longitud de registro finita. ^[6]^[7]

Solicitud

Una STFT que se utiliza para analizar una señal de audio a lo largo del tiempo

Las transformadas de Fourier estándar y otras herramientas se utilizan con frecuencia para analizar música. El espectrograma puede, por ejemplo, mostrar la frecuencia en el eje horizontal, con las frecuencias más bajas a la izquierda y las más altas a la derecha. La altura de cada barra (aumentada por el color) representa la amplitud de las frecuencias dentro de esa banda. La dimensión de profundidad representa el tiempo, donde cada nueva barra era una transformada distinta e independiente. Los ingenieros de audio utilizan este tipo de visualización para obtener información sobre una muestra de audio, por ejemplo, para localizar las frecuencias de ruidos específicos (especialmente cuando se utilizan con una mayor resolución de frecuencia) o para encontrar frecuencias que pueden ser más o menos resonantes en el espacio donde se grabó la señal. Esta información se puede utilizar para la ecualización o para ajustar otros efectos de audio.

Implementación

Función original

X(t,f)=\int _{-\infty }^{\infty }w(t-\tau )x(\tau )e^{-j2\pi f\tau }d\tau

Convirtiendo a la forma discreta:

t=n\Delta _{t},f=m\Delta _{f},\tau =p\Delta _{t}

X(n\Delta _{t},m\Delta _{f})=\sum _{-\infty }^{\infty }w((n-p)\Delta _{t})x(p\Delta _{t})e^{-j2\pi pm\Delta _{t}\Delta _{f}}\Delta _{t}

Supongamos que

w(t)\cong 0{\text{ for }}|t|>B,{\frac {B}{\Delta _{t}}}=Q

Luego podemos escribir la función original en

X(n\Delta _{t},m\Delta _{f})=\sum _{p=n-Q}^{n+Q}w((n-p)\Delta _{t})x(p\Delta _{t})e^{-j2\pi pm\Delta _{t}\Delta _{f}}\Delta _{t}

Implementación directa

Restricciones

a. Criterio de Nyquist (evitando el efecto de aliasing):

\Delta _{t}<{\frac {1}{2\Omega }}

, ¿dónde está el ancho de banda de

\Omega

x(\tau )w(t-\tau )

Método basado en FFT

Restricción

a. , donde es un entero $\Delta _{t}\Delta _{f}={\tfrac {1}{N}}$ $N$

b. $N\geq 2Q+1$

c. Criterio de Nyquist (que evita el efecto de aliasing):

\Delta _{t}<{\frac {1}{2\Omega }}

, es el ancho de banda de

\Omega

x(\tau )w(t-\tau )

X(n\Delta _{t},m\Delta _{f})=\sum _{p=n-Q}^{n+Q}w((n-p)\Delta _{t})x(p\Delta _{t})e^{-{\frac {2\pi jpm}{N}}}\Delta _{t}

{\text{if we have }}q=p-(n-Q),{\text{ then }}p=(n-Q)+q

X(n\Delta _{t},m\Delta _{f})=\Delta _{t}e^{\frac {2\pi j(Q-n)m}{N}}\sum _{q=0}^{N-1}x_{1}(q)e^{-{\frac {2\pi jqm}{N}}}

{\text{where }}x_{1}(q)={\begin{cases}w((Q-q)\Delta _{t})x((n-Q+q)\Delta _{t})&0\leq q\leq 2Q\\0&2Q<q<N\end{cases}}

Método recursivo

Restricción

a. , donde es un entero $\Delta _{t}\Delta _{f}={\tfrac {1}{N}}$ $N$

b. $N\geq 2Q+1$

c. Criterio de Nyquist (que evita el efecto de aliasing):

\Delta _{t}<{\frac {1}{2\Omega }}

, es el ancho de banda de

\Omega

x(\tau )w(t-\tau )

d. Solo para implementar la STFT rectangular

La ventana rectangular impone la restricción

w((n-p)\Delta _{t})=1

La sustitución da:

{\begin{aligned}X(n\Delta _{t},m\Delta _{f})&=\sum _{p=n-Q}^{n+Q}w((n-p)\Delta _{t})&x(p\Delta _{t})e^{-{\frac {j2\pi pm}{N}}}\Delta _{t}\\&=\sum _{p=n-Q}^{n+Q}&x(p\Delta _{t})e^{-{\frac {j2\pi pm}{N}}}\Delta _{t}\\\end{aligned}}

Cambio de variable $n -1$ por $n$ :

X((n-1)\Delta _{t},m\Delta _{f})=\sum _{p=n-1-Q}^{n-1+Q}x(p\Delta _{t})e^{-{\frac {j2\pi pm}{N}}}\Delta _{t}

Calcular mediante la FFT de N puntos: $X(\min {n}\Delta _{t},m\Delta _{f})$

X(n_{0}\Delta _{t},m\Delta _{f})=\Delta _{t}e^{\frac {j2\pi (Q-n_{0})m}{N}}\sum _{q=0}^{N-1}x_{1}(q)e^{-j{\frac {2\pi qm}{N}}},\qquad n_{0}=\min {(n)}

dónde

x_{1}(q)={\begin{cases}x((n-Q+q)\Delta _{t})&q\leq 2Q\\0&q>2Q\end{cases}}

Aplicando la fórmula recursiva para calcular $X(n\Delta _{t},m\Delta _{f})$

X(n\Delta _{t},m\Delta _{f})=X((n-1)\Delta _{t},m\Delta _{f})-x((n-Q-1)\Delta _{t})e^{-{\frac {j2\pi (n-Q-1)m}{N}}}\Delta _{t}+x((n+Q)\Delta _{t})e^{-{\frac {j2\pi (n+Q)m}{N}}}\Delta _{t}

Transformación Z de Chirp

Restricción

\exp {(-j2\pi pm\Delta _{t}\Delta _{f})}=\exp {(-j\pi p^{2}\Delta _{t}\Delta _{f})}\cdot \exp {(j\pi (p-m)^{2}\Delta _{t}\Delta _{f})}\cdot \exp {(-j\pi m^{2}\Delta _{t}\Delta _{f})}

entonces

X(n\Delta _{t},m\Delta _{f})=\Delta _{t}\sum _{p=n-Q}^{n+Q}w((n-p)\Delta _{t})x(p\Delta _{t})e^{-j2\pi pm\Delta _{t}\Delta _{f}}

X(n\Delta _{t},m\Delta _{f})=\Delta _{t}e^{-j2\pi m^{2}\Delta _{t}\Delta _{f}}\sum _{p=n-Q}^{n+Q}w((n-p)\Delta _{t})x(p\Delta _{t})e^{-j\pi p^{2}\Delta _{t}\Delta _{f}}e^{j\pi (p-m)^{2}\Delta _{t}\Delta _{f}}

Comparación de implementación

Véase también

Otras transformaciones de tiempo-frecuencia:

Referencias

^ Sejdić E.; Djurović I.; Jiang J. (2009). "Representación de características de tiempo-frecuencia usando concentración de energía: una descripción general de los avances recientes". Procesamiento de señales digitales . 19 (1): 153–183. Bibcode :2009DSP....19..153S. doi :10.1016/j.dsp.2007.12.004.
^ E. Jacobsen y R. Lyons, The sliding DFT, Signal Processing Magazine vol. 20, número 2, págs. 74–80 (marzo de 2003).
^ Jont B. Allen (junio de 1977). "Análisis espectral de corto plazo, síntesis y modificación mediante transformada de Fourier discreta". IEEE Transactions on Acoustics, Speech, and Signal Processing . ASSP-25 (3): 235–238. doi :10.1109/TASSP.1977.1162950.
^ Kleinfeld, David; Mitra, Partha P. (marzo de 2014). "Métodos espectrales para la obtención de imágenes cerebrales funcionales". Protocolos de Cold Spring Harbor . 2014 (3): pdb.top081075. doi :10.1101/pdb.top081075. PMID 24591695.
^ "¿Qué significa "relleno no suficiente para la resolución de frecuencia solicitada"? – Caja de herramientas FieldTrip".
^ Zeitler M, Fries P, Gielen S (2008). "Competencia sesgada a través de variaciones en la amplitud de las oscilaciones gamma". J Comput Neurosci . 25 (1): 89–107. doi :10.1007/s10827-007-0066-2. PMC 2441488 . PMID 18293071.
^ Wingerden, Marijn van; Vinck, Martín; Lankelma, enero; Pennartz, Cyriel MA (19 de mayo de 2010). "Bloqueo de fase de banda theta de neuronas orbitofrontales durante la expectativa de recompensa". Revista de Neurociencia . 30 (20): 7078–7087. doi :10.1523/JNEUROSCI.3860-09.2010. ISSN 0270-6474. PMC 6632657 . PMID 20484650.

Enlaces externos

DiscreteTFDs: software para calcular la transformada de Fourier de tiempo corto y otras distribuciones de tiempo-frecuencia
Análisis espectral singular: kit de herramientas del método MultiTaper: un programa de software gratuito para analizar series temporales cortas y ruidosas
Kit de herramientas kSpectra para Mac OS X de SpectraWorks
Transformada de Fourier de tiempo corto y estirada en el tiempo para el análisis de frecuencia de tiempo de señales de banda ultra ancha
Una clase de Matlab con licencia BSD para realizar STFT y STFT inversa
LTFAT: una caja de herramientas gratuita (GPL) de Matlab/Octave para trabajar con transformadas de Fourier de tiempo corto y análisis de tiempo-frecuencia
Sonogram Visible Speech: un software gratuito (GPL) para transformadas de Fourier de corta duración y análisis de tiempo-frecuencia
Universidad Nacional de Taiwán, Análisis de tiempo-frecuencia y transformada wavelet 2021, Profesor Jian-Jiun Ding, Departamento de Ingeniería Eléctrica