Matemáticamente, se escribe como: donde w(t) es la función ventana, comúnmente una ventana de Hann o ventana campana Gaussiana centrada en cero, y x(t) es la señal a ser transformada, X(τ, ω) es esencialmente la Transformada de Fourier de x(t)w(t - τ), una función compleja que representa la fase y magnitud de la señal sobre tiempo y frecuencia.
A menudo se emplea la fase instantánea junto con el eje del tiempo τ y el eje de la frecuencia w para suprimir cualquier discontinuidad por salto en la fase resultante en la STFT.
El índice de tiempo τ normalmente se considera un tiempo "lento" y usualmente no se expresa con tan alta resolución como con el tiempo t En el caso del tiempo discreto, la información a ser transformada podría ser dividida en pedazos o tramas (que usualmente se traslapan unos con otros, para reducir irregularidades en la frontera).
En este caso m es discreta y ω es continua, pero en la mayoría de aplicaciones típicas la STFT se hace en un computador usando la Transformada Rápida de Fourier, así ambas variables son discretas y cuantizadas.
De todas, maneras, esto no es más que una estricta representación del tiempo y la frecuencia.
Tomando la transformada de Fourier se produce N coeficientes complejos.
Hay solo dos variables, pero el disminuir fs (y mantener N constante) causará que el tamaño de la ventana aumente, debido a que ahora hay menos muestras por unidad de tiempo.
Las STFTs al igual que las transformaciones estándar de Fourier y otras herramientas son frecuentemente usadas para analizar música.