Estiramiento del tiempo de audio y escalado de tono.

La extensión del tiempo es el proceso de cambiar la velocidad o la duración de una señal de audio sin afectar su tono . El escalado de tono es lo opuesto: el proceso de cambiar el tono sin afectar la velocidad. El cambio de tono es una escala de tono implementada en una unidad de efectos y destinada a presentaciones en vivo. El control de tono es un proceso más simple que afecta el tono y la velocidad simultáneamente al ralentizar o acelerar una grabación.

Estos procesos se utilizan a menudo para hacer coincidir los tonos y tempos de dos clips pregrabados para mezclarlos cuando los clips no se pueden volver a interpretar ni muestrear. La ampliación del tiempo se utiliza a menudo para ajustar los anuncios de radio ^[1] y el audio de los anuncios de televisión ^[2] para que quepan exactamente en los 30 o 60 segundos disponibles. Se puede utilizar para adaptar material más extenso a un intervalo de tiempo designado, como una transmisión de 1 hora.

Remuestreo

La forma más sencilla de cambiar la duración o el tono de una grabación de audio es cambiar la velocidad de reproducción. Para una grabación de audio digital , esto se puede lograr mediante la conversión de frecuencia de muestreo . Cuando se utiliza este método, las frecuencias en la grabación siempre se escalan en la misma proporción que la velocidad, transponiendo el tono percibido hacia arriba o hacia abajo en el proceso. Reducir la velocidad de la grabación para aumentar la duración también reduce el tono, mientras que acelerarla durante un período más corto respectivamente aumenta el tono, creando el llamado efecto Ardilla . Al volver a muestrear audio a un tono notablemente más bajo, puede ser preferible que el audio de origen tenga una frecuencia de muestreo más alta, ya que al reducir la velocidad de reproducción se reproducirá una señal de audio de resolución más baja y, por lo tanto, se reducirá la claridad percibida del sonido. Por el contrario, al remuestrear audio a un tono notablemente más alto, puede ser preferible incorporar un filtro de interpolación, ya que las frecuencias que superan la frecuencia de Nyquist (determinada por la frecuencia de muestreo del software o dispositivo de reproducción de audio) crearán distorsiones de sonido generalmente no deseadas. , fenómeno que también se conoce como aliasing.

Dominio de la frecuencia

Vocodificador de fase

Una forma de alargar la longitud de una señal sin afectar el tono es construir un vocoder de fase siguiendo a Flanagan, Golden y Portnoff.

Pasos básicos:

calcular la relación instantánea de frecuencia/amplitud de la señal utilizando el STFT , que es la transformada discreta de Fourier de un bloque de muestras corto, superpuesto y con ventanas suaves;
aplicar algo de procesamiento a las magnitudes y fases de la transformada de Fourier (como volver a muestrear los bloques FFT); y
Realice un STFT inverso tomando la transformada de Fourier inversa en cada fragmento y agregando los fragmentos de forma de onda resultantes, también llamado superposición y suma (OLA). ^[3]

El vocoder de fase maneja bien los componentes sinusoidales , pero las primeras implementaciones introdujeron una mancha considerable en las formas de onda transitorias ("beat") en todas las velocidades de compresión/expansión no enteras, lo que hace que los resultados sean difusos y en fases. Las mejoras recientes permiten obtener resultados de mejor calidad en todas las relaciones de compresión/expansión, pero aún persiste un efecto de mancha residual.

La técnica del vocoder de fase también se puede utilizar para realizar cambios de tono, coros, manipulación del timbre, armonización y otras modificaciones inusuales, todas las cuales se pueden cambiar en función del tiempo.

Modelado espectral sinusoidal

Otro método para alargar el tiempo se basa en un modelo espectral de la señal. En este método, los picos se identifican en cuadros utilizando el STFT de la señal y se crean "pistas" sinusoidales conectando picos en cuadros adyacentes. Luego, las pistas se vuelven a sintetizar en una nueva escala de tiempo. Este método puede producir buenos resultados tanto en material polifónico como de percusión, especialmente cuando la señal se separa en subbandas. Sin embargo, este método es más exigente desde el punto de vista computacional que otros métodos. ^{[ cita necesaria ]}

Modelar un sonido monofónico como observación a lo largo de una hélice de una función con dominio cilíndrico

Dominio del tiempo

SOLA

Rabiner y Schafer en 1978 propusieron una solución alternativa que funciona en el dominio del tiempo : intentar encontrar el período (o equivalentemente la frecuencia fundamental ) de una sección dada de la onda utilizando algún algoritmo de detección de tono (comúnmente el pico de la autocorrelación de la señal) . o, a veces, procesamiento cepstral ) y fusionar un período con otro.

Esto se llama escalamiento armónico en el dominio del tiempo ^[5] o método de superposición y adición sincronizada (SOLA) y funciona algo más rápido que el vocoder de fase en máquinas más lentas, pero falla cuando la autocorrelación estima erróneamente el período de una señal con armónicos complicados (como como piezas orquestales ).

Adobe Audition (anteriormente Cool Edit Pro) parece solucionar esto buscando el período más cercano a un período central que especifica el usuario, que debe ser un múltiplo entero del tempo, y entre 30 Hz y la frecuencia de graves más baja.

Esto tiene un alcance mucho más limitado que el procesamiento basado en vocoder de fase, pero se puede hacer que requiera mucho menos uso del procesador para aplicaciones en tiempo real. Proporciona los resultados más coherentes ^{[ cita necesaria ]} para sonidos de un solo tono, como voces o grabaciones de instrumentos musicalmente monofónicos.

Los paquetes de procesamiento de audio comerciales de alta gama combinan las dos técnicas (por ejemplo, separando la señal en formas de onda sinusoide y transitoria), o utilizan otras técnicas basadas en la transformada wavelet o el procesamiento de redes neuronales artificiales ^{[ cita necesaria ]} , produciendo la más alta estiramiento del tiempo de calidad.

Enfoque basado en marcos

Para preservar el tono de una señal de audio al estirar o comprimir su duración, muchos procedimientos de modificación de escala de tiempo (TSM) siguen un enfoque basado en cuadros. ^[6] Dada una señal de audio original en tiempo discreto, el primer paso de esta estrategia es dividir la señal en cuadros de análisis cortos de longitud fija. Los marcos de análisis están espaciados por un número fijo de muestras, llamado tamaño de salto de análisis . Para lograr la modificación real de la escala de tiempo, los marcos de análisis se reubican temporalmente para tener un tamaño de salto de síntesis . Esta reubicación de trama da como resultado una modificación de la duración de la señal por un factor de estiramiento de . Sin embargo, la simple superposición de los marcos de análisis no modificados normalmente da como resultado artefactos no deseados, como discontinuidades de fase o fluctuaciones de amplitud. Para evitar este tipo de artefactos, los cuadros de análisis se adaptan para formar cuadros de síntesis , antes de la reconstrucción de la señal de salida modificada en la escala de tiempo. $H_{a}\in \mathbb {N}$ $H_{s}\in \mathbb {N}$ $\alpha =H_{s}/H_{a}$

La estrategia de cómo derivar los marcos de síntesis a partir de los marcos de análisis es una diferencia clave entre los diferentes procedimientos de TSM.

Audición rápida y habla rápida

Para el caso específico del habla, la ampliación del tiempo se puede realizar utilizando PSOLA .

El habla en tiempo comprimido es la representación de un texto verbal en tiempo comprimido. Si bien se podría esperar que la aceleración reduzca la comprensión, Herb Friedman dice que "los experimentos han demostrado que el cerebro funciona más eficientemente si la velocidad de información a través de los oídos (a través del habla) es la velocidad de lectura 'promedio', que es de aproximadamente 200 a 300 palabras por minuto. (palabras por minuto), sin embargo, la velocidad promedio del habla es de alrededor de 100 a 150 palabras por minuto". ^[7]

Escuchar un discurso en tiempo comprimido se considera el equivalente a la lectura rápida . ^{[ ¿por quién? ]}^[8]^[9]

Escala de tono

Estas técnicas también se pueden utilizar para transponer una muestra de audio mientras se mantiene constante la velocidad o la duración. Esto se puede lograr estirando el tiempo y luego volviendo a muestrear hasta la duración original. Alternativamente, la frecuencia de las sinusoides en un modelo sinusoidal puede alterarse directamente y reconstruirse la señal en la escala de tiempo apropiada.

La transposición puede denominarse escalado de frecuencia o cambio de tono , según la perspectiva.

Por ejemplo, se podría subir el tono de cada nota en una quinta justa, manteniendo el tempo igual. Se puede ver esta transposición como un "cambio de tono", "desplazar" cada nota hacia arriba 7 teclas en un teclado de piano, o agregar una cantidad fija en la escala Mel , o agregar una cantidad fija en el espacio de tono lineal . Se puede ver la misma transposición como "escalado de frecuencia", "escalado" (multiplicando) la frecuencia de cada nota por 3/2.

La transposición musical preserva las proporciones de las frecuencias armónicas que determinan el timbre del sonido , a diferencia del cambio de frecuencia realizado por la modulación de amplitud , que agrega un desplazamiento de frecuencia fijo a la frecuencia de cada nota. (En teoría, se podría realizar una escala de tono literal en la que se escala la ubicación del espacio de tono musical [una nota más alta se desplazaría en un intervalo mayor en el espacio de tono lineal que una nota más baja], pero eso es muy inusual y no musical. ^{[ cita requerida ]} )

El procesamiento en el dominio del tiempo funciona mucho mejor aquí, ya que la mancha es menos perceptible, pero el escalado de las muestras vocales distorsiona los formantes en una especie de efecto similar al de Alvin y las Ardillas , que puede ser deseable o indeseable. Un proceso que preserva los formantes y el carácter de una voz implica analizar la señal con un vocodificador de canal o un vocodificador LPC más cualquiera de varios algoritmos de detección de tono y luego resintetizarla a una frecuencia fundamental diferente.

Puede encontrar una descripción detallada de técnicas de grabación analógicas más antiguas para el cambio de tono en Alvin and the Chipmunks § Técnica de grabación .

En software de consumo

La extensión de tiempo de audio con corrección de tono se encuentra en todos los navegadores web modernos como parte del estándar HTML para la reproducción multimedia. ^[10] Controles similares son omnipresentes en aplicaciones y marcos de medios como GStreamer y Unity .

Ver también

emparejamiento de ritmo
Tonalidad dinámica : cambios de afinación y timbre en tiempo real
Correccion de tono
Fregar (audio)
Núcleo nocturno

Referencias

^ "Dolby, las ardillas y NAB2004". Archivado desde el original el 27 de mayo de 2008. {{cite magazine}}: Cite revista requiere |magazine=( ayuda )
^ "Discurso variable". www.atarimagazines.com .
^ Jont B. Allen (junio de 1977). "Análisis, síntesis y modificación espectral de corto tiempo mediante transformada discreta de Fourier". Transacciones IEEE sobre acústica, voz y procesamiento de señales . ASSP-25 (3): 235–238.
^ McAulay, RJ; Quatieri, TF (1988), "Procesamiento del habla basado en un modelo sinusoidal" (PDF) , The Lincoln Laboratory Journal , 1 (2): 153–167, archivado desde el original (PDF) el 21 de mayo de 2012 , consultado en 2014 -09-07
^ David Malah (abril de 1979). "Algoritmos en el dominio del tiempo para la reducción armónica del ancho de banda y el escalado temporal de señales de voz". Transacciones IEEE sobre acústica, voz y procesamiento de señales . ASSP-27 (2): 121–133.
^ Jonathan Driedger y Meinard Müller (2016). "Una revisión de la modificación de la escala de tiempo de las señales musicales". Ciencias Aplicadas . 6 (2): 57. doi : 10.3390/app6020057 .
^ Discurso variable, Computación creativa vol. 9, núm. 7 / julio de 1983 / p. 122
^ "Escuche podcasts en la mitad de tiempo". Archivado desde el original el 29 de agosto de 2011 . Consultado el 24 de julio de 2008 .
^ "iPods a toda velocidad". Archivado desde el original el 2 de septiembre de 2006.
^ "HTMLMediaElement.playbackRate: API web". MDN . Consultado el 1 de septiembre de 2021 .

enlaces externos

Descripción general de Time Stretching y Pitch Shifting Una descripción general completa de las técnicas actuales de modificación de tiempo y tono por Stephan Bernsee
Código fuente smbPitchShift C de Stephan Bernsee Código fuente C para realizar manipulación del tono en el dominio de la frecuencia
pitchshift.js de KievII Un pitchshifter de Javascript basado en el código smbPitchShift, de la biblioteca de código abierto KievII
El vocoder de fase: un tutorial: una buena descripción del vocoder de fase
Nuevas técnicas de Phase-Vocoder para cambios de tono, armonización y otros efectos exóticos
Un nuevo enfoque para el procesamiento transitorio en el vocoder de fase
PICOLA y TDHS
Cómo construir un cambiador de tono Teoría, ecuaciones, figuras y actuaciones de un cambiador de tono de guitarra en tiempo real que se ejecuta en un chip DSP
Biblioteca de extensión de tiempo ZTX Versiones gratuitas y comerciales de una popular biblioteca de extensión de tiempo de terceros para iOS, Linux, Windows y Mac OS X
Biblioteca comercial multiplataforma Elastique by zplane, utilizada principalmente por fabricantes de DJ y DAW
Voice Synth de Qneo: sintetizador especializado para esculpir voz creativa
Caja de herramientas TSM Implementaciones MATLAB gratuitas de varios procedimientos de modificación de escala de tiempo
PaulStretch en Wayback Machine (archivado el 2 de febrero de 2023), un algoritmo conocido para estiramientos de tiempo extremos (>10 ×)
Bibliotecas comerciales y de código abierto de Bungee para estiramiento de audio en tiempo real
Rubber Band: biblioteca de código abierto para alargar el tiempo y cambiar el tono
SoundTouch: biblioteca de código abierto para cambiar el tempo, el tono y la velocidad de reproducción