stringtranslate.com

Pintura de audio

La interpolación de audio (también conocida como restauración de audio ) es una tarea de restauración de audio que se ocupa de la reconstrucción de partes faltantes o dañadas de una señal de audio digital . [1] Las técnicas de restauración se emplean cuando partes del audio se han perdido debido a diversos factores, como errores de transmisión, corrupción de datos o errores durante la grabación. [2]

El objetivo de la restauración de audio es rellenar los espacios vacíos (es decir, las partes faltantes) en la señal de audio de manera uniforme, haciendo que las partes reconstruidas sean indistinguibles del contenido original y evitando la introducción de distorsiones o alteraciones audibles. [3]

Se han propuesto muchas técnicas para resolver el problema de la inserción de audio y esto generalmente se logra analizando la información temporal [1] [4] [5] y espectral [3] [2] que rodea cada porción faltante de la señal de audio considerada.

Espectrograma corrupto (arriba) y su reconstrucción después de realizar la restauración de audio (abajo)

Los métodos clásicos emplean modelos estadísticos o algoritmos de procesamiento de señales digitales [1] [4] [5] para predecir y sintetizar las secciones faltantes o dañadas. Las soluciones recientes, en cambio, aprovechan los modelos de aprendizaje profundo , gracias a la creciente tendencia de explotar métodos basados ​​en datos en el contexto de la restauración de audio. [3] [2] [6]

Dependiendo de la extensión de la información perdida, la tarea de restauración puede dividirse en tres categorías. La restauración corta se refiere a la reconstrucción de unos pocos milisegundos (aproximadamente menos de 10) de señal faltante, que ocurre en el caso de distorsiones cortas como clics o recortes . [7] En este caso, el objetivo de la reconstrucción es recuperar exactamente la información perdida. En cambio, en la restauración larga, con espacios en el orden de cientos de milisegundos o incluso segundos, este objetivo se vuelve poco realista, ya que las técnicas de restauración no pueden depender de información local. [8] Por lo tanto, además de proporcionar una reconstrucción coherente, los algoritmos necesitan generar nueva información que tiene que ser semánticamente compatible con el contexto circundante (es decir, la señal de audio que rodea los espacios). [3] El caso de los espacios de duración media se encuentra entre la restauración corta y larga. Se refiere a la reconstrucción de decenas de milisegundos de datos faltantes, una escala donde la característica no estacionaria del audio ya se vuelve importante. [9]

Definición

Considere una señal de audio digital . Una versión corrupta de , que es la señal de audio que presenta espacios faltantes para ser reconstruida, se puede definir como , donde es una máscara binaria que codifica las muestras confiables o faltantes de , y representa el producto elemento por elemento . [2] El retoque de audio tiene como objetivo encontrar (es decir, la reconstrucción), que es una estimación de . Este es un problema inverso mal planteado , que se caracteriza por un conjunto no único de soluciones. [2] Por esta razón, de manera similar a la formulación utilizada para el problema de retoque en otros dominios, [10] [11] [12] la señal de audio reconstruida se puede encontrar a través de un problema de optimización que se expresa formalmente como

.

En particular, es la señal de audio reconstruida óptima y es un término de medida de distancia que calcula la precisión de reconstrucción entre la señal de audio corrupta y la estimada. [10] Por ejemplo, este término se puede expresar con un error cuadrático medio o métricas similares .

Dado que se calcula solo en los cuadros confiables, hay muchas soluciones que pueden minimizar . Por lo tanto, es necesario agregar una restricción a la minimización, para restringir los resultados solo a las soluciones válidas. [12] [11] Esto se expresa a través del término de regularización que se calcula en la señal de audio reconstruida . Este término codifica algún tipo de información a priori sobre los datos de audio. Por ejemplo, puede expresar suposiciones sobre la estacionariedad de la señal, sobre la escasez de su representación o puede aprenderse de los datos. [12] [11]

Técnicas

Existen varias técnicas para realizar la reproducción de audio. Estas pueden variar significativamente, influenciadas por factores como los requisitos específicos de la aplicación, la longitud de los espacios y los datos disponibles. [3] En la literatura, estas técnicas se dividen en técnicas basadas en modelos (a veces también denominadas técnicas de procesamiento de señales) [3] y técnicas basadas en datos. [2]

Técnicas basadas en modelos

Las técnicas basadas en modelos implican la explotación de modelos matemáticos o suposiciones sobre la estructura subyacente de la señal de audio. Estos modelos pueden basarse en el conocimiento previo del contenido de audio o en las propiedades estadísticas observadas en los datos. Al aprovechar estos modelos, se pueden inferir o estimar partes faltantes o dañadas de la señal de audio. [1]

Un ejemplo de técnicas basadas en modelos son los modelos autorregresivos . [5] [13] Estos métodos interpolan o extrapolan las muestras faltantes en función de los valores vecinos, utilizando funciones matemáticas para aproximar los datos faltantes. En particular, en los modelos autorregresivos las muestras faltantes se completan mediante predicción lineal. [14] Los coeficientes autorregresivos necesarios para esta predicción se aprenden de los datos de audio circundantes, específicamente de los datos adyacentes a cada espacio. [5] [13]

Algunas técnicas más recientes abordan la reproducción de audio mediante la representación de señales de audio como combinaciones lineales dispersas de un número limitado de funciones base (como por ejemplo en la Transformada de Fourier de Tiempo Corto ). [1] [15] En este contexto, el objetivo es encontrar la representación dispersa de la sección faltante de la señal que coincida con mayor precisión con la señal circundante no afectada. [1]

Los métodos antes mencionados muestran un rendimiento óptimo cuando se aplican para rellenar espacios relativamente cortos, que duran solo unas pocas decenas de milisegundos, y por lo tanto se pueden incluir en el contexto de una restauración breve. Sin embargo, estas técnicas de procesamiento de señales tienden a tener dificultades cuando se trata de espacios más largos. [2] La razón detrás de esta limitación radica en la violación de la condición de estacionariedad, ya que la señal a menudo sufre cambios significativos después del espacio, lo que la hace sustancialmente diferente de la señal que lo precede. [2]

Como una forma de superar estas limitaciones, algunos enfoques agregan fuertes suposiciones también sobre la estructura fundamental de la brecha en sí, explotando el modelado sinusoidal [16] o gráficos de similitud [8] para realizar la restauración de porciones faltantes más largas de señales de audio.

Técnicas basadas en datos

Las técnicas basadas en datos se basan en el análisis y la explotación de los datos de audio disponibles. Estas técnicas suelen emplear algoritmos de aprendizaje profundo que aprenden patrones y relaciones directamente de los datos proporcionados. Implican el entrenamiento de modelos en grandes conjuntos de datos de ejemplos de audio, lo que les permite capturar las regularidades estadísticas presentes en las señales de audio. Una vez entrenados, estos modelos se pueden utilizar para generar partes faltantes de la señal de audio en función de las representaciones aprendidas, sin estar restringidos por supuestos de estacionariedad. [3] Las técnicas basadas en datos también ofrecen la ventaja de la adaptabilidad y la flexibilidad, ya que pueden aprender de diversos conjuntos de datos de audio y potencialmente manejar escenarios complejos de superposición de imágenes. [3]

Hoy en día, estas técnicas constituyen el estado del arte de la reproducción de audio, pudiendo reconstruir espacios de cientos de milisegundos o incluso segundos. Estas actuaciones son posibles gracias al uso de modelos generativos que tienen la capacidad de generar contenido novedoso para rellenar las partes faltantes. Por ejemplo, las redes generativas adversarias , que son el estado del arte de los modelos generativos en muchas áreas, se basan en dos redes neuronales en competencia entrenadas simultáneamente en un juego minmax de dos jugadores : el generador produce nuevos datos a partir de muestras de una variable aleatoria, el discriminador intenta distinguir entre datos generados y reales. [17] Durante el entrenamiento, el objetivo del generador es engañar al discriminador, mientras que el discriminador intenta aprender a clasificar mejor los datos reales y falsos. [17]

En los métodos de integración basados ​​en GAN, el generador actúa como un codificador de contexto y produce una finalización plausible para el espacio solo dada la información disponible que lo rodea. [3] El discriminador se utiliza para entrenar al generador y prueba la consistencia del audio integrado producido. [3]

Recientemente, los modelos de difusión también se han establecido como el estado del arte de los modelos generativos en muchos campos, superando a menudo incluso a las soluciones basadas en GAN. Por esta razón, también se han utilizado para resolver el problema de la reproducción de audio, obteniendo resultados válidos. [2] Estos modelos generan nuevas instancias de datos invirtiendo el proceso de difusión, donde las muestras de datos se transforman progresivamente en ruido gaussiano. [2]

Una desventaja de los modelos generativos es que normalmente necesitan una gran cantidad de datos de entrenamiento . Esto es necesario para que la red se generalice bien y sea capaz de producir información de audio coherente, que también presenta algún tipo de complejidad estructural. [6] No obstante, algunos trabajos demostraron que capturar la esencia de una señal de audio también es posible utilizando solo unas pocas decenas de segundos de una sola muestra de entrenamiento. [6] [18] [19] Esto se hace sobreajustando una red neuronal generativa a una sola señal de audio de entrenamiento. De esta manera, los investigadores pudieron realizar la restauración de audio sin explotar grandes conjuntos de datos. [6] [19]

Aplicaciones

La restauración de audio se utiliza en una amplia gama de campos, entre los que se incluyen la restauración de audio y la investigación forense de audio, entre otros. En estos campos, la restauración de audio se puede utilizar para eliminar ruido, fallos o distorsiones no deseadas de una grabación de audio, mejorando así su calidad e inteligibilidad. También se puede emplear para recuperar grabaciones antiguas deterioradas que se han visto afectadas por modificaciones locales o que tienen muestras de audio faltantes debido a rayones en los CD . [2]

La ocultación de pérdida de paquetes también está estrechamente relacionada con la ocultación de pérdida de paquetes (PLC). En el problema de la PLC, es necesario compensar la pérdida de paquetes de audio en las redes de comunicación. Si bien ambos problemas apuntan a llenar los espacios vacíos que faltan en una señal de audio, la PLC tiene más restricciones de tiempo de cálculo y solo los paquetes que preceden a un espacio vacío se consideran confiables (se dice que el proceso es causal). [20] [2]

Véase también

Referencias

  1. ^ abcdef Mokrý, Ondřej; Rajmic, Pavel (2020). "Audio Inpainting: Revisited and Reweighted" (Repintado de audio: revisado y reponderado). Transacciones IEEE/ACM sobre audio, habla y procesamiento del lenguaje . 28 : 2906–2918. arXiv : 2001.02480 . doi :10.1109/TASLP.2020.3030486. S2CID  210064378.
  2. ^ abcdefghijkl Moliner, Eloi (2024). "Inserción de audio basada en difusión". Revista de la Sociedad de Ingeniería de Audio . 72 (3): 100–113. arXiv : 2305.15266 . doi :10.17743/jaes.2022.0129.
  3. ^ abcdefghij Marafioti, Andres; Majdak, Piotr; Holighaus, Nicki; Perraudin, Nathanael (enero de 2021). "GACELA: Un codificador de contexto generativo adversarial para la reproducción de audio prolongada de música". IEEE Journal of Selected Topics in Signal Processing . 15 (1): 120–131. arXiv : 2005.05032 . Código Bibliográfico :2021ISTSP..15..120M. doi :10.1109/JSTSP.2020.3037506. S2CID  218581410.
  4. ^ ab Adler, Amir; Emiya, Valentín; Jafari, María G.; Elad, Michael; Gribonval, Rémi; Plumbley, Mark D. (marzo de 2012). "Audio en pintura". Transacciones IEEE sobre procesamiento de audio, voz y lenguaje . 20 (3): 922–932. doi :10.1109/TASL.2011.2168211. S2CID  11136245.
  5. ^ abcd Janssen, A.; Veldhuis, R.; Vries, L. (abril de 1986). "Interpolación adaptativa de señales de tiempo discreto que pueden modelarse como procesos autorregresivos" (PDF) . IEEE Transactions on Acoustics, Speech, and Signal Processing . 34 (2): 317–330. doi :10.1109/TASSP.1986.1164824. S2CID  17149340.
  6. ^ abcd Greshler, Gal; Shaham, Tamar; Michaeli, Tomer (2021). "Catch-A-Waveform: aprender a generar audio a partir de un único ejemplo breve". Avances en sistemas de procesamiento de información neuronal . 34 . Curran Associates, Inc.: 20916–20928. arXiv : 2106.06426 .
  7. ^ Aplicaciones del procesamiento de señales digitales al audio y la acústica (6.ª ed.). Boston, Mass.: Kluwer. 2003. pp. 133–194. ISBN 978-0-7923-8130-3.
  8. ^ ab Perraudin, Nathanael; Holighaus, Nicki; Majdak, Piotr; Balazs, Peter (junio de 2018). "Repintado de segmentos de audio largos con gráficos de similitud". Transacciones IEEE/ACM sobre procesamiento de audio, habla y lenguaje . 26 (6): 1083–1094. arXiv : 1607.06667 . doi :10.1109/TASLP.2018.2809864. S2CID  3532979.
  9. ^ Marafioti, Andres; Perraudin, Nathanael; Holighaus, Nicki; Majdak, Piotr (diciembre de 2019). "Un codificador de contexto para la reproducción de audio". Transacciones IEEE/ACM sobre procesamiento de audio, habla y lenguaje . 27 (12): 2362–2372. doi :10.1109/TASLP.2019.2947232. S2CID  53102801.
  10. ^ ab Ulyanov, Dmitry; Vedaldi, Andrea; Lempitsky, Victor (1 de julio de 2020). "Deep Image Prior". Revista internacional de visión por computadora . 128 (7): 1867–1888. arXiv : 1711.10925 . doi :10.1007/s11263-020-01303-4. S2CID  4531078.
  11. ^ abc Pezzoli, Mirco; Perini, Davide; Bernardini, Alberto; Borrá, Federico; Antonacci, Fabio; Sarti, Augusto (enero 2022). "Enfoque previo profundo para la reconstrucción de la respuesta al impulso espacial". Sensores . 22 (7): 2710. Código Bib : 2022Senso..22.2710P. doi : 10.3390/s22072710 . PMC 9003306 . PMID  35408325. 
  12. ^ abc Kong, Fantong; Picetti, Francesco; Lipari, Vincenzo; Bestagini, Paolo; Tang, Xiaoming; Tubaro, Stefano (2022). "Reconstrucción no supervisada basada en valores previos profundos de datos sísmicos muestreados de forma irregular". IEEE Geoscience and Remote Sensing Letters . 19 : 1–5. Bibcode :2022IGRSL..1944455K. doi :10.1109/LGRS.2020.3044455. hdl : 11311/1201461 . S2CID  234970208.
  13. ^ ab Etter, W. (mayo de 1996). "Restauración de un segmento de señal de tiempo discreto mediante interpolación basada en los parámetros autorregresivos del lado izquierdo y del lado derecho". IEEE Transactions on Signal Processing . 44 (5): 1124–1135. Bibcode :1996ITSP...44.1124E. doi :10.1109/78.502326.
  14. ^ O'Shaughnessy, D. (febrero de 1988). "Codificación predictiva lineal". Potenciales IEEE . 7 (1): 29–32. doi :10.1109/45.1890. S2CID  12786562.
  15. ^ Mokry, Ondrej; Zaviska, Pavel; Rajmic, Pavel; Vesely, Vitezslav (septiembre de 2019). "Introducción a SPAIN (SParse Audio INpainter)". 2019 27th European Signal Processing Conference (EUSIPCO) . págs. 1–5. arXiv : 1810.13137 . doi :10.23919/EUSIPCO.2019.8902560. ISBN 978-9-0827-9703-9. Número de identificación del sujeto  53109833.
  16. ^ Lagrange, Mathieu; Marchand, Sylvain; Rault, Jean-bernard (15 de octubre de 2005). "Interpolación larga de señales de audio mediante predicción lineal en modelado sinusoidal". Revista de la Sociedad de Ingeniería de Audio . 53 (10): 891–905.
  17. ^ ab Goodfellow, Ian; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014). Redes generativas adversarias. Vol. 27. Curran Associates, Inc.
  18. ^ Tian, ​​Yapeng; Xu, Chenliang; Li, Dingzeyu (2019). "Antes de audio profundo". arXiv : 1912.10292 [cs.SD].
  19. ^ ab Turetzky, Arnon; Michelson, Tzvi; Adi, Yossi; Peleg, Shmuel (18 de septiembre de 2022). "Deep Audio Waveform Prior". Interspeech 2022 : 2938–2942. arXiv : 2207.10441 . doi :10.21437/Interspeech.2022-10735. S2CID  : 250920681.
  20. ^ Diener, Lorenz; Sootla, Sten; Branets, Solomiya; Saabas, Ando; Aichner, Robert; Cutler, Ross (18 de septiembre de 2022). "Desafío de ocultación de pérdida profunda de paquetes de audio INTERSPEECH 2022". Interspeech 2022 . págs. 580–584. arXiv : 2204.05222 . doi :10.21437/Interspeech.2022-10829.