stringtranslate.com

Procesamiento de señales de audio

El procesamiento de señales de audio es un subcampo del procesamiento de señales que se ocupa de la manipulación electrónica de señales de audio . Las señales de audio son representaciones electrónicas de ondas sonoras : ondas longitudinales que viajan a través del aire y que consisten en compresiones y rarefacciones. La energía contenida en las señales de audio o el nivel de potencia sonora se mide típicamente en decibelios . Como las señales de audio se pueden representar en formato digital o analógico , el procesamiento puede ocurrir en cualquiera de los dos dominios. Los procesadores analógicos operan directamente sobre la señal eléctrica, mientras que los procesadores digitales operan matemáticamente sobre su representación digital.

Historia

La motivación para el procesamiento de señales de audio comenzó a principios del siglo XX con inventos como el teléfono , el fonógrafo y la radio que permitieron la transmisión y el almacenamiento de señales de audio. El procesamiento de audio fue necesario para las primeras transmisiones de radio , ya que había muchos problemas con los enlaces entre el estudio y el transmisor . [1] La teoría del procesamiento de señales y su aplicación al audio se desarrolló en gran medida en Bell Labs a mediados del siglo XX. Los primeros trabajos de Claude Shannon y Harry Nyquist sobre teoría de la comunicación , teoría del muestreo y modulación por código de pulsos (PCM) sentaron las bases del campo. En 1957, Max Mathews se convirtió en la primera persona en sintetizar audio desde una computadora , dando origen a la música por computadora .

Los principales desarrollos en codificación de audio digital y compresión de datos de audio incluyen la modulación diferencial de código de pulso (DPCM) por C. Chapin Cutler en Bell Labs en 1950, [2] codificación predictiva lineal (LPC) por Fumitada Itakura ( Universidad de Nagoya ) y Shuzo Saito ( Nippon Telegraph and Telephone ) en 1966, [3] DPCM adaptativa (ADPCM) por P. Cummiskey, Nikil S. Jayant y James L. Flanagan en Bell Labs en 1973, [4] [5] codificación de transformada de coseno discreta (DCT) por Nasir Ahmed , T. Natarajan y KR Rao en 1974, [6] y codificación de transformada de coseno discreta modificada (MDCT) por JP Princen, AW Johnson y AB Bradley en la Universidad de Surrey en 1987. [7] LPC es la base para la codificación perceptual y se usa ampliamente en la codificación del habla. , [8] mientras que la codificación MDCT se utiliza ampliamente en formatos de codificación de audio modernos como MP3 [9] y Codificación de audio avanzada (AAC). [10]

Tipos

Cosa análoga

Una señal de audio analógica es una señal continua representada por un voltaje o corriente eléctrica que es análoga a las ondas sonoras en el aire. El procesamiento de señales analógicas implica alterar físicamente la señal continua cambiando el voltaje, la corriente o la carga a través de circuitos eléctricos .

Históricamente, antes de la llegada de la tecnología digital generalizada , el método analógico era el único método para manipular una señal. Desde entonces, a medida que las computadoras y el software se han vuelto más capaces y asequibles, el procesamiento de señales digitales se ha convertido en el método de elección. Sin embargo, en aplicaciones musicales, la tecnología analógica a menudo sigue siendo deseable, ya que a menudo produce respuestas no lineales que son difíciles de replicar con filtros digitales.

Digital

Una representación digital expresa la forma de onda de audio como una secuencia de símbolos, generalmente números binarios . Esto permite el procesamiento de señales mediante circuitos digitales como procesadores de señales digitales , microprocesadores y computadoras de uso general. La mayoría de los sistemas de audio modernos utilizan un enfoque digital, ya que las técnicas de procesamiento de señales digitales son mucho más potentes y eficientes que el procesamiento de señales en el dominio analógico. [11]

Aplicaciones

Los métodos de procesamiento y las áreas de aplicación incluyen almacenamiento , compresión de datos , recuperación de información musical , procesamiento de voz , localización , detección acústica , transmisión , cancelación de ruido , huella acústica , reconocimiento de sonido , síntesis y mejora (por ejemplo , ecualización , filtrado , compresión de nivel , eliminación o adición de eco y reverberación , etc.).

Transmisión de audio

El procesamiento de señales de audio se utiliza al transmitir señales de audio para mejorar su fidelidad u optimizar el ancho de banda o la latencia. En este ámbito, el procesamiento de audio más importante tiene lugar justo antes del transmisor. El procesador de audio debe evitar o minimizar la sobremodulación , compensar los transmisores no lineales (un problema potencial con la transmisión de onda media y onda corta ) y ajustar la sonoridad general al nivel deseado.

Control activo del ruido

El control activo del ruido es una técnica diseñada para reducir el sonido no deseado. Al crear una señal idéntica al ruido no deseado pero con polaridad opuesta, las dos señales se cancelan debido a la interferencia destructiva .

Tipos de control activo del ruido:

1) Control activo de ruido de retroalimentación:

Los sistemas de control activo de ruido (ANC) con retroalimentación funcionan utilizando un micrófono de referencia colocado en el campo de ruido para captar el ruido entrante. A continuación, el sistema genera una señal antirruido que se reproduce a través de un altavoz para cancelar el ruido no deseado. Este método es especialmente eficaz en entornos en los que la fuente de ruido es predecible, como en espacios abiertos o cerca de motores.

Ventajas:

Eficaz para reducir el ruido constante y predecible. Puede implementarse en tiempo real para entornos dinámicos. Desventajas:

El rendimiento puede verse afectado por la posición de los micrófonos y los altavoces. Requiere una calibración precisa y puede tener dificultades en entornos con ruidos que cambian rápidamente.

2) Control activo de ruido por retroalimentación:

Los sistemas de control activo del ruido con retroalimentación utilizan un micrófono que captura el ruido residual después de que se ha introducido la señal antirruido. Luego, el sistema ajusta la señal antirruido en función de la retroalimentación del micrófono para optimizar la cancelación de ruido. Este método se utiliza normalmente en entornos cerrados donde las características del ruido son más estables.

Ventajas:

Puede adaptarse a los cambios en las condiciones de ruido a lo largo del tiempo. Es más eficaz para fuentes de ruido continuas en espacios cerrados. Desventajas:

Puede generar demoras que generen posibles problemas de fase. Puede ser menos eficaz para ruidos impredecibles o transitorios.

3) Control activo de ruido híbrido:

El control activo de ruido híbrido combina técnicas de retroalimentación y de avance para aprovechar las ventajas de cada una. Utiliza un enfoque de avance para manejar el ruido predecible y un mecanismo de retroalimentación para adaptarse a los cambios, mejorando el rendimiento general. Este método es adecuado para entornos complejos con características de ruido variables.

Ventajas:

Ofrece una reducción de ruido mejorada en una gama más amplia de frecuencias y condiciones. Puede proporcionar un mejor rendimiento tanto en entornos abiertos como cerrados. Desventajas:

Es más complejo de diseñar e implementar. Requiere mayor potencia de procesamiento y algoritmos sofisticados.


Aplicaciones:

1) Industria automotriz:

En el sector de la automoción, los sistemas de control activo del ruido se integran cada vez más en los vehículos para mejorar la comodidad de los pasajeros al reducir el ruido del motor, el ruido de la carretera y el ruido del viento. Los sistemas de retroalimentación se utilizan a menudo junto con métodos de reducción pasiva del ruido para crear una experiencia más silenciosa en el habitáculo.

Aplicaciones:

Cancelación del ruido del motor en vehículos de lujo. Reducción del ruido en vehículos eléctricos, donde el ruido del motor es mínimo, pero el ruido de la carretera puede ser más prominente.

2) Aeroespacial:

En el sector aeroespacial, el control activo del ruido es fundamental para mejorar la comodidad de los pasajeros en vuelos comerciales y reducir la fatiga de los pilotos en las cabinas. Los sistemas avanzados de control activo del ruido se utilizan en los auriculares y en los diseños de cabina para minimizar el impacto del ruido aerodinámico y del motor.

Aplicaciones:

Auriculares con cancelación de ruido para pilotos. Sistemas ANC en cabina para mejorar la experiencia de los pasajeros y reducir la fatiga.


3) Electrónica de consumo:

La tecnología de control activo del ruido se ha instalado en los productos electrónicos de consumo, en particular en los auriculares y los cascos intraauriculares. Muchos modelos de gama alta cuentan con funciones de cancelación activa del ruido que permiten a los usuarios disfrutar de la música o los podcasts sin interferencias de ruido externo.

Aplicaciones:

Auriculares con cancelación de ruido para viajeros y personas que se desplazan diariamente al trabajo. Auriculares con cancelación de ruido activa para disfrutar de una mejor experiencia de audio en entornos ruidosos.


Mecanismos técnicos detallados

Interferencia destructiva:

El principio de interferencia destructiva se basa en que las ondas sonoras se anulan entre sí cuando se encuentran fuera de fase. Esto significa que si una onda está en su punto máximo (compresión) mientras que la otra está en su punto mínimo (rarefacción), se anulan mutuamente.

Tipos de ruido:

Los sistemas ANC son especialmente eficaces para cancelar sonidos de baja frecuencia (normalmente por debajo de 1 kHz), como: Ruido del motor en vehículos Zumbidos de baja frecuencia de los sistemas HVAC Ruido de fondo en entornos industriales

Algoritmos de control:

LMS (Least Mean Squares): Un algoritmo de filtrado adaptativo común utilizado en sistemas ANC que minimiza la señal de error (la diferencia entre la señal deseada y la salida) para optimizar la cancelación de ruido. FXLMS (Filtered-X Least Mean Squares): Una variación de LMS, particularmente eficaz para aplicaciones donde el ruido no es estacionario e implica un bucle de retroalimentación para tener en cuenta los retrasos.


Limitaciones y consideraciones:

Experiencia del usuario: Algunos usuarios pueden experimentar incomodidad o una sensación de presión en los oídos al usar auriculares ANC debido a la forma en que interactúan las ondas sonoras, lo que genera diferentes niveles de aceptación y preferencia.

Factores ambientales: En aplicaciones del mundo real, las reflexiones y difracciones de las ondas sonoras pueden complicar la eficacia de los sistemas ANC. La ubicación de los micrófonos y los altavoces es fundamental para un rendimiento óptimo.

Consideraciones reglamentarias y de seguridad: En ciertos entornos, como la aviación y los entornos industriales, garantizar que la ANC no enmascare sonidos importantes (como alarmas o advertencias) es crucial para la seguridad.

Síntesis de audio

La síntesis de audio es la generación electrónica de señales de audio. Un instrumento musical que realiza esta función se denomina sintetizador. Los sintetizadores pueden imitar sonidos o generar otros nuevos. La síntesis de audio también se utiliza para generar el habla humana mediante la síntesis de voz .

Efectos de audio

Los efectos de audio alteran el sonido de un instrumento musical u otra fuente de audio. Los efectos más comunes incluyen la distorsión , que se usa a menudo con la guitarra eléctrica en el blues eléctrico y la música rock ; efectos dinámicos como pedales de volumen y compresores , que afectan la sonoridad; filtros como pedales wah-wah y ecualizadores gráficos , que modifican los rangos de frecuencia; efectos de modulación , como chorus , flangers y phasers ; efectos de tono como pitch shifters ; y efectos de tiempo, como reverb y delay , que crean sonidos con eco y emulan el sonido de diferentes espacios.

Los músicos, ingenieros de sonido y productores de discos utilizan unidades de efectos durante presentaciones en vivo o en el estudio, generalmente con guitarra eléctrica, bajo, teclado electrónico o piano eléctrico . Si bien los efectos se utilizan con mayor frecuencia con instrumentos eléctricos o electrónicos , se pueden utilizar con cualquier fuente de audio, como instrumentos acústicos , baterías y voces. [12] [13]

Audición por computadora

La audición por computadora (CA) o escucha por máquina es el campo general de estudio de algoritmos y sistemas para la interpretación de audio por parte de máquinas. [14] [15] Dado que la noción de lo que significa que una máquina "escuche" es muy amplia y algo vaga, la audición por computadora intenta reunir varias disciplinas que originalmente se ocupaban de problemas específicos o tenían una aplicación concreta en mente. El ingeniero Paris Smaragdis , entrevistado en Technology Review , habla de estos sistemas: "software que utiliza el sonido para localizar a personas que se mueven por las habitaciones, controlar la maquinaria en busca de averías inminentes o activar cámaras de tráfico para registrar accidentes". [16]

Inspirado en los modelos de audición humana , el CA aborda cuestiones de representación, transducción , agrupamiento, uso del conocimiento musical y semántica general del sonido con el fin de realizar operaciones inteligentes en señales de audio y música por parte de la computadora. Técnicamente, esto requiere una combinación de métodos de los campos del procesamiento de señales , modelado auditivo, percepción y cognición musical , reconocimiento de patrones y aprendizaje automático , así como métodos más tradicionales de inteligencia artificial para la representación del conocimiento musical. [17] [18]

Véase también

Referencias

  1. ^ Atti, Andreas Spanias, Ted Painter, Venkatraman (2006). Procesamiento y codificación de señales de audio (edición [en línea]). Hoboken, NJ: John Wiley & Sons. p. 464. ISBN 0-471-79147-4.{{cite book}}: CS1 maint: varios nombres: lista de autores ( enlace )
  2. ^ Patente estadounidense 2605361, C. Chapin Cutler, "Cuantización diferencial de señales de comunicación", publicada el 29 de julio de 1952 
  3. ^ Gray, Robert M. (2010). "Una historia del habla digital en tiempo real en redes de paquetes: Parte II de la codificación predictiva lineal y el protocolo de Internet" (PDF) . Encontrado. Trends Signal Process . 3 (4): 203–303. doi : 10.1561/2000000036 . ISSN  1932-8346. Archivado (PDF) desde el original el 2022-10-09.
  4. ^ P. Cummiskey, Nikil S. Jayant y JL Flanagan, "Cuantización adaptativa en la codificación PCM diferencial del habla", Bell Syst. Tech. J. , vol. 52, págs. 1105-1118, septiembre de 1973
  5. ^ Cummiskey, P.; Jayant, Nikil S.; Flanagan, JL (1973). "Cuantización adaptativa en la codificación PCM diferencial del habla". The Bell System Technical Journal . 52 (7): 1105–1118. doi :10.1002/j.1538-7305.1973.tb02007.x. ISSN  0005-8580.
  6. ^ Nasir Ahmed ; T. Natarajan; Kamisetty Ramamohan Rao (enero de 1974). "Transformada discreta del coseno" (PDF) . IEEE Transactions on Computers . C-23 (1): 90–93. doi :10.1109/TC.1974.223784. S2CID  149806273. Archivado (PDF) desde el original el 2022-10-09.
  7. ^ JP Princen, AW Johnson y AB Bradley: Codificación de subbanda/transformación utilizando diseños de bancos de filtros basados ​​en cancelación de aliasing en el dominio del tiempo , IEEE Proc. Conferencia internacional sobre acústica, habla y procesamiento de señales (ICASSP), 2161–2164, 1987.
  8. ^ Schroeder, Manfred R. (2014). "Bell Laboratories". Acústica, información y comunicación: volumen conmemorativo en honor a Manfred R. Schroeder . Springer. pág. 388. ISBN 9783319056609.
  9. ^ Guckert, John (primavera de 2012). "El uso de FFT y MDCT en la compresión de audio MP3" (PDF) . Universidad de Utah . Archivado (PDF) desde el original el 9 de octubre de 2022. Consultado el 14 de julio de 2019 .
  10. ^ Brandenburg, Karlheinz (1999). "MP3 y AAC explicados" (PDF) . Archivado (PDF) desde el original el 13 de febrero de 2017.
  11. ^ Zölzer, Udo (1997). Procesamiento de señales de audio digital . John Wiley and Sons. ISBN 0-471-97226-6.
  12. ^ Horne, Greg (2000). Método completo de guitarra acústica: dominar la guitarra acústica. Alfred Music. pág. 92. ISBN 9781457415043.
  13. ^ Yakabuski, Jim (2001). Técnicas profesionales de refuerzo de sonido: consejos y trucos de un ingeniero de sonido para conciertos. Hal Leonard. pág. 139. ISBN 9781931140065.
  14. ^ Audición de máquinas: principios, algoritmos y sistemas. IGI Global. 2011. ISBN 9781615209194.
  15. ^ "Audición por máquina: principios, algoritmos y sistemas" (PDF) .
  16. ^ Paris Smaragdis enseñó a las computadoras a reproducir música más realista
  17. ^ Tanguiane (Tangian), Andranick (1993). Percepción artificial y reconocimiento musical . Apuntes de clase sobre inteligencia artificial. Vol. 746. Berlín-Heidelberg: Springer. ISBN 978-3-540-57394-4.
  18. ^ Tanguiane (Tanguiane), Andranick (1994). "Un principio de correlatividad de la percepción y su aplicación al reconocimiento musical". Percepción musical . 11 (4): 465–502. doi :10.2307/40285634. JSTOR  40285634.

Lectura adicional