La audición por computadora ( CA ) o escucha por máquina es el campo general de estudio de algoritmos y sistemas para la interpretación de audio por parte de máquinas. [1] [2] Dado que la noción de lo que significa que una máquina "escuche" es muy amplia y algo vaga, la audición por computadora intenta reunir varias disciplinas que originalmente se ocupaban de problemas específicos o tenían una aplicación concreta en mente. El ingeniero Paris Smaragdis , entrevistado en Technology Review , habla de estos sistemas: "software que utiliza el sonido para localizar a personas que se mueven por las habitaciones, controlar la maquinaria en busca de averías inminentes o activar cámaras de tráfico para registrar accidentes". [3]
Inspirado en los modelos de audición humana , el CA aborda cuestiones de representación, transducción , agrupamiento, uso del conocimiento musical y semántica general del sonido con el fin de realizar operaciones inteligentes en señales de audio y música por parte de la computadora. Técnicamente, esto requiere una combinación de métodos de los campos del procesamiento de señales , modelado auditivo, percepción y cognición musical , reconocimiento de patrones y aprendizaje automático , así como métodos más tradicionales de inteligencia artificial para la representación del conocimiento musical. [4] [5]
Al igual que la visión por computadora frente al procesamiento de imágenes, la audición por computadora frente a la ingeniería de audio se ocupa de la comprensión del audio en lugar de su procesamiento. También se diferencia de los problemas de comprensión del habla por parte de máquinas , ya que se ocupa de señales de audio generales, como sonidos naturales y grabaciones musicales.
Las aplicaciones de la audición por computadora son muy variadas e incluyen la búsqueda de sonidos , el reconocimiento de géneros , el monitoreo acústico, la transcripción musical , el seguimiento de partituras, la textura de audio , la improvisación musical , la emoción en el audio , etc.
La audición por computadora se superpone con las siguientes disciplinas:
Dado que las señales de audio son interpretadas por el sistema oído-cerebro humano, ese complejo mecanismo perceptivo debería ser simulado de alguna manera en un software para "escuchar por máquina". En otras palabras, para funcionar a la par de los humanos, la computadora debería escuchar y comprender el contenido de audio de manera muy similar a como lo hacen los humanos. Analizar el audio con precisión involucra varios campos: ingeniería eléctrica (análisis de espectro, filtrado y transformaciones de audio); inteligencia artificial (aprendizaje automático y clasificación de sonido); [6] psicoacústica (percepción del sonido); ciencias cognitivas (neurociencia e inteligencia artificial); [7] acústica (física de la producción de sonido); y música (armonía, ritmo y timbre). Además, las transformaciones de audio, como el cambio de tono, el estiramiento temporal y el filtrado de objetos de sonido, deberían ser perceptuales y musicalmente significativas. Para obtener mejores resultados, estas transformaciones requieren una comprensión perceptual de los modelos espectrales, extracción de características de alto nivel y análisis/síntesis de sonido. Finalmente, la estructuración y codificación del contenido de un archivo de audio (sonido y metadatos) podría beneficiarse de esquemas de compresión eficientes, que descartan información inaudible en el sonido. [8] Los modelos computacionales de la percepción y cognición de la música y el sonido pueden conducir a una representación más significativa, una manipulación digital más intuitiva y la generación de sonido y música en interfaces musicales hombre-máquina.
El estudio de CA podría dividirse aproximadamente en los siguientes subproblemas:
La audición por ordenador se ocupa de señales de audio que pueden representarse de diversas formas, desde la codificación directa de audio digital en dos o más canales hasta instrucciones de síntesis representadas simbólicamente. Las señales de audio suelen representarse en forma de grabaciones analógicas o digitales . Las grabaciones digitales son muestras de formas de onda acústicas o parámetros de algoritmos de compresión de audio . Una de las propiedades únicas de las señales musicales es que a menudo combinan diferentes tipos de representaciones, como partituras gráficas y secuencias de acciones interpretativas que se codifican como archivos MIDI .
Dado que las señales de audio suelen estar compuestas por múltiples fuentes de sonido, a diferencia de las señales de voz, que pueden describirse de manera eficiente en términos de modelos específicos (como el modelo de filtro de fuente), es difícil diseñar una representación paramétrica para el audio general. Las representaciones de audio paramétricas suelen utilizar bancos de filtros o modelos sinusoidales para capturar múltiples parámetros de sonido, a veces aumentando el tamaño de la representación para capturar la estructura interna de la señal. Otros tipos de datos que son relevantes para la audición por computadora son las descripciones textuales de los contenidos de audio, como anotaciones, reseñas e información visual en el caso de grabaciones audiovisuales.
La descripción de contenidos de señales de audio generales suele requerir la extracción de características que capturan aspectos específicos de la señal de audio. En términos generales, se podrían dividir las características en descriptores matemáticos o de señal como energía, descripción de la forma espectral, etc., caracterización estadística como detección de cambios o novedades, representaciones especiales que se adaptan mejor a la naturaleza de las señales musicales o al sistema auditivo, como el crecimiento logarítmico de la sensibilidad ( ancho de banda ) en frecuencia o la invariancia de octava (croma).
Dado que los modelos paramétricos en audio generalmente requieren muchos parámetros, las características se utilizan para resumir las propiedades de múltiples parámetros en una representación más compacta o destacada.
Es posible encontrar estructuras musicales específicas utilizando conocimientos musicales, así como métodos de aprendizaje automático supervisados y no supervisados. Algunos ejemplos de esto incluyen la detección de la tonalidad según la distribución de frecuencias que corresponden a patrones de aparición de notas en escalas musicales, la distribución de los tiempos de inicio de las notas para la detección de la estructura del pulso, la distribución de energías en diferentes frecuencias para detectar acordes musicales, etc.
La comparación de sonidos se puede realizar mediante la comparación de características con o sin referencia al tiempo. En algunos casos, se puede evaluar una similitud general mediante valores cercanos de características entre dos sonidos. En otros casos, cuando la estructura temporal es importante, se deben aplicar métodos de distorsión temporal dinámica para "corregir" las diferentes escalas temporales de los eventos acústicos. Encontrar repeticiones y subsecuencias similares de eventos sonoros es importante para tareas como la síntesis de texturas y la improvisación con máquinas .
Dado que una de las características básicas del audio general es que comprende múltiples fuentes que suenan simultáneamente, como múltiples instrumentos musicales, personas hablando, ruidos de máquinas o vocalizaciones de animales, la capacidad de identificar y separar fuentes individuales es muy deseable. Desafortunadamente, no existen métodos que puedan resolver este problema de manera robusta. Los métodos existentes de separación de fuentes se basan a veces en la correlación entre diferentes canales de audio en grabaciones multicanal . La capacidad de separar fuentes de señales estéreo requiere técnicas diferentes a las que se aplican habitualmente en las comunicaciones donde hay múltiples sensores disponibles. Otros métodos de separación de fuentes se basan en el entrenamiento o agrupamiento de características en la grabación mono, como el seguimiento de parciales relacionados armónicamente para la detección de múltiples tonos. Algunos métodos, antes del reconocimiento explícito, se basan en revelar estructuras en datos sin conocer las estructuras (como reconocer objetos en imágenes abstractas sin atribuirles etiquetas significativas) al encontrar las representaciones de datos menos complejas, por ejemplo, describiendo escenas de audio generadas por unos pocos patrones de tonos y sus trayectorias (voces polifónicas) y contornos acústicos dibujados por un tono (acordes). [9]
Escuchar música y audio en general no suele ser una actividad dirigida a una tarea. Las personas disfrutan de la música por diversas razones poco comprendidas, que suelen atribuirse al efecto emocional de la música debido a la creación de expectativas y su realización o violación. Los animales prestan atención a las señales de peligro en los sonidos, que pueden ser nociones específicas o generales de cambios sorprendentes e inesperados. Por lo general, esto crea una situación en la que la audición por computadora no puede confiar únicamente en la detección de características específicas o propiedades del sonido y tiene que idear métodos generales de adaptación al entorno auditivo cambiante y monitorear su estructura. Esto consiste en el análisis de estructuras de repetición y autosimilitud más grandes en el audio para detectar innovaciones, así como la capacidad de predecir la dinámica de las características locales.
Entre los datos disponibles para describir la música, se encuentran representaciones textuales, como notas de portada, reseñas y críticas que describen el contenido del audio en palabras. En otros casos, las reacciones humanas, como los juicios emocionales o las mediciones psicofisiológicas, pueden proporcionar una idea del contenido y la estructura del audio. Computer Audition intenta encontrar la relación entre estas diferentes representaciones para proporcionar esta comprensión adicional del contenido del audio.