stringtranslate.com

Audición por computadora

La audición por computadora ( CA ) o escucha por máquina es el campo general de estudio de algoritmos y sistemas para la interpretación de audio por parte de máquinas. [1] [2] Dado que la noción de lo que significa que una máquina "escuche" es muy amplia y algo vaga, la audición por computadora intenta reunir varias disciplinas que originalmente se ocupaban de problemas específicos o tenían una aplicación concreta en mente. El ingeniero Paris Smaragdis , entrevistado en Technology Review , habla de estos sistemas: "software que utiliza el sonido para localizar a personas que se mueven por las habitaciones, controlar la maquinaria en busca de averías inminentes o activar cámaras de tráfico para registrar accidentes". [3]

Inspirado en los modelos de audición humana , el CA aborda cuestiones de representación, transducción , agrupamiento, uso del conocimiento musical y semántica general del sonido con el fin de realizar operaciones inteligentes en señales de audio y música por parte de la computadora. Técnicamente, esto requiere una combinación de métodos de los campos del procesamiento de señales , modelado auditivo, percepción y cognición musical , reconocimiento de patrones y aprendizaje automático , así como métodos más tradicionales de inteligencia artificial para la representación del conocimiento musical. [4] [5]

Aplicaciones

Al igual que la visión por computadora frente al procesamiento de imágenes, la audición por computadora frente a la ingeniería de audio se ocupa de la comprensión del audio en lugar de su procesamiento. También se diferencia de los problemas de comprensión del habla por parte de máquinas , ya que se ocupa de señales de audio generales, como sonidos naturales y grabaciones musicales.

Las aplicaciones de la audición por computadora son muy variadas e incluyen la búsqueda de sonidos , el reconocimiento de géneros , el monitoreo acústico, la transcripción musical , el seguimiento de partituras, la textura de audio , la improvisación musical , la emoción en el audio , etc.

Disciplinas relacionadas

La audición por computadora se superpone con las siguientes disciplinas:

Áreas de estudio

Dado que las señales de audio son interpretadas por el sistema oído-cerebro humano, ese complejo mecanismo perceptivo debería ser simulado de alguna manera en un software para "escuchar por máquina". En otras palabras, para funcionar a la par de los humanos, la computadora debería escuchar y comprender el contenido de audio de manera muy similar a como lo hacen los humanos. Analizar el audio con precisión involucra varios campos: ingeniería eléctrica (análisis de espectro, filtrado y transformaciones de audio); inteligencia artificial (aprendizaje automático y clasificación de sonido); [6] psicoacústica (percepción del sonido); ciencias cognitivas (neurociencia e inteligencia artificial); [7] acústica (física de la producción de sonido); y música (armonía, ritmo y timbre). Además, las transformaciones de audio, como el cambio de tono, el estiramiento temporal y el filtrado de objetos de sonido, deberían ser perceptuales y musicalmente significativas. Para obtener mejores resultados, estas transformaciones requieren una comprensión perceptual de los modelos espectrales, extracción de características de alto nivel y análisis/síntesis de sonido. Finalmente, la estructuración y codificación del contenido de un archivo de audio (sonido y metadatos) podría beneficiarse de esquemas de compresión eficientes, que descartan información inaudible en el sonido. [8] Los modelos computacionales de la percepción y cognición de la música y el sonido pueden conducir a una representación más significativa, una manipulación digital más intuitiva y la generación de sonido y música en interfaces musicales hombre-máquina.

El estudio de CA podría dividirse aproximadamente en los siguientes subproblemas:

  1. Representación: señal y simbólica. Este aspecto se ocupa de las representaciones tiempo-frecuencia, tanto en términos de notas como de modelos espectrales, incluyendo la reproducción de patrones y la textura del audio.
  2. Extracción de características : descriptores de sonido, segmentación, detección de inicio, tono y envolvente , croma y representaciones auditivas.
  3. Estructuras del conocimiento musical: análisis de la tonalidad , el ritmo y las armonías .
  4. Similitud de sonidos: métodos de comparación entre sonidos, identificación de sonidos, detección de novedad, segmentación y agrupamiento.
  5. Modelado de secuencias: correspondencia y alineación entre señales y secuencias de notas.
  6. Separación de fuentes: métodos de agrupación de sonidos simultáneos, como detección de tonos múltiples y métodos de agrupamiento tiempo-frecuencia.
  7. Cognición auditiva: modelado de emociones, anticipación y familiaridad, sorpresa auditiva y análisis de la estructura musical.
  8. Análisis multimodal : búsqueda de correspondencias entre señales textuales, visuales y de audio.

Cuestiones de representación

La audición por ordenador se ocupa de señales de audio que pueden representarse de diversas formas, desde la codificación directa de audio digital en dos o más canales hasta instrucciones de síntesis representadas simbólicamente. Las señales de audio suelen representarse en forma de grabaciones analógicas o digitales . Las grabaciones digitales son muestras de formas de onda acústicas o parámetros de algoritmos de compresión de audio . Una de las propiedades únicas de las señales musicales es que a menudo combinan diferentes tipos de representaciones, como partituras gráficas y secuencias de acciones interpretativas que se codifican como archivos MIDI .

Dado que las señales de audio suelen estar compuestas por múltiples fuentes de sonido, a diferencia de las señales de voz, que pueden describirse de manera eficiente en términos de modelos específicos (como el modelo de filtro de fuente), es difícil diseñar una representación paramétrica para el audio general. Las representaciones de audio paramétricas suelen utilizar bancos de filtros o modelos sinusoidales para capturar múltiples parámetros de sonido, a veces aumentando el tamaño de la representación para capturar la estructura interna de la señal. Otros tipos de datos que son relevantes para la audición por computadora son las descripciones textuales de los contenidos de audio, como anotaciones, reseñas e información visual en el caso de grabaciones audiovisuales.

Características

La descripción de contenidos de señales de audio generales suele requerir la extracción de características que capturan aspectos específicos de la señal de audio. En términos generales, se podrían dividir las características en descriptores matemáticos o de señal como energía, descripción de la forma espectral, etc., caracterización estadística como detección de cambios o novedades, representaciones especiales que se adaptan mejor a la naturaleza de las señales musicales o al sistema auditivo, como el crecimiento logarítmico de la sensibilidad ( ancho de banda ) en frecuencia o la invariancia de octava (croma).

Dado que los modelos paramétricos en audio generalmente requieren muchos parámetros, las características se utilizan para resumir las propiedades de múltiples parámetros en una representación más compacta o destacada.

Conocimiento musical

Es posible encontrar estructuras musicales específicas utilizando conocimientos musicales, así como métodos de aprendizaje automático supervisados ​​y no supervisados. Algunos ejemplos de esto incluyen la detección de la tonalidad según la distribución de frecuencias que corresponden a patrones de aparición de notas en escalas musicales, la distribución de los tiempos de inicio de las notas para la detección de la estructura del pulso, la distribución de energías en diferentes frecuencias para detectar acordes musicales, etc.

Similitud de sonido y modelado de secuencias

La comparación de sonidos se puede realizar mediante la comparación de características con o sin referencia al tiempo. En algunos casos, se puede evaluar una similitud general mediante valores cercanos de características entre dos sonidos. En otros casos, cuando la estructura temporal es importante, se deben aplicar métodos de distorsión temporal dinámica para "corregir" las diferentes escalas temporales de los eventos acústicos. Encontrar repeticiones y subsecuencias similares de eventos sonoros es importante para tareas como la síntesis de texturas y la improvisación con máquinas .

Separación de fuentes

Dado que una de las características básicas del audio general es que comprende múltiples fuentes que suenan simultáneamente, como múltiples instrumentos musicales, personas hablando, ruidos de máquinas o vocalizaciones de animales, la capacidad de identificar y separar fuentes individuales es muy deseable. Desafortunadamente, no existen métodos que puedan resolver este problema de manera robusta. Los métodos existentes de separación de fuentes se basan a veces en la correlación entre diferentes canales de audio en grabaciones multicanal . La capacidad de separar fuentes de señales estéreo requiere técnicas diferentes a las que se aplican habitualmente en las comunicaciones donde hay múltiples sensores disponibles. Otros métodos de separación de fuentes se basan en el entrenamiento o agrupamiento de características en la grabación mono, como el seguimiento de parciales relacionados armónicamente para la detección de múltiples tonos. Algunos métodos, antes del reconocimiento explícito, se basan en revelar estructuras en datos sin conocer las estructuras (como reconocer objetos en imágenes abstractas sin atribuirles etiquetas significativas) al encontrar las representaciones de datos menos complejas, por ejemplo, describiendo escenas de audio generadas por unos pocos patrones de tonos y sus trayectorias (voces polifónicas) y contornos acústicos dibujados por un tono (acordes). [9]

Cognición auditiva

Escuchar música y audio en general no suele ser una actividad dirigida a una tarea. Las personas disfrutan de la música por diversas razones poco comprendidas, que suelen atribuirse al efecto emocional de la música debido a la creación de expectativas y su realización o violación. Los animales prestan atención a las señales de peligro en los sonidos, que pueden ser nociones específicas o generales de cambios sorprendentes e inesperados. Por lo general, esto crea una situación en la que la audición por computadora no puede confiar únicamente en la detección de características específicas o propiedades del sonido y tiene que idear métodos generales de adaptación al entorno auditivo cambiante y monitorear su estructura. Esto consiste en el análisis de estructuras de repetición y autosimilitud más grandes en el audio para detectar innovaciones, así como la capacidad de predecir la dinámica de las características locales.

Análisis multimodal

Entre los datos disponibles para describir la música, se encuentran representaciones textuales, como notas de portada, reseñas y críticas que describen el contenido del audio en palabras. En otros casos, las reacciones humanas, como los juicios emocionales o las mediciones psicofisiológicas, pueden proporcionar una idea del contenido y la estructura del audio. Computer Audition intenta encontrar la relación entre estas diferentes representaciones para proporcionar esta comprensión adicional del contenido del audio.

Véase también

Enlaces externos

Referencias

  1. ^ Audición de máquinas: principios, algoritmos y sistemas. IGI Global. 2011. ISBN 9781615209194.
  2. ^ "Audición por máquina: principios, algoritmos y sistemas" (PDF) .
  3. ^ Paris Smaragdis enseñó a las computadoras a reproducir música más realista
  4. ^ Tanguiane (Tangian), Andranick (1993). Percepción artificial y reconocimiento musical . Apuntes de clase sobre inteligencia artificial. Vol. 746. Berlín-Heidelberg: Springer. ISBN 978-3-540-57394-4.
  5. ^ Tanguiane (Tanguiane), Andranick (1994). "Un principio de correlatividad de la percepción y su aplicación al reconocimiento musical". Percepción musical . 11 (4): 465–502. doi :10.2307/40285634. JSTOR  40285634.
  6. ^ Kelly, Daniel; Caulfield, Brian (febrero de 2015). "Detección de sonido generalizada: un enfoque de entrenamiento débilmente supervisado". IEEE Transactions on Cybernetics . 46 (1): 123–135. doi :10.1109/TCYB.2015.2396291. hdl : 10197/6853 . PMID  25675471. S2CID  16042016.
  7. ^ Hendrik Purwins, Perfecto Herrera, Maarten Grachten, Amaury Hazan, Ricard Marxer y Xavier Serra. Modelos computacionales de la percepción y cognición musical I: La cadena de procesamiento perceptual y cognitivo. Physics of Life Reviews, vol. 5, núm. 3, págs. 151-168, 2008. [1]
  8. ^ Página web del curso sobre escucha de máquinas en el MIT
  9. ^ Tanguiane (Tangian), Andranick (1995). "Hacia la axiomatización de la percepción musical". Revista de investigación en nueva música . 24 (3): 247–281. doi :10.1080/09298219508570685.