stringtranslate.com

audición por computadora

La audición por ordenador ( CA ) o escucha automática es el campo general de estudio de los algoritmos y sistemas para la interpretación de audio por máquinas. [1] [2] Dado que la noción de lo que significa que una máquina "escuche" es muy amplia y algo vaga, la audición por computadora intenta reunir varias disciplinas que originalmente se ocupaban de problemas específicos o tenían una aplicación concreta en mente. El ingeniero Paris Smaragdis , entrevistado en Technology Review , habla de estos sistemas: "software que utiliza el sonido para localizar a las personas que se mueven por las habitaciones, controlar la maquinaria para detectar averías inminentes o activar cámaras de tráfico para registrar accidentes". [3]

Inspirándose en modelos de audición humana , CA aborda cuestiones de representación, transducción , agrupación, uso del conocimiento musical y semántica general del sonido con el fin de realizar operaciones inteligentes sobre señales de audio y música por parte de la computadora. Técnicamente, esto requiere una combinación de métodos de los campos del procesamiento de señales , modelado auditivo, percepción y cognición musical , reconocimiento de patrones y aprendizaje automático , así como métodos más tradicionales de inteligencia artificial para la representación del conocimiento musical. [4] [5]

Aplicaciones

Al igual que la visión por computadora versus el procesamiento de imágenes, la audición por computadora versus la ingeniería de audio se ocupa de la comprensión del audio en lugar del procesamiento. También se diferencia de los problemas de comprensión del habla por máquina, ya que se ocupa de señales de audio generales, como sonidos naturales y grabaciones musicales.

Las aplicaciones de la audición por computadora son muy variadas e incluyen búsqueda de sonidos , reconocimiento de género , monitoreo acústico, transcripción musical , seguimiento de partituras, textura de audio , improvisación musical , emoción en audio , etc.

Disciplinas relacionadas

Computer Audition se superpone con las siguientes disciplinas:

Áreas de estudio

Dado que las señales de audio son interpretadas por el sistema oído-cerebro humano, ese complejo mecanismo de percepción debería simularse de alguna manera en un software para "escucha automática". En otras palabras, para funcionar a la par de los humanos, la computadora debe escuchar y comprender el contenido de audio de manera muy similar a como lo hacen los humanos. El análisis de audio con precisión involucra varios campos: ingeniería eléctrica (análisis de espectro, filtrado y transformaciones de audio); inteligencia artificial (aprendizaje automático y clasificación de sonidos); [6] psicoacústica (percepción del sonido); ciencias cognitivas (neurociencia e inteligencia artificial); [7] acústica (física de la producción del sonido); y música (armonía, ritmo y timbre). Además, las transformaciones de audio, como el cambio de tono, la ampliación del tiempo y el filtrado de objetos sonoros, deben tener significado perceptivo y musical. Para obtener mejores resultados, estas transformaciones requieren comprensión perceptiva de los modelos espectrales, extracción de características de alto nivel y análisis/síntesis de sonido. Finalmente, estructurar y codificar el contenido de un archivo de audio (sonido y metadatos) podría beneficiarse de esquemas de compresión eficientes, que descartan información inaudible en el sonido. [8] Los modelos computacionales de música y percepción y cognición del sonido pueden conducir a una representación más significativa, una manipulación digital más intuitiva y la generación de sonido y música en interfaces musicales hombre-máquina.

El estudio de la CA podría dividirse a grandes rasgos en los siguientes subproblemas:

  1. Representación: señalética y simbólica. Este aspecto trata de representaciones de tiempo-frecuencia, tanto en términos de notas como de modelos espectrales, incluida la reproducción de patrones y la textura de audio.
  2. Extracción de características : descriptores de sonido, segmentación, inicio, detección de tono y envolvente , croma y representaciones auditivas.
  3. Estructuras del conocimiento musical: análisis de tonalidad , ritmo y armonías .
  4. Similitud de sonido: métodos de comparación entre sonidos, identificación de sonidos, detección de novedad, segmentación y agrupación.
  5. Modelado de secuencias: coincidencia y alineación entre señales y secuencias de notas.
  6. Separación de fuentes: métodos de agrupación de sonidos simultáneos, como detección de tonos múltiples y métodos de agrupación de tiempo-frecuencia.
  7. Cognición auditiva: modelado de emociones, anticipación y familiaridad, sorpresa auditiva y análisis de estructura musical.
  8. Análisis multimodal : búsqueda de correspondencias entre señales textuales, visuales y de audio.

Problemas de representación

La audición por computadora trata con señales de audio que se pueden representar de diversas formas, desde la codificación directa de audio digital en dos o más canales hasta instrucciones de síntesis representadas simbólicamente. Las señales de audio suelen representarse en términos de grabaciones analógicas o digitales . Las grabaciones digitales son muestras de formas de onda acústica o parámetros de algoritmos de compresión de audio . Una de las propiedades únicas de las señales musicales es que a menudo combinan diferentes tipos de representaciones, como partituras gráficas y secuencias de acciones de interpretación que están codificadas como archivos MIDI .

Dado que las señales de audio generalmente comprenden múltiples fuentes de sonido, a diferencia de las señales de voz que pueden describirse eficientemente en términos de modelos específicos (como el modelo de filtro de fuente), es difícil idear una representación paramétrica para el audio general. Las representaciones de audio paramétricas suelen utilizar bancos de filtros o modelos sinusoidales para capturar múltiples parámetros de sonido, a veces aumentando el tamaño de la representación para capturar la estructura interna de la señal. Otros tipos de datos que son relevantes para la audición por computadora son las descripciones textuales de contenidos de audio, como anotaciones, reseñas e información visual en el caso de grabaciones audiovisuales.

Características

La descripción del contenido de señales de audio generales generalmente requiere la extracción de características que capturan aspectos específicos de la señal de audio. En términos generales, se podrían dividir las características en señales o descriptores matemáticos como energía, descripción de la forma espectral, etc., caracterización estadística como detección de cambios o novedades, representaciones especiales que se adaptan mejor a la naturaleza de las señales musicales o del sistema auditivo, como el crecimiento logarítmico de la sensibilidad ( ancho de banda ) en frecuencia o la invariancia de octava (croma).

Dado que los modelos paramétricos en audio normalmente requieren muchos parámetros, las características se utilizan para resumir las propiedades de múltiples parámetros en una representación más compacta o destacada.

conocimientos musicales

Es posible encontrar estructuras musicales específicas utilizando conocimientos musicales y métodos de aprendizaje automático supervisados ​​y no supervisados. Ejemplos de esto incluyen la detección de tonalidad según la distribución de frecuencias que corresponden a patrones de aparición de notas en escalas musicales, la distribución de los tiempos de aparición de las notas para la detección de la estructura del tiempo, la distribución de energías en diferentes frecuencias para detectar acordes musicales, etc.

Similitud de sonido y modelado de secuencia.

La comparación de sonidos se puede realizar comparando características con o sin referencia al tiempo. En algunos casos, se puede evaluar una similitud general mediante valores cercanos de características entre dos sonidos. En otros casos, cuando la estructura temporal es importante, es necesario aplicar métodos de deformación temporal dinámica para "corregir" diferentes escalas temporales de eventos acústicos. Encontrar repeticiones y subsecuencias similares de eventos sonoros es importante para tareas como la síntesis de texturas y la improvisación mecánica .

Separación de fuentes

Dado que una de las características básicas del audio general es que comprende múltiples fuentes que suenan simultáneamente, como múltiples instrumentos musicales, personas hablando, ruidos de máquinas o vocalizaciones de animales, la capacidad de identificar y separar fuentes individuales es muy deseable. Desafortunadamente, no existen métodos que puedan resolver este problema de manera sólida. Los métodos existentes de separación de fuentes se basan a veces en la correlación entre diferentes canales de audio en grabaciones multicanal . La capacidad de separar fuentes de señales estéreo requiere técnicas diferentes a las que se aplican habitualmente en las comunicaciones donde hay múltiples sensores disponibles. Otros métodos de separación de fuentes se basan en el entrenamiento o la agrupación de funciones en la grabación mono, como el seguimiento de parciales relacionados armónicamente para la detección de tonos múltiples. Algunos métodos, antes del reconocimiento explícito, se basan en revelar estructuras en los datos sin conocerlas (como reconocer objetos en imágenes abstractas sin atribuirles etiquetas significativas) al encontrar las representaciones de datos menos complejas, por ejemplo, describiendo escenas de audio generadas por unos pocos patrones de tono. y sus trayectorias (voces polifónicas) y contornos acústicos dibujados por un tono (acordes). [9]

Cognición auditiva

Escuchar música y audio en general no suele ser una actividad dirigida a tareas. La gente disfruta de la música por diversas razones poco comprendidas, que comúnmente se refieren al efecto emocional de la música debido a la creación de expectativas y su realización o violación. Los animales prestan atención a las señales de peligro en los sonidos, que pueden ser nociones específicas o generales de cambios sorprendentes e inesperados. Generalmente, esto crea una situación en la que la audición por computadora no puede depender únicamente de la detección de características o propiedades del sonido específicas y tiene que idear métodos generales para adaptarse al entorno auditivo cambiante y monitorear su estructura. Consiste en el análisis de estructuras más grandes de repetición y autosemejanza en audio para detectar innovación, así como la capacidad de predecir la dinámica de características locales.

Análisis multimodal

Entre los datos disponibles para describir la música, se encuentran representaciones textuales, como notas, reseñas y críticas que describen el contenido del audio con palabras. En otros casos, las reacciones humanas, como los juicios emocionales o las mediciones psicofisiológicas, pueden proporcionar una idea del contenido y la estructura del audio. Computer Audition intenta encontrar relaciones entre estas diferentes representaciones para proporcionar esta comprensión adicional de los contenidos de audio.

Ver también

enlaces externos

Referencias

  1. ^ Audición de máquinas: principios, algoritmos y sistemas. IGI Global. 2011.ISBN​ 9781615209194.
  2. ^ "Machine Audition: principios, algoritmos y sistemas" (PDF) .
  3. ^ Paris Smaragdis enseñó a las computadoras cómo reproducir música más realista
  4. ^ Tanguiane (tangiano), Andranick (1993). Percepción artificial y reconocimiento musical . Apuntes de conferencias sobre inteligencia artificial. vol. 746. Berlín-Heidelberg: Springer. ISBN 978-3-540-57394-4.
  5. ^ Tanguiane (Tanguiane), Andranick (1994). "Un principio de correlatividad de la percepción y su aplicación al reconocimiento musical". Percepción musical . 11 (4): 465–502. doi :10.2307/40285634. JSTOR  40285634.
  6. ^ Kelly, Daniel; Caulfield, Brian (febrero de 2015). "Detección de sonido generalizado: un enfoque de formación débilmente supervisado". Transacciones IEEE sobre cibernética . 46 (1): 123-135. doi :10.1109/TCYB.2015.2396291. hdl : 10197/6853 . PMID  25675471. S2CID  16042016.
  7. ^ Hendrik Purwins, Perfecto Herrera, Maarten Grachten, Amaury Hazan, Ricard Marxer y Xavier Serra. Modelos computacionales de percepción y cognición musical I: La cadena de procesamiento perceptivo y cognitivo. Reseñas de Física de la Vida, vol. 5, núm. 3, págs. 151-168, 2008. [1]
  8. ^ Página web del curso de escucha automática en el MIT
  9. ^ Tanguiane (tangiano), Andranick (1995). "Hacia la axiomatización de la percepción musical". Revista de investigación de nueva música . 24 (3): 247–281. doi :10.1080/09298219508570685.