Representación visual del espectro de frecuencias de una señal que varía con el tiempo.
Un espectrograma es una representación visual del espectro de frecuencias de una señal que varía con el tiempo. Cuando se aplican a una señal de audio , los espectrogramas a veces se denominan ecografías , huellas de voz o voicegramas . Cuando los datos se representan en un gráfico 3D, se les puede llamar presentaciones en cascada .
Un espectrograma suele representarse como un mapa de calor , es decir, como una imagen cuya intensidad se muestra variando el color o el brillo .
Formato
Un formato común es un gráfico con dos dimensiones geométricas: un eje representa el tiempo y el otro eje representa la frecuencia ; una tercera dimensión que indica la amplitud de una frecuencia particular en un momento particular está representada por la intensidad o el color de cada punto de la imagen.
Hay muchas variaciones de formato: a veces los ejes vertical y horizontal se intercambian, por lo que el tiempo sube y baja; a veces como un diagrama de cascada donde la amplitud está representada por la altura de una superficie 3D en lugar del color o la intensidad. Los ejes de frecuencia y amplitud pueden ser lineales o logarítmicos , según para qué se utilice el gráfico. El audio normalmente se representaría con un eje de amplitud logarítmico (probablemente en decibeles o dB), y la frecuencia sería lineal para enfatizar las relaciones armónicas, o logarítmica para enfatizar las relaciones musicales y tonales.
Espectrograma de esta grabación de un violín tocando. Tenga en cuenta los armónicos que ocurren en múltiplos de números enteros de la frecuencia fundamental.
Espectrograma de superficie 3D de una parte de una pieza musical.
Espectrograma de una voz masculina que dice 'ta ta ta'.
Espectrograma de vocalizaciones de delfines; Los chirridos, los clics y la armonización son visibles como V invertidas, líneas verticales y estrías horizontales, respectivamente.
Espectrograma de una señal de FM . En este caso, la frecuencia de la señal se modula con un perfil sinusoidal de frecuencia versus tiempo.
Espectro superior y cascada (Espectrograma) inferior de una señal de Televisión PAL -I de 8MHz de ancho.
Se pueden crear espectrogramas de luz directamente utilizando un espectrómetro óptico a lo largo del tiempo.
Los espectrogramas pueden crearse a partir de una señal en el dominio del tiempo de dos maneras: aproximados como un banco de filtros que resulta de una serie de filtros de paso de banda (ésta era la única manera antes de la llegada del procesamiento de señales digitales moderno), o calculados a partir de la señal temporal mediante la transformada de Fourier . Estos dos métodos en realidad forman dos representaciones de tiempo-frecuencia diferentes , pero son equivalentes bajo algunas condiciones.
El método de filtros de paso de banda suele utilizar procesamiento analógico para dividir la señal de entrada en bandas de frecuencia; la magnitud de la salida de cada filtro controla un transductor que registra el espectrograma como una imagen en papel. [3]
Crear un espectrograma usando la FFT es un proceso digital . Los datos muestreados digitalmente , en el dominio del tiempo , se dividen en fragmentos, que generalmente se superponen, y se transforman en Fourier para calcular la magnitud del espectro de frecuencia para cada fragmento. Cada fragmento corresponde entonces a una línea vertical en la imagen; una medición de magnitud versus frecuencia para un momento específico en el tiempo (el punto medio del fragmento). Estos espectros o gráficos de tiempo se "colocan uno al lado del otro" para formar la imagen o una superficie tridimensional, [4] o se superponen ligeramente de varias maneras, es decir, en ventanas . Este proceso corresponde esencialmente a calcular la magnitud al cuadrado de la transformada de Fourier de corto tiempo (STFT) de la señal , es decir, para un ancho de ventana , . [5]
Limitaciones y resíntesis.
De la fórmula anterior, parece que un espectrograma no contiene información sobre la fase exacta, o incluso aproximada, de la señal que representa. Por esta razón, no es posible revertir el proceso y generar una copia de la señal original a partir de un espectrograma, aunque en situaciones donde la fase inicial exacta no es importante, puede ser posible generar una aproximación útil de la señal original. El espectrógrafo de sonido de análisis y resíntesis [6] es un ejemplo de un programa informático que intenta hacer esto. El Pattern Playback fue uno de los primeros sintetizadores de voz, diseñado en los Laboratorios Haskins a finales de la década de 1940, que convertía imágenes de los patrones acústicos del habla (espectrogramas) nuevamente en sonido.
De hecho, hay cierta información de fase en el espectrograma, pero aparece de otra forma, como retardo de tiempo (o retardo de grupo ), que es el dual de la frecuencia instantánea . [7]
El tamaño y la forma de la ventana de análisis se pueden variar. Una ventana más pequeña (más corta) producirá resultados más precisos en la sincronización, a expensas de la precisión de la representación de la frecuencia. Una ventana más grande (más larga) proporcionará una representación de frecuencia más precisa, a expensas de la precisión en la representación de la sincronización. Este es un ejemplo del principio de incertidumbre de Heisenberg , según el cual el producto de la precisión de dos variables conjugadas es mayor o igual a una constante (B*T>=1 en la notación habitual). [8]
Aplicaciones
Los primeros espectrogramas analógicos se aplicaron a una amplia gama de áreas, incluido el estudio de los cantos de los pájaros (como el del herrerillo común ), y la investigación actual continúa utilizando equipos digitales modernos [9] y se aplicó a todos los sonidos de los animales. El uso contemporáneo del espectrograma digital es especialmente útil para estudiar la modulación de frecuencia (FM) en los llamados de los animales. Específicamente, las características distintivas de los chirridos de FM, los clics de banda ancha y la armonización social se visualizan más fácilmente con el espectrograma.
Los espectrogramas son útiles para ayudar a superar los déficits del habla y en el entrenamiento del habla para la parte de la población que es profundamente sorda [10]
Los estudios de fonética y síntesis del habla a menudo se facilitan mediante el uso de espectrogramas. [11] [12]
En la síntesis de voz basada en aprendizaje profundo, el espectrograma (o espectrograma en escala mel ) se predice primero mediante un modelo seq2seq, luego el espectrograma se envía a un codificador de voz neuronal para derivar la forma de onda sin procesar sintetizada.
Al invertir el proceso de producción de un espectrograma, es posible crear una señal cuyo espectrograma sea una imagen arbitraria. Esta técnica se puede utilizar para ocultar una imagen en una pieza de audio y ha sido empleada por varios artistas de música electrónica . [13] Véase también esteganografía .
Parte de la música moderna se crea utilizando espectrogramas como medio intermedio; cambiando la intensidad de diferentes frecuencias a lo largo del tiempo, o incluso creando otras nuevas, dibujándolas y luego transformándolas inversamente. Consulte Modificación del tono y la escala de tiempo de audio y Vocoder de fase .
Los espectrogramas se pueden utilizar para analizar los resultados de pasar una señal de prueba a través de un procesador de señal, como un filtro, para verificar su rendimiento. [14]
Los espectrogramas de alta definición se utilizan en el desarrollo de sistemas de RF y microondas [15]
Los espectrogramas ahora se utilizan para mostrar parámetros de dispersión medidos con analizadores de redes vectoriales [16]
Para una señal de vibración, la escala de color de un espectrograma identifica las frecuencias de los picos de amplitud de una forma de onda a lo largo del tiempo. A diferencia de un gráfico de tiempo o frecuencia, un espectrograma correlaciona los valores máximos con el tiempo y la frecuencia. Los ingenieros de pruebas de vibración utilizan espectrogramas para analizar el contenido de frecuencia de una forma de onda continua, localizar señales fuertes y determinar cómo cambia el comportamiento de la vibración con el tiempo. [22]
Los espectrogramas se pueden utilizar para analizar el habla en dos aplicaciones diferentes: detección automática de déficits del habla en usuarios de implantes cocleares y reconocimiento de clases de fonemas para extraer características de atributos telefónicos. [23]
Para obtener las características de pronunciación de un hablante, algunos investigadores propusieron un método basado en una idea de la biónica, que utiliza estadísticas de espectrogramas para lograr un espectrograma característico que proporcione una representación estable de la pronunciación de los hablantes a partir de una superposición lineal de espectrogramas de corto tiempo. [24]
Los investigadores exploran un enfoque novedoso para el análisis de señales de ECG aprovechando técnicas de espectrograma, posiblemente para mejorar la visualización y la comprensión. La integración de MFCC para la extracción de características sugiere una aplicación interdisciplinaria, tomando prestados métodos del procesamiento de audio para extraer información relevante de señales biomédicas. [25]
La interpretación precisa de la pintura indicadora de temperatura (TIP) es de gran importancia en la aviación y otras aplicaciones industriales. El espectrograma 2D de TIP se puede utilizar en la interpretación de la temperatura. [26]
El espectrograma se puede utilizar para procesar la señal de la tasa de cambio del tórax humano. Al visualizar las señales respiratorias mediante un espectrograma, los investigadores propusieron un enfoque para la clasificación de los estados respiratorios basándose en un modelo de red neuronal. [27]
^ JL Flanagan, Análisis, síntesis y percepción del habla, Springer-Verlag, Nueva York, 1972
^ Sejdic, E.; Djurovic, I.; Stankovic, L. (agosto de 2008). "Análisis de rendimiento cuantitativo del escalograma como estimador de frecuencia instantánea". Transacciones IEEE sobre procesamiento de señales . 56 (8): 3837–3845. Código Bib : 2008ITSP...56.3837S. doi :10.1109/TSP.2008.924856. ISSN 1053-587X. S2CID 16396084.
^ "Espectrógrafo". www.sfu.ca. Consultado el 7 de abril de 2018 .
^ "Espectrogramas". ccrma.stanford.edu . Consultado el 7 de abril de 2018 .
^ "Espectrogramas STFT VI - Ayuda de NI LabVIEW 8.6". zona.ni.com . Consultado el 7 de abril de 2018 .
^ "El espectrógrafo de sonido de análisis y resíntesis". arss.sourceforge.net . Consultado el 7 de abril de 2018 .
^ Boashash, B. (1992). "Estimación e interpretación de la frecuencia instantánea de una señal. I. Fundamentos". Actas del IEEE . 80 (4). Instituto de Ingenieros Eléctricos y Electrónicos (IEEE): 520–538. doi :10.1109/5.135376. ISSN 0018-9219.
^ "Principio de incertidumbre de Heisenberg". Archivado desde el original el 25 de enero de 2019 . Consultado el 5 de febrero de 2019 .
^ "CANTOS Y LLAMADOS DE PÁJAROS CON ESPECTROGRAMAS (SONOGRAMAS) DEL SUR DE LA TOSCANA (Toscana - Italia)". www.birdsongs.it . Consultado el 7 de abril de 2018 .
^ Saunders, Frank A.; Colina, William A.; Franklin, Barbara (1 de diciembre de 1981). "Una ayuda sensorial táctil portátil para niños profundamente sordos". Revista de sistemas médicos . 5 (4): 265–270. doi :10.1007/BF02222144. PMID 7320662. S2CID 26620843.
^ "Lectura de espectrograma". ogi.edu . Archivado desde el original el 27 de abril de 1999 . Consultado el 7 de abril de 2018 .
^ "Praat: haciendo fonética por computadora". www.fon.hum.uva.nl. Consultado el 7 de abril de 2018 .
^ "La cara de Aphex - líber". www.bastwood.com . Consultado el 7 de abril de 2018 .
^ "Comparaciones de SRC". src.infinitewave.ca . Consultado el 7 de abril de 2018 .
^ "constantwave.com - información y recursos de Constantwave". www.constantwave.com . Consultado el 7 de abril de 2018 .
^ "Espectrogramas para analizadores de redes vectoriales". Archivado desde el original el 10 de agosto de 2012.
^ "Pantallas de espectrograma en tiempo real". terremoto.usgs.gov . Consultado el 7 de abril de 2018 .
^ "IRIS: MUSTANG: Espectrograma de ruido: Documentos: v. 1: Ayuda".
^ Geitgey, Adam (24 de diciembre de 2016). "El aprendizaje automático es divertido, parte 6: Cómo realizar el reconocimiento de voz con aprendizaje profundo". Medio . Consultado el 21 de marzo de 2018 .
^ "El enorme estado de vigilancia de China sigue creciendo" . El economista . 23 de noviembre de 2023. ISSN 0013-0613 . Consultado el 25 de noviembre de 2023 .
^ "¿Qué es un espectrograma?" . Consultado el 18 de diciembre de 2023 .
^ T., Arias-Vergara; P., Klumpp; JC, Vásquez-Correa; E., Nöth; JR, Orozco-Arroyave; M., Schuster (2021). "Espectrogramas multicanal para aplicaciones de procesamiento de voz que utilizan métodos de aprendizaje profundo". Análisis y aplicaciones de patrones . 24 (2): 423–431. doi : 10.1007/s10044-020-00921-5 .
^ Jia, Yanjie; Chen, Xi; Yu, Jieqiong; Wang, Lianming; Xu, Yuanzhe; Liu, Shaojin; Wang, Yonghui (2021). "Reconocimiento de hablantes basado en espectrogramas característicos y una red neuronal de mapas de características autoorganizada mejorada". Sistemas complejos e inteligentes . 7 (4): 1749-1757. doi : 10.1007/s40747-020-00172-1 .
^ Yalamanchili, Arpitha; Madhumathi, GL; Balaji, N. (2022). "Análisis de espectrograma de la señal de ECG y eficiencia de clasificación mediante la técnica de extracción de características MFCC". Revista de Inteligencia Ambiental y Computación Humanizada . 13 (2): 757–767. doi :10.1007/s12652-021-02926-2. S2CID 233657057.
^ Ge, Junfeng; Wang, Li; Gui, Kang; Ye, Lin (30 de septiembre de 2023). "Método de interpretación de temperatura para pintura indicadora de temperatura basado en espectrograma". Medición . 219 . Código Bib : 2023Medidas..21913317G. doi :10.1016/j.medición.2023.113317. S2CID 259871198.
^ Parque, Cheolhyeong; Lee, Deokwoo (11 de febrero de 2022). "Clasificación de estados respiratorios mediante espectrograma con red neuronal convolucional". Ciencias Aplicadas . 12 (4): 1895. doi : 10.3390/app12041895 .
Enlaces externos
Wikimedia Commons tiene medios relacionados con el espectrograma .
Busque espectrograma en Wikcionario, el diccionario gratuito.
Vea un espectrograma en línea del habla u otros sonidos capturados por el micrófono de su computadora.
Generar una secuencia de tonos cuyo espectrograma coincida con un texto arbitrario, en línea
Más información sobre la creación de una señal cuyo espectrograma sea una imagen arbitraria
Artículo que describe el desarrollo de un espectrograma de software.
Historia de los espectrogramas y desarrollo de instrumentación.
Cómo identificar las palabras en un espectrograma de la publicación Monthly Mystery Spectrogram de un profesor de lingüística .
Sonogram Visible Speech Software gratuito con licencia GPL para la generación de espectrogramas de archivos de señal.