stringtranslate.com

espectrograma

Espectrograma de las palabras habladas "siglo XIX". Las frecuencias se muestran aumentando en el eje vertical y el tiempo en el eje horizontal. La leyenda de la derecha muestra que la intensidad del color aumenta con la densidad.
Un espectrograma 3D: el espectro de RF de un cargador de baterías se muestra a lo largo del tiempo

Un espectrograma es una representación visual del espectro de frecuencias de una señal que varía con el tiempo. Cuando se aplican a una señal de audio , los espectrogramas a veces se denominan ecografías , huellas de voz o voicegramas . Cuando los datos se representan en un gráfico 3D, se les puede llamar presentaciones en cascada .

Los espectrogramas se utilizan ampliamente en los campos de la música , la lingüística , el sonar , el radar , el procesamiento del habla , [1] la sismología , la ornitología y otros. Los espectrogramas de audio se pueden utilizar para identificar fonéticamente las palabras habladas y para analizar los distintos llamados de los animales .

Un espectrograma puede ser generado por un espectrómetro óptico , un banco de filtros de paso de banda , por transformada de Fourier o por una transformada wavelet (en cuyo caso también se le conoce como escalograma o escalograma ). [2]

Escalaogramas de DWT y CWT para una muestra de audio

Un espectrograma suele representarse como un mapa de calor , es decir, como una imagen cuya intensidad se muestra variando el color o el brillo .

Formato

Un formato común es un gráfico con dos dimensiones geométricas: un eje representa el tiempo y el otro eje representa la frecuencia ; una tercera dimensión que indica la amplitud de una frecuencia particular en un momento particular está representada por la intensidad o el color de cada punto de la imagen.

Hay muchas variaciones de formato: a veces los ejes vertical y horizontal se intercambian, por lo que el tiempo sube y baja; a veces como un diagrama de cascada donde la amplitud está representada por la altura de una superficie 3D en lugar del color o la intensidad. Los ejes de frecuencia y amplitud pueden ser lineales o logarítmicos , según para qué se utilice el gráfico. El audio normalmente se representaría con un eje de amplitud logarítmico (probablemente en decibeles o dB), y la frecuencia sería lineal para enfatizar las relaciones armónicas, o logarítmica para enfatizar las relaciones musicales y tonales.

Espectrografía de sonido de grabación de infrasonidos 30301.

Generación

Se pueden crear espectrogramas de luz directamente utilizando un espectrómetro óptico a lo largo del tiempo.

Los espectrogramas pueden crearse a partir de una señal en el dominio del tiempo de dos maneras: aproximados como un banco de filtros que resulta de una serie de filtros de paso de banda (esta era la única forma antes de la llegada del procesamiento de señales digitales moderno), o calculados a partir de la señal temporal mediante la transformada de Fourier . Estos dos métodos en realidad forman dos representaciones de tiempo-frecuencia diferentes , pero son equivalentes bajo algunas condiciones.

El método de filtros de paso de banda suele utilizar procesamiento analógico para dividir la señal de entrada en bandas de frecuencia; la magnitud de la salida de cada filtro controla un transductor que registra el espectrograma como una imagen en papel. [3]

Crear un espectrograma usando la FFT es un proceso digital . Los datos muestreados digitalmente , en el dominio del tiempo , se dividen en fragmentos, que generalmente se superponen, y se transforman en Fourier para calcular la magnitud del espectro de frecuencia para cada fragmento. Cada fragmento corresponde entonces a una línea vertical en la imagen; una medición de magnitud versus frecuencia para un momento específico en el tiempo (el punto medio del fragmento). Estos espectros o diagramas de tiempo luego se "colocan uno al lado del otro" para formar la imagen o una superficie tridimensional, [4] o se superponen ligeramente de varias maneras, es decir, en ventanas . Este proceso corresponde esencialmente a calcular la magnitud al cuadrado de la transformada de Fourier de corto tiempo (STFT) de la señal , es decir, para un ancho de ventana , . [5]

Limitaciones y resíntesis.

De la fórmula anterior, parece que un espectrograma no contiene información sobre la fase exacta, o incluso aproximada, de la señal que representa. Por esta razón, no es posible revertir el proceso y generar una copia de la señal original a partir de un espectrograma, aunque en situaciones donde la fase inicial exacta no es importante, puede ser posible generar una aproximación útil de la señal original. El espectrógrafo de sonido de análisis y resíntesis [6] es un ejemplo de un programa informático que intenta hacer esto. El Pattern Playback fue uno de los primeros sintetizadores de voz, diseñado en los Laboratorios Haskins a finales de la década de 1940, que convertía imágenes de los patrones acústicos del habla (espectrogramas) nuevamente en sonido.

De hecho, hay cierta información de fase en el espectrograma, pero aparece de otra forma, como retardo de tiempo (o retardo de grupo ), que es el dual de la frecuencia instantánea . [7]

El tamaño y la forma de la ventana de análisis se pueden variar. Una ventana más pequeña (más corta) producirá resultados más precisos en la sincronización, a expensas de la precisión de la representación de la frecuencia. Una ventana más grande (más larga) proporcionará una representación de frecuencia más precisa, a expensas de la precisión en la representación de la sincronización. Este es un ejemplo del principio de incertidumbre de Heisenberg , según el cual el producto de la precisión de dos variables conjugadas es mayor o igual a una constante (B*T>=1 en la notación habitual). [8]

Aplicaciones

Ver también

Referencias

  1. ^ JL Flanagan, Análisis, síntesis y percepción del habla, Springer-Verlag, Nueva York, 1972
  2. ^ Sejdic, E.; Djurovic, I.; Stankovic, L. (agosto de 2008). "Análisis de rendimiento cuantitativo del escalograma como estimador de frecuencia instantáneo". Transacciones IEEE sobre procesamiento de señales . 56 (8): 3837–3845. Código Bib : 2008ITSP...56.3837S. doi :10.1109/TSP.2008.924856. ISSN  1053-587X. S2CID  16396084.
  3. ^ "Espectrógrafo". www.sfu.ca. ​Consultado el 7 de abril de 2018 .
  4. ^ "Espectrogramas". ccrma.stanford.edu . Consultado el 7 de abril de 2018 .
  5. ^ "Espectrogramas STFT VI - Ayuda de NI LabVIEW 8.6". zona.ni.com . Consultado el 7 de abril de 2018 .
  6. ^ "El espectrógrafo de sonido de análisis y resíntesis". arss.sourceforge.net . Consultado el 7 de abril de 2018 .
  7. ^ Boashash, B. (1992). "Estimación e interpretación de la frecuencia instantánea de una señal. I. Fundamentos". Actas del IEEE . 80 (4). Instituto de Ingenieros Eléctricos y Electrónicos (IEEE): 520–538. doi :10.1109/5.135376. ISSN  0018-9219.
  8. ^ "Principio de incertidumbre de Heisenberg". Archivado desde el original el 25 de enero de 2019 . Consultado el 5 de febrero de 2019 .
  9. ^ "CANTOS Y LLAMADOS DE PÁJAROS CON ESPECTROGRAMAS (SONOGRAMAS) DEL SUR DE LA TOSCANA (Toscana - Italia)". www.birdsongs.it . Consultado el 7 de abril de 2018 .
  10. ^ Saunders, Frank A.; Colina, William A.; Franklin, Barbara (1 de diciembre de 1981). "Una ayuda sensorial táctil portátil para niños profundamente sordos". Revista de sistemas médicos . 5 (4): 265–270. doi :10.1007/BF02222144. PMID  7320662. S2CID  26620843.
  11. ^ "Lectura de espectrograma". ogi.edu . Archivado desde el original el 27 de abril de 1999 . Consultado el 7 de abril de 2018 .
  12. ^ "Praat: haciendo fonética por computadora". www.fon.hum.uva.nl. ​Consultado el 7 de abril de 2018 .
  13. ^ "La cara de Aphex - líber". www.bastwood.com . Consultado el 7 de abril de 2018 .
  14. ^ "Comparaciones de SRC". src.infinitewave.ca . Consultado el 7 de abril de 2018 .
  15. ^ "constantwave.com - información y recursos de constantewave". www.constantwave.com . Consultado el 7 de abril de 2018 .
  16. ^ "Espectrogramas para analizadores de redes vectoriales". Archivado desde el original el 10 de agosto de 2012.
  17. ^ "Pantallas de espectrograma en tiempo real". terremoto.usgs.gov . Consultado el 7 de abril de 2018 .
  18. ^ "IRIS: MUSTANG: Espectrograma de ruido: Documentos: v. 1: Ayuda".
  19. ^ Geitgey, Adam (24 de diciembre de 2016). "El aprendizaje automático es divertido, parte 6: Cómo realizar el reconocimiento de voz con aprendizaje profundo". Medio . Consultado el 21 de marzo de 2018 .
  20. ^ Véase también Praat .
  21. ^ "El enorme estado de vigilancia de China sigue creciendo" . El economista . 23 de noviembre de 2023. ISSN  0013-0613 . Consultado el 25 de noviembre de 2023 .
  22. ^ "¿Qué es un espectrograma?" . Consultado el 18 de diciembre de 2023 .
  23. ^ T., Arias-Vergara; P., Klumpp; JC, Vásquez-Correa; E., Nöth; JR, Orozco-Arroyave; M., Schuster (2021). "Espectrogramas multicanal para aplicaciones de procesamiento de voz que utilizan métodos de aprendizaje profundo". Análisis y aplicaciones de patrones . 24 (2): 423–431. doi : 10.1007/s10044-020-00921-5 .
  24. ^ Jia, Yanjie; Chen, Xi; Yu, Jieqiong; Wang, Lianming; Xu, Yuanzhe; Liu, Shaojin; Wang, Yonghui (2021). "Reconocimiento de hablantes basado en espectrogramas característicos y una red neuronal de mapas de características autoorganizada mejorada". Sistemas complejos e inteligentes . 7 (4): 1749-1757. doi : 10.1007/s40747-020-00172-1 .
  25. ^ Yalamanchili, Arpitha; Madhumathi, GL; Balaji, N. (2022). "Análisis de espectrograma de la señal de ECG y eficiencia de clasificación mediante la técnica de extracción de características MFCC". Revista de Inteligencia Ambiental y Computación Humanizada . 13 (2): 757–767. doi :10.1007/s12652-021-02926-2. S2CID  233657057.
  26. ^ Ge, Junfeng; Wang, Li; Gui, Kang; Ye, Lin (30 de septiembre de 2023). "Método de interpretación de temperatura para pintura indicadora de temperatura basado en espectrograma". Medición . 219 . Código Bib : 2023Medidas..21913317G. doi :10.1016/j.medición.2023.113317. S2CID  259871198.
  27. ^ Parque, Cheolhyeong; Lee, Deokwoo (11 de febrero de 2022). "Clasificación de estados respiratorios mediante espectrograma con red neuronal convolucional". Ciencias Aplicadas . 12 (4): 1895. doi : 10.3390/app12041895 .

enlaces externos