stringtranslate.com

Espectrograma

Espectrograma de las palabras habladas "siglo XIX". Las frecuencias se muestran en sentido ascendente en el eje vertical y el tiempo en el eje horizontal. La leyenda de la derecha muestra que la intensidad del color aumenta con la densidad.
Espectrograma 3D: se muestra el espectro de RF de un cargador de batería a lo largo del tiempo

Un espectrograma es una representación visual del espectro de frecuencias de una señal a medida que varía con el tiempo. Cuando se aplican a una señal de audio , los espectrogramas a veces se denominan sonografías , huellas de voz o voicegramas . Cuando los datos se representan en un gráfico 3D, pueden denominarse visualizaciones en cascada .

Los espectrogramas se utilizan ampliamente en los campos de la música , la lingüística , el sonar , el radar , el procesamiento del habla , [1] la sismología , la ornitología y otros. Los espectrogramas de audio se pueden utilizar para identificar palabras habladas fonéticamente y para analizar los diversos llamados de los animales .

Un espectrograma puede ser generado por un espectrómetro óptico , un banco de filtros de paso de banda , por transformada de Fourier o por una transformada wavelet (en cuyo caso también se conoce como scaleograma o escalograma ). [2]

Scaleogramas del DWT y CWT para una muestra de audio

Un espectrograma suele representarse como un mapa de calor , es decir, como una imagen cuya intensidad se muestra variando el color o el brillo .

Formato

Un formato común es un gráfico con dos dimensiones geométricas: un eje representa el tiempo y el otro eje representa la frecuencia ; una tercera dimensión que indica la amplitud de una frecuencia particular en un momento particular está representada por la intensidad o el color de cada punto de la imagen.

Existen muchas variaciones de formato: a veces se intercambian los ejes vertical y horizontal, de modo que el tiempo se desplaza hacia arriba y hacia abajo; a veces como un gráfico en cascada donde la amplitud se representa por la altura de una superficie 3D en lugar del color o la intensidad. Los ejes de frecuencia y amplitud pueden ser lineales o logarítmicos , según para qué se utilice el gráfico. El audio normalmente se representaría con un eje de amplitud logarítmico (probablemente en decibeles o dB), y la frecuencia sería lineal para enfatizar las relaciones armónicas, o logarítmica para enfatizar las relaciones musicales y tonales.

Espectrografía sonora de grabaciones infrasónicas 30301

Generación

Se pueden crear espectrogramas de luz directamente usando un espectrómetro óptico a lo largo del tiempo.

Los espectrogramas se pueden crear a partir de una señal en el dominio del tiempo de una de dos maneras: aproximándose como un banco de filtros que resulta de una serie de filtros de paso de banda (esta era la única manera antes de la llegada del procesamiento de señales digitales moderno), o calculándose a partir de la señal de tiempo utilizando la transformada de Fourier . Estos dos métodos en realidad forman dos representaciones de tiempo-frecuencia diferentes , pero son equivalentes en algunas condiciones.

El método de filtros de paso de banda generalmente utiliza procesamiento analógico para dividir la señal de entrada en bandas de frecuencia; la magnitud de la salida de cada filtro controla un transductor que registra el espectrograma como una imagen en papel. [3]

La creación de un espectrograma mediante la FFT es un proceso digital . Los datos muestreados digitalmente , en el dominio del tiempo , se dividen en fragmentos, que generalmente se superponen, y se transforman en Fourier para calcular la magnitud del espectro de frecuencia para cada fragmento. Cada fragmento corresponde entonces a una línea vertical en la imagen; una medida de magnitud versus frecuencia para un momento específico en el tiempo (el punto medio del fragmento). Estos espectros o gráficos de tiempo se "colocan uno al lado del otro" para formar la imagen o una superficie tridimensional, [4] o se superponen ligeramente de varias maneras, es decir, mediante la creación de ventanas . Este proceso corresponde esencialmente al cálculo de la magnitud al cuadrado de la transformada de Fourier de tiempo corto (STFT) de la señal , es decir, para un ancho de ventana de . [ 5]

Limitaciones y resíntesis

De la fórmula anterior se desprende que un espectrograma no contiene información sobre la fase exacta, o incluso aproximada, de la señal que representa. Por este motivo, no es posible revertir el proceso y generar una copia de la señal original a partir de un espectrograma, aunque en situaciones en las que la fase inicial exacta no es importante puede ser posible generar una aproximación útil de la señal original. El espectrógrafo de sonido de análisis y resíntesis [6] es un ejemplo de un programa informático que intenta hacer esto. El reproductor de patrones era un sintetizador de voz temprano, diseñado en los Laboratorios Haskins a finales de la década de 1940, que convertía imágenes de los patrones acústicos del habla (espectrogramas) de nuevo en sonido.

De hecho, hay cierta información de fase en el espectrograma, pero aparece en otra forma, como retardo de tiempo (o retardo de grupo ), que es el dual de la frecuencia instantánea . [7]

El tamaño y la forma de la ventana de análisis pueden variar. Una ventana más pequeña (más corta) producirá resultados más precisos en la sincronización, a expensas de la precisión de la representación de frecuencia. Una ventana más grande (más larga) proporcionará una representación de frecuencia más precisa, a expensas de la precisión en la representación de sincronización. Este es un ejemplo del principio de incertidumbre de Heisenberg , según el cual el producto de la precisión en dos variables conjugadas es mayor o igual a una constante (B*T>=1 en la notación habitual). [8]

Aplicaciones

Véase también

Referencias

  1. ^ JL Flanagan, Análisis del habla, síntesis y percepción, Springer-Verlag, Nueva York, 1972
  2. ^ Sejdic, E.; Djurovic, I.; Stankovic, L. (agosto de 2008). "Análisis cuantitativo del rendimiento del escalograma como estimador de frecuencia instantánea". IEEE Transactions on Signal Processing . 56 (8): 3837–3845. Bibcode :2008ITSP...56.3837S. doi :10.1109/TSP.2008.924856. ISSN  1053-587X. S2CID  16396084.
  3. ^ "Espectrógrafo". www.sfu.ca . Consultado el 7 de abril de 2018 .
  4. ^ "Espectrogramas". ccrma.stanford.edu . Consultado el 7 de abril de 2018 .
  5. ^ "STFT Spectrograms VI – Ayuda de NI LabVIEW 8.6". zone.ni.com . Consultado el 7 de abril de 2018 .
  6. ^ "El espectrógrafo de sonido de análisis y resíntesis". arss.sourceforge.net . Consultado el 7 de abril de 2018 .
  7. ^ Boashash, B. (1992). "Estimación e interpretación de la frecuencia instantánea de una señal. I. Fundamentos". Actas del IEEE . 80 (4). Instituto de Ingenieros Eléctricos y Electrónicos (IEEE): 520–538. doi :10.1109/5.135376. ISSN  0018-9219.
  8. ^ "Principio de incertidumbre de Heisenberg". Archivado desde el original el 25 de enero de 2019. Consultado el 5 de febrero de 2019 .
  9. ^ "CANTOS Y LLAMADAS DE AVES CON ESPECTROGRAMAS (SONOGRAMAS) DEL SUR DE LA TOSCANA (Toscana – Italia)". www.birdsongs.it . Consultado el 7 de abril de 2018 .
  10. ^ Saunders, Frank A.; Hill, William A.; Franklin, Barbara (1 de diciembre de 1981). "Una ayuda sensorial táctil portátil para niños con sordera profunda". Journal of Medical Systems . 5 (4): 265–270. doi :10.1007/BF02222144. PMID  7320662. S2CID  26620843.
  11. ^ "Lectura de espectrogramas". ogi.edu . Archivado desde el original el 27 de abril de 1999 . Consultado el 7 de abril de 2018 .
  12. ^ "Praat: haciendo fonética por computadora". www.fon.hum.uva.nl . Consultado el 7 de abril de 2018 .
  13. ^ "El rostro de Aphex – bastwood". www.bastwood.com . Consultado el 7 de abril de 2018 .
  14. ^ "Comparaciones de SRC". src.infinitewave.ca . Consultado el 7 de abril de 2018 .
  15. ^ "constantwave.com – recursos e información de constantwave". www.constantwave.com . Consultado el 7 de abril de 2018 .
  16. ^ "Espectrogramas para analizadores de redes vectoriales". Archivado desde el original el 10 de agosto de 2012.
  17. ^ "Visualizaciones de espectrogramas en tiempo real". terremoto.usgs.gov . Consultado el 7 de abril de 2018 .
  18. ^ "IRIS: MUSTANG: Espectrograma de ruido: Docs: v. 1: Ayuda".
  19. ^ Geitgey, Adam (24 de diciembre de 2016). "El aprendizaje automático es divertido, parte 6: cómo hacer reconocimiento de voz con aprendizaje profundo". Medium . Consultado el 21 de marzo de 2018 .
  20. ^ Véase también Praat .
  21. ^ "El enorme estado de vigilancia de China sigue creciendo" . The Economist . 23 de noviembre de 2023. ISSN  0013-0613 . Consultado el 25 de noviembre de 2023 .
  22. ^ "¿Qué es un espectrograma?" . Consultado el 18 de diciembre de 2023 .
  23. ^ T., Arias-Vergara; P., Klumpp; JC, Vasquez-Correa; E., Nöth; JR, Orozco-Arroyave; M., Schuster (2021). "Espectrogramas multicanal para aplicaciones de procesamiento de voz utilizando métodos de aprendizaje profundo". Análisis de patrones y aplicaciones . 24 (2): 423–431. doi : 10.1007/s10044-020-00921-5 .
  24. ^ Jia, Yanjie; Chen, Xi; Yu, Jieqiong; Wang, Lianming; Xu, Yuanzhe; Liu, Shaojin; Wang, Yonghui (2021). "Reconocimiento de hablantes basado en espectrogramas característicos y una red neuronal de mapas de características autoorganizada mejorada". Sistemas complejos e inteligentes . 7 (4): 1749-1757. doi : 10.1007/s40747-020-00172-1 .
  25. ^ Yalamanchili, Arpitha; Madhumathi, GL; Balaji, N. (2022). "Análisis de espectrograma de señal de ECG y eficiencia de clasificación utilizando la técnica de extracción de características MFCC". Revista de inteligencia ambiental y computación humanizada . 13 (2): 757–767. doi :10.1007/s12652-021-02926-2. S2CID  233657057.
  26. ^ Ge, Junfeng; Wang, Li; Gui, Kang; Ye, Lin (30 de septiembre de 2023). "Método de interpretación de temperatura para pintura indicadora de temperatura basado en espectrograma". Medición . 219 . Código Bibliográfico :2023Meas..21913317G. doi :10.1016/j.measurement.2023.113317. S2CID  259871198.
  27. ^ Park, Cheolhyeong; Lee, Deokwoo (11 de febrero de 2022). "Clasificación de estados respiratorios mediante espectrograma con red neuronal convolucional". Applied Sciences . 12 (4): 1895. doi : 10.3390/app12041895 .

Enlaces externos