stringtranslate.com

Método de reasignación

Superficie espectral reasignada para el inicio de un tono de bajo acústico que tiene un punteo agudo y una frecuencia fundamental de aproximadamente 73,4 Hz. Se observan crestas espectrales agudas que representan los armónicos, así como el inicio abrupto del tono. El espectrograma se calculó utilizando una ventana Kaiser de 65,7 ms con un parámetro de modelado de 12.

El método de reasignación es una técnica para agudizar una representación de tiempo-frecuencia (por ejemplo, espectrograma o la transformada de Fourier de tiempo corto ) mediante el mapeo de los datos a coordenadas de tiempo-frecuencia que están más cerca de la verdadera región de soporte de la señal analizada. El método ha sido introducido de forma independiente por varias partes bajo varios nombres, incluidos método de reasignación , reasignación de tiempo-frecuencia y método de ventana móvil modificado . [1] El método de reasignación agudiza los datos borrosos de tiempo-frecuencia al reubicar los datos de acuerdo con estimaciones locales de frecuencia instantánea y retardo de grupo. Este mapeo a coordenadas de tiempo-frecuencia reasignadas es muy preciso para señales que son separables en tiempo y frecuencia con respecto a la ventana de análisis.

Introducción

Muchas señales de interés tienen una distribución de energía que varía en el tiempo y la frecuencia. Por ejemplo, cualquier señal de sonido que tenga un principio o un final tiene una distribución de energía que varía en el tiempo, y la mayoría de los sonidos presentan una variación considerable tanto en el tiempo como en la frecuencia a lo largo de su duración. Las representaciones de tiempo-frecuencia se utilizan comúnmente para analizar o caracterizar dichas señales. Representan la señal unidimensional del dominio del tiempo en una función bidimensional de tiempo y frecuencia. Una representación de tiempo-frecuencia describe la variación de la distribución de energía espectral a lo largo del tiempo, de forma muy similar a como una partitura musical describe la variación del tono musical a lo largo del tiempo.

En el análisis de señales de audio, el espectrograma es la representación tiempo-frecuencia más utilizada, probablemente porque se entiende bien y es inmune a los llamados "términos cruzados" que a veces dificultan la interpretación de otras representaciones tiempo-frecuencia. Pero la operación de ventana requerida en el cálculo del espectrograma introduce un desagradable equilibrio entre la resolución temporal y la resolución frecuencial, por lo que los espectrogramas proporcionan una representación tiempo-frecuencia que está borrosa en el tiempo, en la frecuencia o en ambas dimensiones. El método de reasignación tiempo-frecuencia es una técnica para reenfocar los datos tiempo-frecuencia en una representación borrosa como el espectrograma mediante el mapeo de los datos a coordenadas tiempo-frecuencia que están más cerca de la verdadera región de soporte de la señal analizada. [2]

El espectrograma como representación tiempo-frecuencia

Una de las representaciones de tiempo-frecuencia más conocidas es el espectrograma, definido como la magnitud al cuadrado de la transformada de Fourier de corta duración. Aunque se sabe que el espectro de fase de corta duración contiene información temporal importante sobre la señal, esta información es difícil de interpretar, por lo que, por lo general, solo se considera el espectro de magnitud de corta duración en el análisis espectral de corta duración. [2]

Como representación de tiempo-frecuencia, el espectrograma tiene una resolución relativamente pobre. La resolución de tiempo y frecuencia está determinada por la elección de la ventana de análisis y una mayor concentración en un dominio se acompaña de una mayor dispersión en el otro. [2]

Una representación de tiempo-frecuencia que tiene una resolución mejorada, en relación con el espectrograma, es la distribución de Wigner-Ville , que puede interpretarse como una transformada de Fourier de tiempo corto con una función de ventana que se adapta perfectamente a la señal. La distribución de Wigner-Ville está altamente concentrada en tiempo y frecuencia, pero también es altamente no lineal y no local. En consecuencia, esta distribución es muy sensible al ruido y genera componentes cruzados que a menudo enmascaran los componentes de interés, lo que dificulta la extracción de información útil sobre la distribución de energía en señales de múltiples componentes. [2]

La clase de representaciones bilineales de tiempo-frecuencia de Cohen es una clase de distribuciones de Wigner-Ville "suavizadas", que emplean un núcleo de suavizado que puede reducir la sensibilidad de la distribución al ruido y suprime los componentes cruzados, a expensas de emborronar la distribución en tiempo y frecuencia. Este emborronamiento hace que la distribución sea distinta de cero en regiones donde la verdadera distribución de Wigner-Ville no muestra energía. [2]

El espectrograma es un miembro de la clase de Cohen. Es una distribución de Wigner-Ville suavizada con el núcleo de suavizado igual a la distribución de Wigner-Ville de la ventana de análisis. El método de reasignación suaviza la distribución de Wigner-Ville, pero luego reenfoca la distribución de nuevo a las verdaderas regiones de soporte de los componentes de la señal. Se ha demostrado que el método reduce la distorsión de tiempo y frecuencia de cualquier miembro de la clase de Cohen. [2] [3] En el caso del espectrograma reasignado, el espectro de fase de tiempo corto se utiliza para corregir las coordenadas de tiempo y frecuencia nominales de los datos espectrales y mapearlo de nuevo más cerca de las verdaderas regiones de soporte de la señal analizada.

El método de reasignación

Un trabajo pionero sobre el método de reasignación fue publicado por Kodera, Gendrin y de Villedary bajo el nombre de Método de Ventana Móvil Modificado . [4] Su técnica mejora la resolución en tiempo y frecuencia del Método de Ventana Móvil clásico (equivalente al espectrograma) al asignar a cada punto de datos una nueva coordenada de tiempo-frecuencia que refleja mejor la distribución de energía en la señal analizada. [4] : 67 

En el método clásico de ventana móvil, una señal del dominio del tiempo se descompone en un conjunto de coeficientes, , basado en un conjunto de señales elementales, , definidas [4] : 73 

donde es una función kernel de paso bajo (de valor real), como la función de ventana en la transformada de Fourier de tiempo corto. Los coeficientes en esta descomposición están definidos

donde es la magnitud y la fase de , la transformada de Fourier de la señal desplazada en el tiempo por y en ventana por . [5] : 4 

se puede reconstruir a partir de los coeficientes de la ventana móvil mediante [5] : 8 

Para señales que tienen espectros de magnitud, , cuya variación temporal es lenta en relación con la variación de fase, la contribución máxima a la integral de reconstrucción proviene de la proximidad del punto que satisface la condición de estacionariedad de fase [4] : 74 

o equivalentemente, alrededor del punto definido por [4] : 74 

Este fenómeno se conoce en campos como la óptica como el principio de fase estacionaria , que establece que para señales periódicas o cuasiperiódicas, la variación del espectro de fase de Fourier no atribuible a la oscilación periódica es lenta con respecto al tiempo en la proximidad de la frecuencia de oscilación, y en las regiones circundantes la variación es relativamente rápida. Análogamente, para señales impulsivas, que están concentradas en el tiempo, la variación del espectro de fase es lenta con respecto a la frecuencia cerca del momento del impulso, y en las regiones circundantes la variación es relativamente rápida. [4] : 73 

En la reconstrucción, las contribuciones positivas y negativas a la forma de onda sintetizada se cancelan, debido a la interferencia destructiva, en las regiones de frecuencia de variación de fase rápida. Solo las regiones de variación de fase lenta (fase estacionaria) contribuirán significativamente a la reconstrucción, y la contribución máxima (centro de gravedad) ocurre en el punto donde la fase cambia más lentamente con respecto al tiempo y la frecuencia. [4] : 71 

Las coordenadas de tiempo-frecuencia así calculadas son iguales al retardo de grupo local y a la frecuencia instantánea local, y se calculan a partir de la fase de la transformada de Fourier de corta duración, que normalmente se ignora al construir el espectrograma. Estas cantidades son locales en el sentido de que representan una señal en ventana y filtrada que está localizada en el tiempo y la frecuencia, y no son propiedades globales de la señal en análisis. [4] : 70 

El método de ventana móvil modificado, o método de reasignación, cambia (reasigna) el punto de atribución de a este punto de máxima contribución , en lugar de al punto en el que se calcula. Este punto a veces se denomina centro de gravedad de la distribución, a modo de analogía con una distribución de masa. Esta analogía es un recordatorio útil de que la atribución de energía espectral al centro de gravedad de su distribución solo tiene sentido cuando hay energía para atribuir, por lo que el método de reasignación no tiene sentido en los puntos donde el espectrograma tiene valor cero. [2]

Cálculo eficiente de tiempos y frecuencias reasignados

En el procesamiento de señales digitales, lo más común es muestrear los dominios de tiempo y frecuencia. La transformada de Fourier discreta se utiliza para calcular muestras de la transformada de Fourier a partir de muestras de una señal del dominio de tiempo. Las operaciones de reasignación propuestas por Kodera et al. no se pueden aplicar directamente a los datos de la transformada de Fourier discreta de tiempo corto, porque las derivadas parciales no se pueden calcular directamente en datos que son discretos en tiempo y frecuencia, y se ha sugerido que esta dificultad ha sido la principal barrera para un uso más amplio del método de reasignación.

Es posible aproximar las derivadas parciales utilizando diferencias finitas. Por ejemplo, el espectro de fase se puede evaluar en dos momentos cercanos y la derivada parcial con respecto al tiempo se puede aproximar como la diferencia entre los dos valores dividida por la diferencia de tiempo, como en

Para valores suficientemente pequeños de y y siempre que la diferencia de fase esté "desenrollada" adecuadamente, este método de diferencias finitas produce buenas aproximaciones a las derivadas parciales de la fase, porque en regiones del espectro en las que la evolución de la fase está dominada por la rotación debida a la oscilación sinusoidal de un único componente cercano, la fase es una función lineal.

Independientemente de Kodera et al. , Nelson llegó a un método similar para mejorar la precisión de tiempo-frecuencia de datos espectrales de tiempo corto a partir de derivadas parciales del espectro de fase de tiempo corto. [6] Se demuestra fácilmente que las superficies espectrales cruzadas de Nelson calculan una aproximación de las derivadas que es equivalente al método de diferencias finitas.

Auger y Flandrin demostraron que el método de reasignación, propuesto en el contexto del espectrograma por Kodera et al., podría extenderse a cualquier miembro de la clase de representaciones de tiempo-frecuencia de Cohen generalizando las operaciones de reasignación a

donde es la distribución de Wigner–Ville de , y es la función kernel que define la distribución. Además, describieron un método eficiente para calcular los tiempos y frecuencias para el espectrograma reasignado de manera eficiente y precisa sin calcular explícitamente las derivadas parciales de fase. [2]

En el caso del espectrograma, las operaciones de reasignación se pueden calcular mediante

donde es la transformada de Fourier de corto tiempo calculada utilizando una ventana de análisis es la transformada de Fourier de corto tiempo calculada utilizando una ventana de análisis ponderada en el tiempo y es la transformada de Fourier de corto tiempo calculada utilizando una ventana de análisis derivada del tiempo .

Utilizando las funciones de ventana auxiliares y , las operaciones de reasignación se pueden calcular en cualquier coordenada de tiempo-frecuencia a partir de una combinación algebraica de tres transformadas de Fourier evaluadas en . Dado que estos algoritmos operan solo en datos espectrales de tiempo corto evaluados en un solo tiempo y frecuencia, y no calculan explícitamente ninguna derivada, esto proporciona un método eficiente para calcular la transformada de Fourier de tiempo corto discreta reasignada.

Una restricción de este método de cálculo es que debe ser distinto de cero. Esto no es una gran restricción, ya que la operación de reasignación en sí misma implica que hay cierta energía para reasignar y no tiene sentido cuando la distribución tiene un valor cero.

Posibilidad de separación

La transformada de Fourier de corta duración se puede utilizar a menudo para estimar las amplitudes y fases de los componentes individuales en una señal de múltiples componentes , como el tono cuasi armónico de un instrumento musical. Además, las operaciones de reasignación de tiempo y frecuencia se pueden utilizar para afinar la representación al atribuir la energía espectral informada por la transformada de Fourier de corta duración al punto que es el centro de gravedad local de la distribución de energía compleja. [7]

Para una señal que consta de un solo componente, la frecuencia instantánea se puede estimar a partir de las derivadas parciales de fase de cualquier canal de transformada de Fourier de corta duración que pase por el componente. Si la señal se va a descomponer en muchos componentes,

y la frecuencia instantánea de cada componente se define como la derivada de su fase con respecto al tiempo, es decir,

Luego, la frecuencia instantánea de cada componente individual se puede calcular a partir de la fase de la respuesta de un filtro que pasa ese componente, siempre que no más de un componente se encuentre en la banda de paso del filtro.

Esta es la propiedad, en el dominio de la frecuencia, que Nelson llamó separabilidad [6] y que se requiere de todas las señales analizadas de esta manera. Si esta propiedad no se cumple, entonces no se puede lograr la descomposición multicomponente deseada, porque los parámetros de los componentes individuales no se pueden estimar a partir de la transformada de Fourier de tiempo corto. En tales casos, se debe elegir una ventana de análisis diferente para que se cumpla el criterio de separabilidad.

Si los componentes de una señal son separables en frecuencia con respecto a una ventana particular de análisis espectral de corta duración, entonces la salida de cada filtro de transformada de Fourier de corta duración es una versión filtrada de, como máximo, un único componente dominante (que tiene una energía significativa), y por lo tanto la derivada, con respecto al tiempo, de la fase de la es igual a la derivada con respecto al tiempo, de la fase del componente dominante en Por lo tanto, si un componente, que tiene una frecuencia instantánea , es el componente dominante en la proximidad de entonces la frecuencia instantánea de ese componente se puede calcular a partir de la fase de la transformada de Fourier de corta duración evaluada en Es decir,


Así como cada filtro de paso de banda en el banco de filtros de transformada de Fourier de tiempo corto puede pasar como máximo un único componente exponencial complejo, dos eventos temporales deben estar suficientemente separados en el tiempo para que no se encuentren en el mismo segmento de ventana de la señal de entrada. Esta es la propiedad de separabilidad en el dominio del tiempo, y es equivalente a requerir que el tiempo entre dos eventos sea mayor que la longitud de la respuesta al impulso de los filtros de transformada de Fourier de tiempo corto, el lapso de muestras no nulas en

En general, existe un número infinito de descomposiciones igualmente válidas para una señal multicomponente. La propiedad de separabilidad debe considerarse en el contexto de la descomposición deseada. Por ejemplo, en el análisis de una señal de voz, una ventana de análisis que sea larga en relación con el tiempo entre pulsos glóticos es suficiente para separar armónicos, pero los pulsos glóticos individuales se difuminan, porque muchos pulsos están cubiertos por cada ventana (es decir, los pulsos individuales no son separables, en el tiempo, por la ventana de análisis elegida). Una ventana de análisis que sea mucho más corta que el tiempo entre pulsos glóticos puede resolver los pulsos glóticos, porque ninguna ventana abarca más de un pulso, pero las frecuencias armónicas se difuminan juntas, porque el lóbulo principal del espectro de la ventana de análisis es más ancho que el espaciamiento entre los armónicos (es decir, los armónicos no son separables, en frecuencia, por la ventana de análisis elegida). [6] : 2585 

Extensiones

Reasignación compleja por consenso

Gardner y Magnasco (2006) sostienen que los nervios auditivos pueden utilizar una forma del método de reasignación para procesar sonidos. Estos nervios son conocidos por preservar la información de tiempo (fase) mejor que la de magnitudes. Los autores proponen una variación de la reasignación con valores complejos (es decir, tanto fase como magnitud) y demuestran que produce resultados dispersos como los que producen los nervios auditivos. Al ejecutar esta reasignación con ventanas de diferentes anchos de banda (véase la discusión en la sección anterior), se encuentra un "consenso" que captura múltiples tipos de señales, nuevamente como el sistema auditivo. Argumentan que el algoritmo es lo suficientemente simple como para que lo implementen las neuronas. [8]

Transformación de compresión sincronizada

[9]

Referencias

  1. ^ Hainsworth, Stephen (2003). "Capítulo 3: Métodos de reasignación". Técnicas para el análisis automatizado de audio musical (PhD). Universidad de Cambridge. CiteSeerX  10.1.1.5.9579 .
  2. ^ abcdefgh F. Auger y P. Flandrin (mayo de 1995). "Mejora de la legibilidad de las representaciones de tiempo-frecuencia y escala de tiempo mediante el método de reasignación". IEEE Transactions on Signal Processing . 43 (5): 1068–1089. Bibcode :1995ITSP...43.1068A. CiteSeerX 10.1.1.646.794 . doi :10.1109/78.382394. S2CID  6336685. 
  3. ^ P. Flandrin, F. Auger y E. Chassande-Mottin, Reasignación de tiempo-frecuencia: de principios a algoritmos , en Aplicaciones en procesamiento de señales de tiempo-frecuencia (A. Papandreou-Suppappola, ed.), cap. 5, págs. 179-203, CRC Press, 2003.
  4. ^ abcdefgh K. Kodera; R. Gendrin y C. de Villedary (febrero de 1978). "Análisis de señales que varían en el tiempo con valores BT pequeños". IEEE Transactions on Acoustics, Speech, and Signal Processing . 26 (1): 64–76. doi :10.1109/TASSP.1978.1163047.
  5. ^ ab Fitz, Kelly R.; Fulop, Sean A. (2009). "Una teoría unificada de reasignación de tiempo-frecuencia". arXiv : 0903.3080 [cs.SD].– este manuscrito preimpreso fue escrito por un colaborador anterior de este artículo de Wikipedia; vea su contribución .
  6. ^ abc DJ Nelson (noviembre de 2001). "Métodos transespectrales para el procesamiento del habla". Revista de la Sociedad Acústica de América . 110 (5): 2575–2592. Bibcode :2001ASAJ..110.2575N. doi :10.1121/1.1402616. PMID  11757947.
  7. ^ K. Fitz, L. Haken, Sobre el uso de la reasignación de tiempo-frecuencia en el modelado aditivo de sonido, Journal of the Audio Engineering Society 50 (11) (2002) 879 – 893.
  8. ^ Gardner, Timothy J.; Magnasco, Marcelo O. (18 de abril de 2006). "Representaciones dispersas de tiempo-frecuencia". Actas de la Academia Nacional de Ciencias . 103 (16): 6094–6099. Bibcode :2006PNAS..103.6094G. doi : 10.1073/pnas.0601707103 . PMC 1431718 . PMID  16601097. 
  9. ^ Meignen, Sylvain; Oberlin, Thomas; Pham, Duong-Hung (julio de 2019). "Transformaciones de compresión sincronizada: de modulaciones de baja a alta frecuencia y perspectivas". Comptes Rendus Physique . 20 (5): 449–460. Bibcode :2019CRPhy..20..449M. doi :10.1016/j.crhy.2019.07.001.

Lectura adicional

Enlaces externos