stringtranslate.com

Filtro de mínimos cuadrados medios

Los algoritmos de mínimos cuadrados medios ( LMS ) son una clase de filtro adaptativo que se utiliza para imitar un filtro deseado al encontrar los coeficientes de filtro que se relacionan con la producción del mínimo cuadrado medio de la señal de error (diferencia entre la señal deseada y la real). Es un método de descenso de gradiente estocástico en el que el filtro solo se adapta en función del error en el momento actual. Fue inventado en 1960 por el profesor de la Universidad de Stanford Bernard Widrow y su primer estudiante de doctorado, Ted Hoff , basándose en su investigación en redes neuronales de una sola capa ( ADALINE ). Específicamente, utilizaron el descenso de gradiente para entrenar a ADALINE para reconocer patrones, y llamaron al algoritmo " regla delta ". Luego aplicaron la regla a los filtros, lo que dio como resultado el algoritmo LMS.

Formulación del problema

La imagen muestra las distintas partes del filtro. es la señal de entrada, que luego se transforma mediante un filtro desconocido que deseamos igualar utilizando . La salida del filtro desconocido es , que luego se ve interferida por una señal de ruido , lo que produce . Luego se calcula la señal de error y se devuelve al filtro adaptativo para ajustar sus parámetros con el fin de minimizar el cuadrado medio de la señal de error .

Filtro LMS

Relación con el filtro de Wiener

La realización del filtro causal de Wiener se parece mucho a la solución de la estimación de mínimos cuadrados, excepto en el dominio del procesamiento de señales. La solución de mínimos cuadrados para la matriz de entrada y el vector de salida es

El filtro de mínimos cuadrados medios FIR está relacionado con el filtro de Wiener, pero la minimización del criterio de error del primero no depende de correlaciones cruzadas o autocorrelaciones. Su solución converge a la solución del filtro de Wiener. La mayoría de los problemas de filtrado adaptativo lineal se pueden formular utilizando el diagrama de bloques anterior. Es decir, se debe identificar un sistema desconocido y el filtro adaptativo intenta adaptar el filtro para que sea lo más cercano posible a , mientras que solo utiliza señales observables , y ; pero , y no son directamente observables. Su solución está estrechamente relacionada con el filtro de Wiener .

Definición de símbolos

es el número de la muestra de entrada actual
es el número de grifos de filtro
( Transposición hermítica o transposición conjugada )
filtro estimado; interpretar como la estimación de los coeficientes del filtro después de n muestras

Idea

La idea básica detrás del filtro LMS es acercarse a los pesos de filtro óptimos , actualizando los pesos de filtro de manera que converjan al peso de filtro óptimo. Esto se basa en el algoritmo de descenso de gradiente. El algoritmo comienza asumiendo pesos pequeños (cero en la mayoría de los casos) y, en cada paso, al encontrar el gradiente del error cuadrático medio, se actualizan los pesos. Es decir, si el gradiente MSE es positivo, implica que el error seguiría aumentando positivamente si se usa el mismo peso para iteraciones posteriores, lo que significa que necesitamos reducir los pesos. De la misma manera, si el gradiente es negativo, necesitamos aumentar los pesos. La ecuación de actualización de pesos es

donde representa el error cuadrático medio y es un coeficiente de convergencia.

El signo negativo muestra que bajamos la pendiente del error, para encontrar los pesos del filtro, , que minimizan el error.

El error cuadrático medio en función de los pesos de los filtros es una función cuadrática, lo que significa que solo tiene un extremo, que minimiza el error cuadrático medio, que es el peso óptimo. Por lo tanto, el LMS se acerca a estos pesos óptimos ascendiendo o descendiendo por la curva de error cuadrático medio en función del peso del filtro.

Derivación

La idea detrás de los filtros LMS es utilizar el descenso más pronunciado para encontrar pesos de filtro que minimicen una función de costo . Comenzamos definiendo la función de costo como

donde es el error en la muestra actual n y denota el valor esperado .

Esta función de costo ( ) es el error cuadrático medio y el LMS lo minimiza. De ahí el nombre del LMS. La aplicación del descenso más pronunciado implica tomar las derivadas parciales con respecto a las entradas individuales del vector de coeficientes de filtro (peso).

¿Dónde está el operador de gradiente?

Ahora, es un vector que apunta hacia el ascenso más pronunciado de la función de costo. Para encontrar el mínimo de la función de costo, necesitamos dar un paso en la dirección opuesta de . Para expresarlo en términos matemáticos

donde es el tamaño del paso (constante de adaptación). Esto significa que hemos encontrado un algoritmo de actualización secuencial que minimiza la función de costo. Desafortunadamente, este algoritmo no es realizable hasta que sepamos .

En general, no se calcula la expectativa anterior. En cambio, para ejecutar el LMS en un entorno en línea (que se actualiza después de recibir cada nueva muestra), utilizamos una estimación instantánea de esa expectativa. Vea a continuación.

Simplificaciones

Para la mayoría de los sistemas, la función de expectativa debe aproximarse. Esto se puede hacer con el siguiente estimador imparcial

donde indica el número de muestras que utilizamos para esa estimación. El caso más simple es

Para ese caso simple el algoritmo de actualización es el siguiente:

De hecho, esto constituye el algoritmo de actualización del filtro LMS.

Resumen del algoritmo LMS

El algoritmo LMS para un filtro de orden º se puede resumir como

Convergencia y estabilidad en la media

Como el algoritmo LMS no utiliza los valores exactos de las expectativas, los pesos nunca alcanzarían los pesos óptimos en sentido absoluto, pero es posible una convergencia en la media. Es decir, aunque los pesos puedan cambiar en pequeñas cantidades, cambian en torno a los pesos óptimos. Sin embargo, si la varianza con la que cambian los pesos es grande, la convergencia en la media sería engañosa. Este problema puede ocurrir si el valor del tamaño del paso no se elige correctamente.

Si se elige que sea grande, la cantidad con la que cambian los pesos depende en gran medida de la estimación del gradiente, y por lo tanto los pesos pueden cambiar en un valor grande, de modo que el gradiente que era negativo en el primer instante puede volverse positivo. Y en el segundo instante, el peso puede cambiar en la dirección opuesta en una gran cantidad debido al gradiente negativo y, por lo tanto, seguiría oscilando con una gran variación en torno a los pesos óptimos. Por otro lado, si se elige que sea demasiado pequeño, el tiempo para converger a los pesos óptimos será demasiado grande.

Por lo tanto, se necesita un límite superior que se da como ,

donde es el mayor valor propio de la matriz de autocorrelación . Si esta condición no se cumple, el algoritmo se vuelve inestable y diverge.

La velocidad máxima de convergencia se logra cuando

donde es el valor propio más pequeño de . Dado que es menor o igual que este óptimo, la velocidad de convergencia está determinada por , con un valor mayor que produce una convergencia más rápida. Esto significa que se puede lograr una convergencia más rápida cuando está cerca de , es decir, la velocidad de convergencia máxima alcanzable depende de la dispersión de valores propios de .

Una señal de ruido blanco tiene una matriz de autocorrelación donde es la varianza de la señal. En este caso, todos los valores propios son iguales y la dispersión de los valores propios es la mínima entre todas las matrices posibles. Por lo tanto, la interpretación común de este resultado es que el LMS converge rápidamente para las señales de entrada blancas y lentamente para las señales de entrada coloreadas, como los procesos con características de paso bajo o paso alto.

Es importante señalar que el límite superior anterior solo refuerza la estabilidad en la media, pero los coeficientes de aún pueden crecer infinitamente, es decir, la divergencia de los coeficientes aún es posible. Un límite más práctico es

donde denota la traza de . Este límite garantiza que los coeficientes de no diverjan (en la práctica, el valor de no debería elegirse cerca de este límite superior, ya que es algo optimista debido a las aproximaciones y suposiciones realizadas en la derivación del límite).

Filtro de mínimos cuadrados medios normalizados (NLMS)

El principal inconveniente del algoritmo LMS "puro" es que es sensible al escalamiento de su entrada . Esto hace que sea muy difícil (si no imposible) elegir una tasa de aprendizaje que garantice la estabilidad del algoritmo (Haykin 2002). El filtro de mínimos cuadrados medios normalizados (NLMS) es una variante del algoritmo LMS que resuelve este problema normalizando con la potencia de la entrada. El algoritmo NLMS se puede resumir de la siguiente manera:

Tasa de aprendizaje óptima

Se puede demostrar que si no hay interferencia ( ), entonces la tasa de aprendizaje óptima para el algoritmo NLMS es

y es independiente de la entrada y de la respuesta al impulso real (desconocida) . En el caso general con interferencia ( ), la tasa de aprendizaje óptima es

Los resultados anteriores suponen que las señales y no están correlacionadas entre sí, lo que generalmente es el caso en la práctica.

Prueba

Dejemos que la desalineación del filtro se defina como , y podemos derivar la desalineación esperada para la siguiente muestra como:

Dejar y

Suponiendo independencia, tenemos:

La tasa de aprendizaje óptima se encuentra en , lo que conduce a:

Véase también

Referencias

Enlaces externos