Error cuadrático medio mínimo

En estadística y procesamiento de señales , un estimador de error cuadrático medio mínimo ( MMSE ) es un método de estimación que minimiza el error cuadrático medio (MSE), que es una medida común de la calidad del estimador, de los valores ajustados de una variable dependiente . En el entorno bayesiano , el término MMSE se refiere más específicamente a la estimación con función de pérdida cuadrática . En tal caso, el estimador MMSE viene dado por la media posterior del parámetro a estimar. Dado que la media posterior es complicada de calcular, la forma del estimador MMSE suele estar restringida a estar dentro de una determinada clase de funciones. Los estimadores lineales MMSE son una opción popular porque son fáciles de usar, fáciles de calcular y muy versátiles. Ha dado lugar a muchos estimadores populares, como el filtro de Wiener-Kolmogorov y el filtro de Kalman .

Motivación

El término MMSE se refiere más específicamente a la estimación en un entorno bayesiano con función de costos cuadrática. La idea básica detrás del enfoque bayesiano de estimación surge de situaciones prácticas en las que a menudo tenemos información previa sobre el parámetro que se va a estimar. Por ejemplo, podemos tener información previa sobre el rango que puede asumir el parámetro; o podemos tener una estimación antigua del parámetro que queremos modificar cuando esté disponible una nueva observación; o las estadísticas de una señal aleatoria real como el habla. Esto contrasta con el enfoque no bayesiano como el estimador insesgado de varianza mínima (MVUE), donde se supone que no se sabe absolutamente nada sobre el parámetro de antemano y que no tiene en cuenta tales situaciones. En el enfoque bayesiano, dicha información previa es capturada por la función de densidad de probabilidad previa de los parámetros; y basado directamente en el teorema de Bayes , nos permite hacer mejores estimaciones posteriores a medida que haya más observaciones disponibles. Así, a diferencia del enfoque no bayesiano, donde se supone que los parámetros de interés son deterministas pero constantes desconocidas, el estimador bayesiano busca estimar un parámetro que es en sí mismo una variable aleatoria. Además, la estimación bayesiana también puede abordar situaciones en las que la secuencia de observaciones no es necesariamente independiente. Por tanto, la estimación bayesiana proporciona otra alternativa al MVUE. Esto es útil cuando el MVUE no existe o no se puede encontrar.

Definición

Sea una variable vectorial aleatoria oculta y una variable vectorial aleatoria conocida (la medición u observación), ambas no necesariamente de la misma dimensión. Un estimador de es cualquier función de la medida . El vector de error de estimación está dado por y su error cuadrático medio (MSE) está dado por la matriz de covarianza de traza de error $x$ $n\veces 1$ $y$ $m\veces 1$ ${\sombrero {x}}(y)$ $x$ $y$ $e={\hat {x}}-x$

\operatorname {MSE} =\operatorname {tr} \left\{\operatorname {E} \{({\hat {x}}-x)({\hat {x}}-x)^{T }\}\right\}=\operatorname {E} \{({\hat {x}}-x)^{T}({\hat {x}}-x)\},

donde la expectativa se asume condicionada a . Cuando es una variable escalar, la expresión MSE se simplifica a . Tenga en cuenta que MSE se puede definir de manera equivalente de otras maneras, ya que $\operatorname {E}$ $x$ $y$ $x$ $\operatorname {E} \left\{({\hat {x}}-x)^{2}\right\}$

\operatorname {tr} \left\{\operatorname {E} \{ee^{T}\}\right\}=\operatorname {E} \left\{\operatorname {tr} \{ee^{ T}\}\right\}=\operatorname {E} \{e^{T}e\}=\sum _{i=1}^{n}\operatorname {E} \{e_{i}^{ 2}\}.

El estimador MMSE se define entonces como el estimador que logra un MSE mínimo:

{\hat {x}}_{\operatorname {MMSE} }(y)=\operatorname {argmin} _{\hat {x}}\operatorname {MSE}.

Propiedades

Cuando las medias y varianzas son finitas, el estimador MMSE se define de forma única ^[1] y viene dado por:

{\hat {x}}_{\operatorname {MMSE} }(y)=\operatorname {E} \{x\mid y\}.

En otras palabras, el estimador MMSE es la expectativa condicional de dado el valor observado conocido de las mediciones. Además, como es la media posterior, la matriz de covarianza del error es igual a la matriz de covarianza posterior ,

x

{\hat {x}}_{\mathrm {MMSE} }

C_{e}=\operatorname {E} \{({\hat {x}}-x)({\hat {x}}-x)^{T}\}

C_{X|Y}

C_{e}=C_{X|Y}

El estimador MMSE es insesgado (bajo los supuestos de regularidad mencionados anteriormente):

\operatorname {E} \{{\hat {x}}_{\operatorname {MMSE} }(y)\}=\operatorname {E} \{\operatorname {E} \{x\mid y\ }\}=\nombre del operador {E} \{x\}.

El estimador MMSE es asintóticamente insesgado y converge en distribución a la distribución normal:

{\sqrt {n}}({\hat {x}}_{\operatorname {MMSE} }-x)\xrightarrow {d} {\mathcal {N}}\left(0,I^{- 1}(x)\derecha),

¿Dónde está la información de Fisher de ? Por tanto, el estimador MMSE es asintóticamente eficiente .

I(x)

x

El principio de ortogonalidad : cuando es un escalar, un estimador obligado a ser de cierta forma es un estimador óptimo, es decir, si y sólo si $x$ ${\sombrero {x}}=g(y)$ ${\hat {x}}_{\operatorname {MMSE} }=g^{*}(y),$

\operatorname {E} \{({\hat {x}}_{\operatorname {MMSE} }-x)g(y)\}=0

para todos en el subespacio lineal cerrado de las medidas. Para vectores aleatorios, dado que el MSE para la estimación de un vector aleatorio es la suma de los MSE de las coordenadas, encontrar el estimador MMSE de un vector aleatorio se descompone en encontrar los estimadores MMSE de las coordenadas de X por separado:

g(y)

{\mathcal {V}}=\{g(y)\mid g:\mathbb {R} ^{m}\rightarrow \mathbb {R} ,\operatorname {E} \{g(y)^ {2}\}<+\infty \}

\operatorname {E} \{(g_{i}^{*}(y)-x_{i})g_{j}(y)\}=0,

para todo i y j . Dicho de manera más sucinta, la correlación cruzada entre el error mínimo de estimación y el estimador debería ser cero,

{\hat {x}}_{\operatorname {MMSE} }-x

{\sombrero {x}}

\operatorname {E} \{({\hat {x}}_{\operatorname {MMSE} }-x){\hat {x}}^{T}\}=0.

Si y son conjuntamente gaussianos , entonces el estimador MMSE es lineal, es decir, tiene la forma de matriz y constante . Esto se puede demostrar directamente utilizando el teorema de Bayes. En consecuencia, para encontrar el estimador MMSE, es suficiente encontrar el estimador lineal MMSE. $x$ $y$ $Wy+b$ $W$ $b$

Estimador lineal MMSE

En muchos casos, no es posible determinar la expresión analítica del estimador MMSE. Dos enfoques numéricos básicos para obtener la estimación del MMSE dependen de encontrar la expectativa condicional o encontrar los mínimos del MSE. La evaluación numérica directa de la expectativa condicional es costosa desde el punto de vista computacional ya que a menudo requiere una integración multidimensional que generalmente se realiza mediante métodos de Monte Carlo . Otro enfoque computacional es buscar directamente los mínimos del MSE utilizando técnicas como los métodos de descenso de gradiente estocástico ; pero este método aún requiere la evaluación de las expectativas. Si bien estos métodos numéricos han sido fructíferos, es posible obtener una expresión en forma cerrada para el estimador MMSE si estamos dispuestos a hacer algunas concesiones. $\operatorname {E} \{x\mid y\}$

Una posibilidad es abandonar todos los requisitos de optimización y buscar una técnica que minimice el MSE dentro de una clase particular de estimadores, como la clase de estimadores lineales. Así, postulamos que la expectativa condicional de dado es una función lineal simple de , donde la medida es un vector aleatorio, es una matriz y es un vector. Esto puede verse como la aproximación de Taylor de primer orden . El estimador lineal MMSE es el estimador que alcanza el MSE mínimo entre todos los estimadores de dicha forma. Es decir, resuelve el siguiente problema de optimización: $x$ $y$ $y$ $\operatorname {E} \{x\mid y\}=Wy+b$ $y$ $W$ $b$ $\operatorname {E} \{x\mid y\}$

\min _{W,b}\operatorname {MSE} \qquad {\text{st}}\qquad {\hat {x}}=Wy+b.

Una ventaja de este estimador lineal MMSE es que no es necesario calcular explícitamente la función de densidad de probabilidad posterior de . Dicho estimador lineal sólo depende de los dos primeros momentos de y . Entonces, aunque puede ser conveniente suponer que y son conjuntamente gaussianos, no es necesario hacer esta suposición, siempre y cuando la distribución supuesta tenga momentos primero y segundo bien definidos. La forma del estimador lineal no depende del tipo de distribución subyacente supuesta. $x$ $x$ $y$ $x$ $y$

La expresión para óptimo y viene dada por: $b$ $W$

b={\bar {x}}-W{\bar {y}},

W=C_{XY}C_{Y}^{-1}.

donde , la matriz de covarianza cruzada entre y , la matriz de autocovarianza de . ${\bar {x}}=\operatorname {E} \{x\}$ ${\bar {y}}=\operatorname {E} \{y\},$ $C_{XY}$ $x$ $y$ $C_{Y}$ $y$

Así, la expresión del estimador lineal MMSE, su media y su autocovarianza viene dada por

{\hat {x}}=C_{XY}C_{Y}^{-1}(y-{\bar {y}})+{\bar {x}},

\operatorname {E} \{{\hat {x}}\}={\bar {x}},

C_{\hat {X}}=C_{XY}C_{Y}^{-1}C_{YX},

donde es la matriz de covarianza cruzada entre y . $C_{YX}$ $y$ $x$

Por último, la covarianza del error y el error cuadrático medio mínimo alcanzable por dicho estimador es

C_{e}=C_{X}-C_{\hat {X}}=C_{X}-C_{XY}C_{Y}^{-1}C_{YX},

\operatorname {LMMSE} =\operatorname {tr} \{C_{e}\}.

Derivación utilizando el principio de ortogonalidad.

Tengamos el estimador MMSE lineal óptimo dado como , donde debemos encontrar la expresión para y . Se requiere que el estimador MMSE sea insesgado. Esto significa, ${\hat {x}}=Wy+b$ $W$ $b$

\operatorname {E} \{{\hat {x}}\}=\operatorname {E} \{x\}.

Sustituyendo la expresión anterior , obtenemos ${\hat {x}}$

b={\bar {x}}-W{\bar {y}},

dónde y . Por lo tanto podemos reescribir el estimador como ${\bar {x}}=\operatorname {E} \{x\}$ ${\bar {y}}=\operatorname {E} \{y\}$

{\hat {x}}=W(y-{\bar {y}})+{\bar {x}}

y la expresión para el error de estimación se convierte en

{\hat {x}}-x=W(y-{\bar {y}})-(x-{\bar {x}}).

Desde el principio de ortogonalidad, podemos tener , donde tomamos . Aquí el término del lado izquierdo es $\operatorname {E} \{({\hat {x}}-x)(y-{\bar {y}})^{T}\}=0$ $g(y)=y-{\bar {y}}$

{\begin{aligned}\operatorname {E} \{({\hat {x}}-x)(y-{\bar {y}})^{T}\}&=\operatorname {E} \{(W(y-{\bar {y}})-(x-{\bar {x}}))(y-{\bar {y}})^{T}\}\\&=W\operatorname {E} \{(y-{\bar {y}})(y-{\bar {y}})^{T}\}-\operatorname {E} \{(x-{\bar {x}})(y-{\bar {y}})^{T}\}\\&=WC_{Y}-C_{XY}.\end{aligned}}

Cuando se equipara a cero, obtenemos la expresión deseada para como $W$

W=C_{XY}C_{Y}^{-1}.

La matriz de covarianza cruzada entre X e Y, y la matriz de autocovarianza de Y. Dado que , la expresión también se puede reescribir en términos de como $C_{XY}$ $C_{Y}$ $C_{XY}=C_{YX}^{T}$ $C_{YX}$

W^{T}=C_{Y}^{-1}C_{YX}.

Por tanto, la expresión completa para el estimador lineal MMSE es

{\hat {x}}=C_{XY}C_{Y}^{-1}(y-{\bar {y}})+{\bar {x}}.

Dado que la estimación es en sí misma una variable aleatoria con , también podemos obtener su autocovarianza como ${\hat {x}}$ $\operatorname {E} \{{\hat {x}}\}={\bar {x}}$

{\begin{aligned}C_{\hat {X}}&=\operatorname {E} \{({\hat {x}}-{\bar {x}})({\hat {x}}-{\bar {x}})^{T}\}\\&=W\operatorname {E} \{(y-{\bar {y}})(y-{\bar {y}})^{T}\}W^{T}\\&=WC_{Y}W^{T}.\\\end{aligned}}

Poniendo la expresión para y obtenemos $W$ $W^{T}$

C_{\hat {X}}=C_{XY}C_{Y}^{-1}C_{YX}.

Por último, la covarianza del error de estimación lineal del MMSE vendrá dada por

{\begin{aligned}C_{e}&=\operatorname {E} \{({\hat {x}}-x)({\hat {x}}-x)^{T}\}\\&=\operatorname {E} \{({\hat {x}}-x)(W(y-{\bar {y}})-(x-{\bar {x}}))^{T}\}\\&=\underbrace {\operatorname {E} \{({\hat {x}}-x)(y-{\bar {y}})^{T}\}} _{0}W^{T}-\operatorname {E} \{({\hat {x}}-x)(x-{\bar {x}})^{T}\}\\&=-\operatorname {E} \{(W(y-{\bar {y}})-(x-{\bar {x}}))(x-{\bar {x}})^{T}\}\\&=\operatorname {E} \{(x-{\bar {x}})(x-{\bar {x}})^{T}\}-W\operatorname {E} \{(y-{\bar {y}})(x-{\bar {x}})^{T}\}\\&=C_{X}-WC_{YX}.\end{aligned}}

El primer término de la tercera línea es cero debido al principio de ortogonalidad. Dado que , podemos reescribir en términos de matrices de covarianza como $W=C_{XY}C_{Y}^{-1}$ $C_{e}$

C_{e}=C_{X}-C_{XY}C_{Y}^{-1}C_{YX}.

Podemos reconocer que esto es lo mismo que Por lo tanto, el error cuadrático medio mínimo que se puede lograr con un estimador lineal de este tipo es $C_{e}=C_{X}-C_{\hat {X}}.$

\operatorname {LMMSE} =\operatorname {tr} \{C_{e}\}

Caso univariado

Para el caso especial en el que ambos y son escalares, las relaciones anteriores se simplifican a $x$ $y$

{\hat {x}}={\frac {\sigma _{XY}}{\sigma _{Y}^{2}}}(y-{\bar {y}})+{\bar {x}}=\rho {\frac {\sigma _{X}}{\sigma _{Y}}}(y-{\bar {y}})+{\bar {x}},

\sigma _{e}^{2}=\sigma _{X}^{2}-{\frac {\sigma _{XY}^{2}}{\sigma _{Y}^{2}}}=(1-\rho ^{2})\sigma _{X}^{2},

donde es el coeficiente de correlación de Pearson entre y . $\rho ={\frac {\sigma _{XY}}{\sigma _{X}\sigma _{Y}}}$ $x$ $y$

Las dos ecuaciones anteriores nos permiten interpretar el coeficiente de correlación como pendiente normalizada de regresión lineal

\left({\frac {{\hat {x}}-{\bar {x}}}{\sigma _{X}}}\right)=\rho \left({\frac {y-{\bar {y}}}{\sigma _{Y}}}\right)

o como raíz cuadrada de la relación de dos varianzas

\rho ^{2}={\frac {\sigma _{X}^{2}-\sigma _{e}^{2}}{\sigma _{X}^{2}}}={\frac {\sigma _{\hat {X}}^{2}}{\sigma _{X}^{2}}}

Cuando , tenemos y . En este caso, no se obtiene nueva información de la medición que pueda disminuir la incertidumbre en . Por otro lado, cuando tenemos y . Aquí está completamente determinado por , dado por la ecuación de la línea recta. $\rho =0$ ${\hat {x}}={\bar {x}}$ $\sigma _{e}^{2}=\sigma _{X}^{2}$ $x$ $\rho =\pm 1$ ${\hat {x}}={\frac {\sigma _{XY}}{\sigma _{Y}}}(y-{\bar {y}})+{\bar {x}}$ $\sigma _{e}^{2}=0$ $x$ $y$

Cálculo

Se puede utilizar un método estándar como la eliminación de Gauss para resolver la ecuación matricial . Un método numéricamente más estable lo proporciona el método de descomposición QR . Dado que la matriz es una matriz definida positiva simétrica, se puede resolver dos veces más rápido con la descomposición de Cholesky , mientras que para sistemas dispersos grandes el método del gradiente conjugado es más efectivo. La recursión de Levinson es un método rápido cuando también es una matriz de Toeplitz . Esto puede suceder cuando se trata de un proceso estacionario en sentido amplio . En estos casos estacionarios, estos estimadores también se denominan filtros de Wiener-Kolmogorov . $W$ $C_{Y}$ $W$ $C_{Y}$ $y$

Estimador lineal MMSE para proceso de observación lineal

Modelemos aún más el proceso subyacente de observación como un proceso lineal: , donde es una matriz conocida y es un vector de ruido aleatorio con la media y la covarianza cruzada . Aquí la media requerida y las matrices de covarianza serán $y=Ax+z$ $A$ $z$ $\operatorname {E} \{z\}=0$ $C_{XZ}=0$

\operatorname {E} \{y\}=A{\bar {x}},

C_{Y}=AC_{X}A^{T}+C_{Z},

C_{XY}=C_{X}A^{T}.

Por lo tanto, la expresión de la matriz del estimador lineal MMSE se modifica aún más para $W$

W=C_{X}A^{T}(AC_{X}A^{T}+C_{Z})^{-1}.

Poniendo todo en la expresión para , obtenemos ${\hat {x}}$

{\hat {x}}=C_{X}A^{T}(AC_{X}A^{T}+C_{Z})^{-1}(y-A{\bar {x}})+{\bar {x}}.

Por último, la covarianza del error es

C_{e}=C_{X}-C_{\hat {X}}=C_{X}-C_{X}A^{T}(AC_{X}A^{T}+C_{Z})^{-1}AC_{X}.

La diferencia significativa entre el problema de estimación tratado anteriormente y los de mínimos cuadrados y la estimación de Gauss-Markov es que el número de observaciones m , (es decir, la dimensión de ) no necesita ser al menos tan grande como el número de incógnitas, n , (es decir, la dimensión de ). La estimación del proceso de observación lineal existe mientras exista la matriz m por m ; este es el caso para cualquier m si, por ejemplo, es definido positivo. Físicamente, la razón de esta propiedad es que, dado que ahora es una variable aleatoria, es posible formar una estimación significativa (es decir, su media) incluso sin mediciones. Cada nueva medición simplemente proporciona información adicional que puede modificar nuestra estimación original. Otra característica de esta estimación es que para m < n , no es necesario que haya error de medición. Por lo tanto, es posible que tengamos , porque mientras sea positivo definido, la estimación aún existe. Por último, esta técnica puede manejar casos en los que el ruido está correlacionado. $y$ $x$ $(AC_{X}A^{T}+C_{Z})^{-1}$ $C_{Z}$ $x$ $C_{Z}=0$ $AC_{X}A^{T}$

Forma alternativa

Se puede obtener una forma alternativa de expresión utilizando la identidad matricial

C_{X}A^{T}(AC_{X}A^{T}+C_{Z})^{-1}=(A^{T}C_{Z}^{-1}A+C_{X}^{-1})^{-1}A^{T}C_{Z}^{-1},

que puede establecerse postmultiplicando por y premultiplicando por para obtener $(AC_{X}A^{T}+C_{Z})$ $(A^{T}C_{Z}^{-1}A+C_{X}^{-1}),$

W=(A^{T}C_{Z}^{-1}A+C_{X}^{-1})^{-1}A^{T}C_{Z}^{-1},

C_{e}=(A^{T}C_{Z}^{-1}A+C_{X}^{-1})^{-1}.

Como ahora se puede escribir en términos de as , obtenemos una expresión simplificada para as $W$ $C_{e}$ $W=C_{e}A^{T}C_{Z}^{-1}$ ${\hat {x}}$

{\hat {x}}=C_{e}A^{T}C_{Z}^{-1}(y-A{\bar {x}})+{\bar {x}}.

De esta forma, la expresión anterior se puede comparar fácilmente con la regresión de crestas , los mínimos cuadrados ponderados y la estimación de Gauss-Markov . En particular, cuando , correspondiente a la varianza infinita de la información a priori relativa a , el resultado es idéntico a la estimación de mínimos cuadrados lineal ponderada con la matriz de ponderación. Además, si los componentes de no están correlacionados y tienen una varianza igual, de modo que donde sea una matriz identidad, entonces es idéntica a la estimación de mínimos cuadrados ordinarios. Cuando se dispone de información a priori y no están correlacionados y tienen la misma varianza, tenemos , que es idéntica a la solución de regresión de crestas. $C_{X}^{-1}=0$ $x$ $W=(A^{T}C_{Z}^{-1}A)^{-1}A^{T}C_{Z}^{-1}$ $C_{Z}^{-1}$ $z$ $C_{Z}=\sigma ^{2}I,$ $I$ $W=(A^{T}A)^{-1}A^{T}$ $C_{X}^{-1}=\lambda I$ $z$ $W=(A^{T}A+\lambda I)^{-1}A^{T}$

Estimación MMSE lineal secuencial

En muchas aplicaciones en tiempo real, los datos de observación no están disponibles en un solo lote. En cambio, las observaciones se realizan en una secuencia. Un enfoque posible es utilizar las observaciones secuenciales para actualizar una estimación anterior a medida que haya datos adicionales disponibles, lo que conducirá a estimaciones más precisas. Una diferencia crucial entre la estimación por lotes y la estimación secuencial es que la estimación secuencial requiere un supuesto de Markov adicional.

En el marco bayesiano, dicha estimación recursiva se facilita fácilmente utilizando la regla de Bayes. Dadas las observaciones, la regla de Bayes nos da la densidad posterior de como $k$ $y_{1},\ldots ,y_{k}$ $x_{k}$

{\begin{aligned}p(x_{k}|y_{1},\ldots ,y_{k})&\propto p(y_{k}|x,y_{1},\ldots ,y_{k-1})p(x_{k}|y_{1},\ldots ,y_{k-1})\\&=p(y_{k}|x_{k})p(x_{k}|y_{1},\ldots ,y_{k-1}).\end{aligned}}

Se llama densidad posterior, función de verosimilitud y es la densidad previa del k -ésimo paso de tiempo. Aquí hemos asumido la independencia condicional de observaciones anteriores dada como $p(x_{k}|y_{1},\ldots ,y_{k})$ $p(y_{k}|x_{k})$ $p(x_{k}|y_{1},\ldots ,y_{k-1})$ $y_{k}$ $y_{1},\ldots ,y_{k-1}$ $x$

p(y_{k}|x_{k},y_{1},\ldots ,y_{k-1})=p(y_{k}|x_{k}).

Ésta es la suposición de Markov.

La estimación del MMSE dada la k -ésima observación es entonces la media de la densidad posterior . Ante la falta de información dinámica sobre cómo cambia el estado con el tiempo, haremos un supuesto adicional de estacionariedad sobre lo anterior: ${\hat {x}}_{k}$ $p(x_{k}|y_{1},\ldots ,y_{k})$ $x$

p(x_{k}|y_{1},\ldots ,y_{k-1})=p(x_{k-1}|y_{1},\ldots ,y_{k-1}).

Por lo tanto, la densidad previa para el k -ésimo paso de tiempo es la densidad posterior del ( k -1) -ésimo paso de tiempo. Esta estructura nos permite formular un enfoque recursivo para la estimación.

En el contexto del estimador lineal MMSE, la fórmula para la estimación tendrá la misma forma que antes: sin embargo, las matrices de media y covarianza de y deberán reemplazarse por las de densidad y probabilidad anteriores , respectivamente. ${\hat {x}}=C_{XY}C_{Y}^{-1}(y-{\bar {y}})+{\bar {x}}.$ $X$ $Y$ $p(x_{k}|y_{1},\ldots ,y_{k-1})$ $p(y_{k}|x_{k})$

Para la densidad anterior , su media viene dada por la estimación anterior del MMSE, $p(x_{k}|y_{1},\ldots ,y_{k-1})$

{\bar {x}}_{k}=\mathrm {E} [x_{k}|y_{1},\ldots ,y_{k-1}]=\mathrm {E} [x_{k-1}|y_{1},\ldots ,y_{k-1}]={\hat {x}}_{k-1}

y su matriz de covarianza está dada por la matriz de covarianza de error anterior,

C_{X_{k}|Y_{1},\ldots ,Y_{k-1}}=C_{X_{k-1}|Y_{1},\ldots ,Y_{k-1}}=C_{e_{k-1}},

según las propiedades de los estimadores MMSE y el supuesto de estacionariedad.

De manera similar, para el proceso de observación lineal, la media de la probabilidad viene dada por y la matriz de covarianza es como antes $p(y_{k}|x_{k})$ ${\bar {y}}_{k}=A{\bar {x}}_{k}=A{\hat {x}}_{k-1}$

{\begin{aligned}C_{Y_{k}|X_{k}}&=AC_{X_{k}|Y_{1},\ldots ,Y_{k-1}}A^{T}+C_{Z}=AC_{e_{k-1}}A^{T}+C_{Z}.\end{aligned}}

La diferencia entre el valor predicho de , dado por , y su valor observado da el error de predicción , que también se conoce como innovación o residual. Es más conveniente representar el MMSE lineal en términos del error de predicción, cuya media y covarianza son y . $Y_{k}$ ${\bar {y}}_{k}=A{\hat {x}}_{k-1}$ $y_{k}$ ${\tilde {y}}_{k}=y_{k}-{\bar {y}}_{k}$ $\mathrm {E} [{\tilde {y}}_{k}]=0$ $C_{{\tilde {Y}}_{k}}=C_{Y_{k}|X_{k}}$

Por lo tanto, en la fórmula de actualización de la estimación, debemos reemplazar y por y , respectivamente. Además, deberíamos reemplazar y por y . Por último, reemplazamos por ${\bar {x}}$ $C_{X}$ ${\hat {x}}_{k-1}$ $C_{e_{k-1}}$ ${\bar {y}}$ $C_{Y}$ ${\bar {y}}_{k-1}$ $C_{{\tilde {Y}}_{k}}$ $C_{XY}$

{\begin{aligned}C_{X_{k}Y_{k}|Y_{1},\ldots ,Y_{k-1}}&=C_{e_{k-1}{\tilde {Y}}_{k}}=C_{e_{k-1}}A^{T}.\end{aligned}}

Por lo tanto, tenemos la nueva estimación a medida que llega una nueva observación como $y_{k}$

{\begin{aligned}{\hat {x}}_{k}&={\hat {x}}_{k-1}+C_{e_{k-1}{\tilde {Y}}_{k}}C_{{\tilde {Y}}_{k}}^{-1}(y_{k}-{\bar {y}}_{k})\\&={\hat {x}}_{k-1}+C_{e_{k-1}}A^{T}(AC_{e_{k-1}}A^{T}+C_{Z})^{-1}(y_{k}-A{\hat {x}}_{k-1})\end{aligned}}

y la nueva covarianza del error como

C_{e_{k}}=C_{e_{k-1}}-C_{e_{k-1}}A^{T}(AC_{e_{k-1}}A^{T}+C_{Z})^{-1}AC_{e_{k-1}}.

Desde el punto de vista del álgebra lineal, para la estimación secuencial, si tenemos una estimación basada en mediciones que generan espacio , luego de recibir otro conjunto de mediciones, debemos restar de estas mediciones la parte que podría anticiparse del resultado de la estimación. primeras mediciones. En otras palabras, la actualización debe basarse en aquella parte de los nuevos datos que es ortogonal a los datos antiguos. ${\hat {x}}_{1}$ $Y_{1}$

El uso repetido de las dos ecuaciones anteriores a medida que se dispone de más observaciones conduce a técnicas de estimación recursivas. Las expresiones se pueden escribir de forma más compacta como

W_{k}=C_{e_{k-1}}A^{T}(AC_{e_{k-1}}A^{T}+C_{Z})^{-1},

{\hat {x}}_{k}={\hat {x}}_{k-1}+W_{k}(y_{k}-A{\hat {x}}_{k-1}),

C_{e_{k}}=(I-W_{k}A)C_{e_{k-1}}.

La matriz a menudo se denomina factor de ganancia de Kalman. La formulación alternativa del algoritmo anterior dará $W_{k}$

C_{e_{k}}^{-1}=C_{e_{k-1}}^{-1}+A^{T}C_{Z}^{-1}A,

W_{k}=C_{e_{k}}A^{T}C_{Z}^{-1},

{\hat {x}}_{k}={\hat {x}}_{k-1}+W_{k}(y_{k}-A{\hat {x}}_{k-1}),

La repetición de estos tres pasos a medida que hay más datos disponibles conduce a un algoritmo de estimación iterativo. La generalización de esta idea a casos no estacionarios da lugar al filtro de Kalman . Los tres pasos de actualización descritos anteriormente forman el paso de actualización del filtro de Kalman.

Caso especial: observaciones escalares

Como caso especial importante, se puede derivar una expresión recursiva fácil de usar cuando en cada k -ésimo instante de tiempo el proceso de observación lineal subyacente produce un escalar tal que , donde es n -por-1 vector de columna conocido cuyos valores pueden cambiar con el tiempo , es un vector de columna aleatorio de n por 1 que se va a estimar y es un término de ruido escalar con varianza . Después de ( k +1)-ésima observación, el uso directo de las ecuaciones recursivas anteriores da la expresión para la estimación como: $y_{k}=a_{k}^{T}x_{k}+z_{k}$ $a_{k}$ $x_{k}$ $z_{k}$ $\sigma _{k}^{2}$ ${\hat {x}}_{k+1}$

{\hat {x}}_{k+1}={\hat {x}}_{k}+w_{k+1}(y_{k+1}-a_{k+1}^{T}{\hat {x}}_{k})

donde está la nueva observación escalar y el factor de ganancia es el vector de columna n por 1 dado por $y_{k+1}$ $w_{k+1}$

w_{k+1}={\frac {C_{e_{k}}a_{k+1}}{\sigma _{k+1}^{2}+a_{k+1}^{T}C_{e_{k}}a_{k+1}}}.

La matriz de covarianza de error es n -por- n dada por $C_{e_{k+1}}$

C_{e_{k+1}}=(I-w_{k+1}a_{k+1}^{T})C_{e_{k}}.

Aquí no se requiere inversión de matriz. Además, el factor de ganancia , depende de nuestra confianza en la nueva muestra de datos, medida por la varianza del ruido, frente a la de los datos anteriores. Los valores iniciales de y se toman como la media y la covarianza de la función de densidad de probabilidad anterior de . $w_{k+1}$ ${\hat {x}}$ $C_{e}$ $x$

Enfoques alternativos: este importante caso especial también ha dado lugar a muchos otros métodos iterativos (o filtros adaptativos ), como el filtro de mínimos cuadrados medios y el filtro de mínimos cuadrados recursivo , que resuelve directamente el problema de optimización MSE original utilizando descensos de gradiente estocásticos . Sin embargo, dado que el error de estimación no se puede observar directamente, estos métodos intentan minimizar el error de predicción cuadrático medio . Por ejemplo, en el caso de observaciones escalares, tenemos el gradiente. Por lo tanto, la ecuación de actualización para el filtro de mínimos cuadrados medios viene dada por $e$ $\mathrm {E} \{{\tilde {y}}^{T}{\tilde {y}}\}$ $\nabla _{\hat {x}}\mathrm {E} \{{\tilde {y}}^{2}\}=-2\mathrm {E} \{{\tilde {y}}a\}.$

{\hat {x}}_{k+1}={\hat {x}}_{k}+\eta _{k}\mathrm {E} \{{\tilde {y}}_{k}a_{k}\},

donde es el tamaño del paso escalar y la expectativa se aproxima por el valor instantáneo . Como podemos ver, estos métodos evitan la necesidad de matrices de covarianza. $\eta _{k}$ $\mathrm {E} \{a_{k}{\tilde {y}}_{k}\}\approx a_{k}{\tilde {y}}_{k}$

Caso especial: observación de vectores con ruido no correlacionado

En muchas aplicaciones prácticas, el ruido de observación no está correlacionado. Es decir, es una matriz diagonal. En tales casos, es ventajoso considerar los componentes de como mediciones escalares independientes, en lugar de mediciones vectoriales. Esto nos permite reducir el tiempo de cálculo al procesar el vector de medición como mediciones escalares. El uso de fórmulas de actualización escalar evita la inversión de matrices en la implementación de las ecuaciones de actualización de covarianza, mejorando así la robustez numérica contra errores de redondeo. La actualización se puede implementar de forma iterativa como: $C_{Z}$ $y$ $m\times 1$ $m$

w_{k+1}^{(\ell )}={\frac {C_{e_{k}}^{(\ell )}A_{k+1}^{(\ell )T}}{C_{Z_{k+1}}^{(\ell )}+A_{k+1}^{(\ell )}C_{e_{k}}^{(\ell )}(A_{k+1}^{(\ell )T})}}

C_{e_{k+1}}^{(\ell )}=(I-w_{k+1}^{(\ell )}A_{k+1}^{(\ell )})C_{e_{k}}^{(\ell )}

{\hat {x}}_{k+1}^{(\ell )}={\hat {x}}_{k}^{(\ell -1)}+w_{k+1}^{(\ell )}(y_{k+1}^{(\ell )}-A_{k+1}^{(\ell )}{\hat {x}}_{k}^{(\ell -1)})

donde , utilizando los valores iniciales y . Las variables intermedias son el -ésimo elemento diagonal de la matriz diagonal ; while es la -ésima fila de la matriz . Los valores finales son y . $\ell =1,2,\ldots ,m$ $C_{e_{k+1}}^{(0)}=C_{e_{k}}$ ${\hat {x}}_{k+1}^{(0)}={\hat {x}}_{k}$ $C_{Z_{k+1}}^{(\ell )}$ $\ell$ $m\times m$ $C_{Z_{k+1}}$ $A_{k+1}^{(\ell )}$ $\ell$ $m\times n$ $A_{k+1}$ $C_{e_{k+1}}^{(m)}=C_{e_{k+1}}$ ${\hat {x}}_{k+1}^{(m)}={\hat {x}}_{k+1}$

Ejemplos

Ejemplo 1

Tomaremos como ejemplo un problema de predicción lineal . Sea una combinación lineal de variables aleatorias escalares observadas y utilícela para estimar otra variable aleatoria escalar futura tal que . Si las variables aleatorias son variables aleatorias gaussianas reales con media cero y su matriz de covarianza dada por $z_{1},z_{2}$ $z_{3}$ $z_{4}$ ${\hat {z}}_{4}=\sum _{i=1}^{3}w_{i}z_{i}$ $z=[z_{1},z_{2},z_{3},z_{4}]^{T}$

\operatorname {cov} (Z)=\operatorname {E} [zz^{T}]=\left[{\begin{array}{cccc}1&2&3&4\\2&5&8&9\\3&8&6&10\\4&9&10&15\end{array}}\right],

entonces nuestra tarea es encontrar los coeficientes que produzcan una estimación lineal óptima . $w_{i}$ ${\hat {z}}_{4}$

En términos de la terminología desarrollada en las secciones anteriores, para este problema tenemos el vector de observación , la matriz estimadora como un vector fila y la variable estimada como una cantidad escalar. La matriz de autocorrelación se define como $y=[z_{1},z_{2},z_{3}]^{T}$ $W=[w_{1},w_{2},w_{3}]$ $x=z_{4}$ $C_{Y}$

C_{Y}=\left[{\begin{array}{ccc}E[z_{1},z_{1}]&E[z_{2},z_{1}]&E[z_{3},z_{1}]\\E[z_{1},z_{2}]&E[z_{2},z_{2}]&E[z_{3},z_{2}]\\E[z_{1},z_{3}]&E[z_{2},z_{3}]&E[z_{3},z_{3}]\end{array}}\right]=\left[{\begin{array}{ccc}1&2&3\\2&5&8\\3&8&6\end{array}}\right].

La matriz de correlación cruzada se define como $C_{YX}$

C_{YX}=\left[{\begin{array}{c}E[z_{4},z_{1}]\\E[z_{4},z_{2}]\\E[z_{4},z_{3}]\end{array}}\right]=\left[{\begin{array}{c}4\\9\\10\end{array}}\right].

Ahora resolvemos la ecuación invirtiendo y multiplicando previamente para obtener $C_{Y}W^{T}=C_{YX}$ $C_{Y}$

C_{Y}^{-1}C_{YX}=\left[{\begin{array}{ccc}4.85&-1.71&-0.142\\-1.71&0.428&0.2857\\-0.142&0.2857&-0.1429\end{array}}\right]\left[{\begin{array}{c}4\\9\\10\end{array}}\right]=\left[{\begin{array}{c}2.57\\-0.142\\0.5714\end{array}}\right]=W^{T}.

Entonces tenemos y como coeficientes óptimos para . Calcular el error cuadrático medio mínimo da . ^[2] Tenga en cuenta que no es necesario obtener una matriz explícita inversa de para calcular el valor de . La ecuación matricial se puede resolver mediante métodos bien conocidos, como el método de eliminación de Gauss. Un ejemplo más breve y no numérico se puede encontrar en el principio de ortogonalidad . $w_{1}=2.57,$ $w_{2}=-0.142,$ $w_{3}=.5714$ ${\hat {z}}_{4}$ $\left\Vert e\right\Vert _{\min }^{2}=\operatorname {E} [z_{4}z_{4}]-WC_{YX}=15-WC_{YX}=.2857$ $C_{Y}$ $W$

Ejemplo 2

Considere un vector formado al tomar observaciones de un parámetro escalar fijo pero desconocido perturbado por ruido blanco gaussiano. Podemos describir el proceso mediante una ecuación lineal , donde . Dependiendo del contexto quedará claro si representa un escalar o un vector. Supongamos que sabemos cuál es el rango dentro del cual caerá el valor de. Podemos modelar nuestra incertidumbre de mediante una distribución uniforme previa en un intervalo y, por lo tanto, tendremos una varianza de . Sea el vector de ruido una distribución normal como donde hay una matriz identidad. También y son independientes y . Es fácil ver eso $y$ $N$ $x$ $y=1x+z$ $1=[1,1,\ldots ,1]^{T}$ $1$ $[-x_{0},x_{0}]$ $x$ $x$ $[-x_{0},x_{0}]$ $x$ $\sigma _{X}^{2}=x_{0}^{2}/3.$ $z$ $N(0,\sigma _{Z}^{2}I)$ $I$ $x$ $z$ $C_{XZ}=0$

{\begin{aligned}&\operatorname {E} \{y\}=0,\\&C_{Y}=\operatorname {E} \{yy^{T}\}=\sigma _{X}^{2}11^{T}+\sigma _{Z}^{2}I,\\&C_{XY}=\operatorname {E} \{xy^{T}\}=\sigma _{X}^{2}1^{T}.\end{aligned}}

Así, el estimador lineal MMSE viene dado por

{\begin{aligned}{\hat {x}}&=C_{XY}C_{Y}^{-1}y\\&=\sigma _{X}^{2}1^{T}(\sigma _{X}^{2}11^{T}+\sigma _{Z}^{2}I)^{-1}y.\end{aligned}}

Podemos simplificar la expresión usando la forma alternativa para como $W$

{\begin{aligned}{\hat {x}}&=\left(1^{T}{\frac {1}{\sigma _{Z}^{2}}}I1+{\frac {1}{\sigma _{X}^{2}}}\right)^{-1}1^{T}{\frac {1}{\sigma _{Z}^{2}}}Iy\\&={\frac {1}{\sigma _{Z}^{2}}}\left({\frac {N}{\sigma _{Z}^{2}}}+{\frac {1}{\sigma _{X}^{2}}}\right)^{-1}1^{T}y\\&={\frac {\sigma _{X}^{2}}{\sigma _{X}^{2}+\sigma _{Z}^{2}/N}}{\bar {y}},\end{aligned}}

donde tenemos $y=[y_{1},y_{2},\ldots ,y_{N}]^{T}$ ${\bar {y}}={\frac {1^{T}y}{N}}={\frac {\sum _{i=1}^{N}y_{i}}{N}}.$

De manera similar, la varianza del estimador es

\sigma _{\hat {X}}^{2}=C_{XY}C_{Y}^{-1}C_{YX}={\Big (}{\frac {\sigma _{X}^{2}}{\sigma _{X}^{2}+\sigma _{Z}^{2}/N}}{\Big )}\sigma _{X}^{2}.

Por tanto, el MMSE de este estimador lineal es

\operatorname {LMMSE} =\sigma _{X}^{2}-\sigma _{\hat {X}}^{2}={\Big (}{\frac {\sigma _{Z}^{2}}{\sigma _{X}^{2}+\sigma _{Z}^{2}/N}}{\Big )}{\frac {\sigma _{X}^{2}}{N}}.

Para datos muy grandes , vemos que el estimador MMSE de un escalar con distribución a priori uniforme puede aproximarse mediante la media aritmética de todos los datos observados. $N$

{\hat {x}}={\frac {1}{N}}\sum _{i=1}^{N}y_{i},

mientras que la varianza no se verá afectada por los datos y el LMMSE de la estimación tenderá a cero. $\sigma _{\hat {X}}^{2}=\sigma _{X}^{2},$

Sin embargo, el estimador es subóptimo ya que está obligado a ser lineal. Si la variable aleatoria también hubiera sido gaussiana, entonces el estimador habría sido óptimo. Observe que la forma del estimador permanecerá sin cambios, independientemente de la distribución a priori de , siempre que la media y la varianza de estas distribuciones sean las mismas. $x$ $x$

Ejemplo 3

Considere una variación del ejemplo anterior: dos candidatos se presentan a una elección. Sea la fracción de votos que recibirá un candidato el día de las elecciones. Por lo tanto, la fracción de votos que recibirá el otro candidato será. Tomaremos como una variable aleatoria con una distribución previa uniforme de modo que su media sea y su varianza sea Unos pocos. Semanas antes de las elecciones, dos encuestadores diferentes realizaron dos encuestas de opinión pública independientes. La primera encuesta reveló que es probable que el candidato obtenga una fracción de los votos. Dado que siempre hay algún error presente debido al muestreo finito y a la metodología de sondeo particular adoptada, el primer encuestador declara que su estimación tiene un error con media y varianza cero. De manera similar, el segundo encuestador declara que su estimación tiene un error con media y varianza cero. Tenga en cuenta que, excepto la media y la varianza del error, la distribución del error no se especifica. ¿Cómo se deben combinar las dos encuestas para obtener la predicción de votación para un candidato determinado? $x\in [0,1].$ $1-x.$ $x$ $[0,1]$ ${\bar {x}}=1/2$ $\sigma _{X}^{2}=1/12.$ $y_{1}$ $z_{1}$ $\sigma _{Z_{1}}^{2}.$ $y_{2}$ $z_{2}$ $\sigma _{Z_{2}}^{2}.$

Como en el ejemplo anterior, tenemos

{\begin{aligned}y_{1}&=x+z_{1}\\y_{2}&=x+z_{2}.\end{aligned}}

Aquí, tanto el . Por lo tanto, podemos obtener la estimación LMMSE como la combinación lineal de y como $\operatorname {E} \{y_{1}\}=\operatorname {E} \{y_{2}\}={\bar {x}}=1/2$ $y_{1}$ $y_{2}$

{\hat {x}}=w_{1}(y_{1}-{\bar {x}})+w_{2}(y_{2}-{\bar {x}})+{\bar {x}},

donde los pesos están dados por

{\begin{aligned}w_{1}&={\frac {1/\sigma _{Z_{1}}^{2}}{1/\sigma _{Z_{1}}^{2}+1/\sigma _{Z_{2}}^{2}+1/\sigma _{X}^{2}}},\\w_{2}&={\frac {1/\sigma _{Z_{2}}^{2}}{1/\sigma _{Z_{1}}^{2}+1/\sigma _{Z_{2}}^{2}+1/\sigma _{X}^{2}}}.\end{aligned}}

Aquí, dado que el término denominador es constante, la encuesta con menor error recibe mayor peso para predecir el resultado electoral. Por último, la varianza de está dada por ${\hat {x}}$

\sigma _{\hat {X}}^{2}={\frac {1/\sigma _{Z_{1}}^{2}+1/\sigma _{Z_{2}}^{2}}{1/\sigma _{Z_{1}}^{2}+1/\sigma _{Z_{2}}^{2}+1/\sigma _{X}^{2}}}\sigma _{X}^{2},

lo que lo hace más pequeño que Por lo tanto, el LMMSE viene dado por $\sigma _{\hat {X}}^{2}$ $\sigma _{X}^{2}.$

\mathrm {LMMSE} =\sigma _{X}^{2}-\sigma _{\hat {X}}^{2}={\frac {1}{1/\sigma _{Z_{1}}^{2}+1/\sigma _{Z_{2}}^{2}+1/\sigma _{X}^{2}}}.

En general, si tenemos encuestadores, entonces donde el peso para el i -ésimo encuestador está dado por y el LMMSE está dado por $N$ ${\hat {x}}=\sum _{i=1}^{N}w_{i}(y_{i}-{\bar {x}})+{\bar {x}},$ $w_{i}={\frac {1/\sigma _{Z_{i}}^{2}}{\sum _{j=1}^{N}1/\sigma _{Z_{j}}^{2}+1/\sigma _{X}^{2}}}$ $\mathrm {LMMSE} ={\frac {1}{\sum _{j=1}^{N}1/\sigma _{Z_{j}}^{2}+1/\sigma _{X}^{2}}}.$

Ejemplo 4

Supongamos que un músico está tocando un instrumento y que el sonido lo reciben dos micrófonos, cada uno de ellos situado en dos lugares diferentes. Sea la atenuación del sonido debida a la distancia en cada micrófono y , que se suponen constantes conocidas. De manera similar, sea el ruido en cada micrófono y , cada uno con media cero y varianzas y respectivamente. Denotemos el sonido producido por el músico, que es una variable aleatoria con media y varianza cero. ¿Cómo se debe combinar la música grabada con estos dos micrófonos, después de sincronizarla entre sí? $a_{1}$ $a_{2}$ $z_{1}$ $z_{2}$ $\sigma _{Z_{1}}^{2}$ $\sigma _{Z_{2}}^{2}$ $x$ $\sigma _{X}^{2}.$

Podemos modelar el sonido recibido por cada micrófono como

{\begin{aligned}y_{1}&=a_{1}x+z_{1}\\y_{2}&=a_{2}x+z_{2}.\end{aligned}}

Aquí tanto el . Así, podemos combinar los dos sonidos como $\operatorname {E} \{y_{1}\}=\operatorname {E} \{y_{2}\}=0$

y=w_{1}y_{1}+w_{2}y_{2}

donde el i -ésimo peso se da como

w_{i}={\frac {a_{i}/\sigma _{Z_{i}}^{2}}{\sum _{j}a_{j}^{2}/\sigma _{Z_{j}}^{2}+1/\sigma _{X}^{2}}}.

Ver también

Notas

^ "Error cuadrático medio (MSE)". www.probabilitycourse.com . Consultado el 9 de mayo de 2017 .
^ Luna y Stirling.

Otras lecturas

Johnson, D. "Estimadores de error cuadrático medio mínimo". Conexiones. Archivado desde Estimadores de error cuadrático medio mínimo el original el 25 de julio de 2008 . Consultado el 8 de enero de 2013 . {{cite web}}: Comprobar |url=valor ( ayuda )
Jaynes, et (2003). Teoría de la probabilidad: la lógica de la ciencia . Prensa de la Universidad de Cambridge. ISBN 978-0521592710.
Bibby, J.; Toutenburg, H. (1977). Predicción y estimación mejorada en modelos lineales . Wiley. ISBN 9780471016564.
Lehmann, EL; Casella, G. (1998). "Capítulo 4". Teoría de la estimación puntual (2ª ed.). Saltador. ISBN 0-387-98502-6.
Kay, SM (1993). Fundamentos del procesamiento estadístico de señales: teoría de la estimación . Prentice Hall. págs. 344–350. ISBN 0-13-042268-1.
Lüenberger, DG (1969). "Capítulo 4, Estimación de mínimos cuadrados". Optimización por métodos de espacio vectorial (1ª ed.). Wiley. ISBN 978-0471181170.
Luna, conocimientos tradicionales; Stirling, WC (2000). Métodos matemáticos y algoritmos para el procesamiento de señales (1ª ed.). Prentice Hall. ISBN 978-0201361865.
Van árboles, HL (1968). Teoría de detección, estimación y modulación, parte I. Nueva York: Wiley. ISBN 0-471-09517-6.
Haykin, SO (2013). Teoría del filtro adaptativo (5ª ed.). Prentice Hall. ISBN 978-0132671453.