Teorema de Kosambi-Karhunen-Loève

En la teoría de los procesos estocásticos , el teorema de Karhunen-Loève (llamado así por Kari Karhunen y Michel Loève ), también conocido como teorema de Kosambi-Karhunen-Loève ^[1]^[2] establece que un proceso estocástico se puede representar como un proceso lineal infinito. combinación de funciones ortogonales , análoga a una representación en serie de Fourier de una función en un intervalo acotado. La transformación también se conoce como transformada de Hotelling y transformada de vector propio , y está estrechamente relacionada con la técnica de análisis de componentes principales (PCA) ampliamente utilizada en el procesamiento de imágenes y en el análisis de datos en muchos campos. ^[3]

Existen muchas expansiones de este tipo de un proceso estocástico: si el proceso está indexado sobre $[a, b]$ , cualquier base ortonormal de $L 2 ([a, b])$ produce una expansión del mismo en esa forma. La importancia del teorema de Karhunen-Loève es que produce la mejor base en el sentido de que minimiza el error cuadrático medio total .

A diferencia de una serie de Fourier donde los coeficientes son números fijos y la base de expansión consta de funciones sinusoidales (es decir, funciones seno y coseno ), los coeficientes en el teorema de Karhunen-Loève son variables aleatorias y la base de expansión depende del proceso. De hecho, las funciones de base ortogonal utilizadas en esta representación están determinadas por la función de covarianza del proceso. Se puede pensar que la transformada de Karhunen-Loève se adapta al proceso para producir la mejor base posible para su expansión.

En el caso de un proceso estocástico centrado ${X t} t \in [a, b]$ ( centrado significa $E [X t] = 0$ para todo $t \in [a, b]$ ) que satisface una condición técnica de continuidad, $X$ admite una descomposición

X_{t}=\sum _ {k=1}^{\infty }Z_{k}e_{k}(t)

donde $Z k$ son variables aleatorias no correlacionadas por pares y las funciones $e k$ son funciones continuas de valores reales en $[a, b]$ que son ortogonales por pares en $L 2 ([a, b])$ . Por lo tanto, a veces se dice que la expansión es biortogonal ya que los coeficientes aleatorios $Z k$ son ortogonales en el espacio de probabilidad mientras que las funciones deterministas $e k$ son ortogonales en el dominio del tiempo. El caso general de un proceso $X t$ que no está centrado puede volverse al caso de un proceso centrado considerando $X t - E [X t]$ que es un proceso centrado.

Además, si el proceso es gaussiano , entonces las variables aleatorias $Zk$ son gaussianas y estocásticamente $independientes$ . Este resultado generaliza la transformada de Karhunen-Loève . Un ejemplo importante de un proceso estocástico real centrado en $[0, 1]$ es el proceso de Wiener ; El teorema de Karhunen-Loève se puede utilizar para proporcionarle una representación ortogonal canónica. En este caso la expansión consta de funciones sinusoidales.

La expansión anterior en variables aleatorias no correlacionadas también se conoce como expansión de Karhunen-Loève o descomposición de Karhunen-Loève . La versión empírica (es decir, con los coeficientes calculados a partir de una muestra) se conoce como transformada de Karhunen-Loève (KLT), análisis de componentes principales , descomposición ortogonal adecuada (POD) , funciones ortogonales empíricas (un término utilizado en meteorología y geofísica ), o la transformada de Hotelling .

Formulación

A lo largo de este artículo, consideraremos un proceso aleatorio $Xt$ definido sobre un espacio de probabilidad $(Ω, F, P)$ e indexado sobre un intervalo cerrado $[a, b]$ , que es $integrable$ al cuadrado , tiene media cero y tiene covarianza. función $K X (s, t)$ . En otras palabras, tenemos:

\forall t\in [a,b]\qquad X_{t}\in L^{2}(\Omega ,F,\mathbf {P} ),\quad {\text{es decir }}\mathbf {E} [X_ {t}^{2}]<\infty,

\forall t\in [a,b]\qquad \mathbf {E} [X_{t}]=0,

\forall t,s\in [a,b]\qquad K_{X}(s,t)=\mathbf {E} [X_{s}X_{t}].

La condición de integración cuadrada es lógicamente equivalente a ser finita para todos . ^[4] $\mathbf {E} [X_ {t}^{2}]<\infty$ $K_{X}(s,t)$ $s,t\en [a,b]$

Asociamos a $K X$ un operador lineal (más específicamente un operador integral de Hilbert-Schmidt ) $T K X$ definido de la siguiente manera:

{\begin{aligned}&T_{K_{X}}&:L^{2}([a,b])&\to L^{2}([a,b])\\&&:f \mapsto T_{K_{X}}f&=\int _{a}^{b}K_{X}(s,\cdot )f(s)\,ds\end{aligned}}

Dado que

T K X

es un operador lineal, tiene sentido hablar de sus valores propios λ _k y funciones propias

e k

, que se encuentran resolviendo la ecuación integral homogénea de Fredholm de segundo tipo.

\int _{a}^{b}K_{X}(s,t)e_{k}(s)\,ds=\lambda _{k}e_{k}(t)

Declaración del teorema

Teorema . Sea $X t$ un proceso estocástico cuadrático de media cero integrable definido sobre un espacio de probabilidad $(Ω, F, P)$ e indexado sobre un intervalo cerrado y acotado [ a , b ], con función de covarianza continua $K X (s, t)$ .

Entonces $K X (s,t)$ es un núcleo de Mercer y siendo $e k$ una base ortonormal sobre $L 2 ([a, b])$ formada por las funciones propias de $T K X$ con sus respectivos valores propios $λ k, X t$ admite la siguiente representación

X_{t}=\sum _ {k=1}^{\infty }Z_{k}e_{k}(t)

donde la convergencia es en L 2 , uniforme en t y

Z_{k}=\int _ {a}^{b}X_ {t}e_ {k}(t)\,dt

Además, las variables aleatorias $Z k$ tienen media cero, no están correlacionadas y tienen varianza λ _k

\mathbf {E} [Z_{k}]=0,~\forall k\in \mathbb {N} \qquad {\mbox{y}}\qquad \mathbf {E} [Z_{i}Z_ {j}]=\delta _{ij}\lambda _{j},~\forall i,j\in \mathbb {N}

Tenga en cuenta que mediante generalizaciones del teorema de Mercer podemos reemplazar el intervalo [ a , b ] con otros espacios compactos C y la medida de Lebesgue en [ a , b ] con una medida de Borel cuyo soporte es C.

Prueba

La función de covarianza $K X$ satisface la definición de núcleo de Mercer. Según el teorema de Mercer , existe en consecuencia un conjunto $λ k$ , $e k (t)$ de valores propios y funciones propias de $T K X$ que forman una base ortonormal de $L 2 ([a, b])$ , y $K X$ puede expresarse como

K_{X}(s,t)=\sum _ {k=1}^{\infty }\lambda _ {k}e_{k}(s)e_{k}(t)

El proceso $X t$ se puede expandir en términos de las funciones propias $e k$ como:

X_{t}=\sum _ {k=1}^{\infty }Z_{k}e_{k}(t)

donde los coeficientes (variables aleatorias)

Z k

están dados por la proyección de

X t

sobre las respectivas funciones propias

Z_{k}=\int _ {a}^{b}X_ {t}e_ {k}(t)\,dt

Entonces podemos derivar

{\begin{aligned}\mathbf {E} [Z_{k}]&=\mathbf {E} \left[\int _{a}^{b}X_{t}e_{k}(t)\,dt\right]=\int _{a}^{b}\mathbf {E} [X_{t}]e_{k}(t)dt=0\\[8pt]\mathbf {E} [Z_{i}Z_{j}]&=\mathbf {E} \left[\int _{a}^{b}\int _{a}^{b}X_{t}X_{s}e_{j}(t)e_{i}(s)\,dt\,ds\right]\\&=\int _{a}^{b}\int _{a}^{b}\mathbf {E} \left[X_{t}X_{s}\right]e_{j}(t)e_{i}(s)\,dt\,ds\\&=\int _{a}^{b}\int _{a}^{b}K_{X}(s,t)e_{j}(t)e_{i}(s)\,dt\,ds\\&=\int _{a}^{b}e_{i}(s)\left(\int _{a}^{b}K_{X}(s,t)e_{j}(t)\,dt\right)\,ds\\&=\lambda _{j}\int _{a}^{b}e_{i}(s)e_{j}(s)\,ds\\&=\delta _{ij}\lambda _{j}\end{aligned}}

donde hemos utilizado el hecho de que las

e k

son funciones propias de

T K X

y son ortonormales.

Demostremos ahora que la convergencia está en $L 2$ . Dejar

S_{N}=\sum _{k=1}^{N}Z_{k}e_{k}(t).

Entonces:

{\begin{aligned}\mathbf {E} \left[\left|X_{t}-S_{N}\right|^{2}\right]&=\mathbf {E} \left[X_{t}^{2}\right]+\mathbf {E} \left[S_{N}^{2}\right]-2\mathbf {E} \left[X_{t}S_{N}\right]\\&=K_{X}(t,t)+\mathbf {E} \left[\sum _{k=1}^{N}\sum _{l=1}^{N}Z_{k}Z_{\ell }e_{k}(t)e_{\ell }(t)\right]-2\mathbf {E} \left[X_{t}\sum _{k=1}^{N}Z_{k}e_{k}(t)\right]\\&=K_{X}(t,t)+\sum _{k=1}^{N}\lambda _{k}e_{k}(t)^{2}-2\mathbf {E} \left[\sum _{k=1}^{N}\int _{a}^{b}X_{t}X_{s}e_{k}(s)e_{k}(t)\,ds\right]\\&=K_{X}(t,t)-\sum _{k=1}^{N}\lambda _{k}e_{k}(t)^{2}\end{aligned}}

que llega a 0 según el teorema de Mercer.

Propiedades de la transformada de Karhunen-Loève

Caso especial: distribución gaussiana

Dado que el límite en la media de las variables aleatorias conjuntamente gaussianas es conjuntamente gaussiana, y las variables aleatorias (centradas) conjuntamente gaussianas son independientes si y sólo si son ortogonales, también podemos concluir:

Teorema . Las variables $Z i$ tienen una distribución gaussiana conjunta y son estocásticamente independientes si el proceso original ${X t} t$ es gaussiano.

En el caso gaussiano, como las variables $Z i$ son independientes, podemos decir más:

\lim _{N\to \infty }\sum _{i=1}^{N}e_{i}(t)Z_{i}(\omega )=X_{t}(\omega )

casi con seguridad.

La transformada de Karhunen-Loève descorrelaciona el proceso

Esto es consecuencia de la independencia de $Z k$ .

La expansión de Karhunen-Loève minimiza el error cuadrático medio total

En la introducción, mencionamos que la expansión truncada de Karhunen-Loeve fue la mejor aproximación del proceso original en el sentido de que reduce el error cuadrático medio total resultante de su truncamiento. Debido a esta propiedad, a menudo se dice que la transformada KL compacta la energía de manera óptima.

Más específicamente, dada cualquier base ortonormal ${f k$ } de $L 2 ([a, b])$ , podemos descomponer el proceso $X t$ como:

X_{t}(\omega )=\sum _{k=1}^{\infty }A_{k}(\omega )f_{k}(t)

dónde

A_{k}(\omega )=\int _{a}^{b}X_{t}(\omega )f_{k}(t)\,dt

y podemos aproximar $X t$ por la suma finita

{\hat {X}}_{t}(\omega )=\sum _{k=1}^{N}A_{k}(\omega )f_{k}(t)

para algún número entero N .

Afirmar . De todas estas aproximaciones, la aproximación KL es la que minimiza el error cuadrático medio total (siempre que hayamos ordenado los valores propios en orden decreciente).

Prueba

Considere el error resultante del truncamiento en el N -ésimo término en la siguiente expansión ortonormal:

\varepsilon _{N}(t)=\sum _{k=N+1}^{\infty }A_{k}(\omega )f_{k}(t)

El error cuadrático medio ε _N² ( t ) se puede escribir como:

{\begin{aligned}\varepsilon _{N}^{2}(t)&=\mathbf {E} \left[\sum _{i=N+1}^{\infty }\sum _{j=N+1}^{\infty }A_{i}(\omega )A_{j}(\omega )f_{i}(t)f_{j}(t)\right]\\&=\sum _{i=N+1}^{\infty }\sum _{j=N+1}^{\infty }\mathbf {E} \left[\int _{a}^{b}\int _{a}^{b}X_{t}X_{s}f_{i}(t)f_{j}(s)\,ds\,dt\right]f_{i}(t)f_{j}(t)\\&=\sum _{i=N+1}^{\infty }\sum _{j=N+1}^{\infty }f_{i}(t)f_{j}(t)\int _{a}^{b}\int _{a}^{b}K_{X}(s,t)f_{i}(t)f_{j}(s)\,ds\,dt\end{aligned}}

Luego integramos esta última igualdad sobre [ a , b ]. La ortonormalidad de f _k produce:

\int _{a}^{b}\varepsilon _{N}^{2}(t)\,dt=\sum _{k=N+1}^{\infty }\int _{a}^{b}\int _{a}^{b}K_{X}(s,t)f_{k}(t)f_{k}(s)\,ds\,dt

El problema de minimizar el error cuadrático medio total se reduce entonces a minimizar el lado derecho de esta igualdad sujeto a la restricción de que f _k esté normalizado. Por lo tanto, introducimos $β k$ , los multiplicadores lagrangianos asociados con estas restricciones, y pretendemos minimizar la siguiente función:

Er[f_{k}(t),k\in \{N+1,\ldots \}]=\sum _{k=N+1}^{\infty }\int _{a}^{b}\int _{a}^{b}K_{X}(s,t)f_{k}(t)f_{k}(s)\,ds\,dt-\beta _{k}\left(\int _{a}^{b}f_{k}(t)f_{k}(t)\,dt-1\right)

Diferenciando con respecto a f _i ( t ) (esta es una derivada funcional ) y estableciendo la derivada en 0 se obtiene:

{\frac {\partial Er}{\partial f_{i}(t)}}=\int _{a}^{b}\left(\int _{a}^{b}K_{X}(s,t)f_{i}(s)\,ds-\beta _{i}f_{i}(t)\right)\,dt=0

que se satisface en particular cuando

\int _{a}^{b}K_{X}(s,t)f_{i}(s)\,ds=\beta _{i}f_{i}(t).

En otras palabras, cuando las f _k se eligen como funciones propias de T _{K _X} , lo que resulta en la expansión de KL.

varianza explicada

Una observación importante es que dado que los coeficientes aleatorios Z _k de la expansión KL no están correlacionados, la fórmula de Bienaymé afirma que la varianza de X _t es simplemente la suma de las varianzas de los componentes individuales de la suma:

\operatorname {var} [X_{t}]=\sum _{k=0}^{\infty }e_{k}(t)^{2}\operatorname {var} [Z_{k}]=\sum _{k=1}^{\infty }\lambda _{k}e_{k}(t)^{2}

Integrando sobre [ a , b ] y usando la ortonormalidad de e _k , obtenemos que la varianza total del proceso es:

\int _{a}^{b}\operatorname {var} [X_{t}]\,dt=\sum _{k=1}^{\infty }\lambda _{k}

En particular, la varianza total de la aproximación N -truncada es

\sum _{k=1}^{N}\lambda _{k}.

Como resultado, la expansión N -truncada explica

{\frac {\sum _{k=1}^{N}\lambda _{k}}{\sum _{k=1}^{\infty }\lambda _{k}}}

de la varianza; y si estamos contentos con una aproximación que explica, digamos, el 95% de la varianza, entonces sólo tenemos que determinar un tal que $N\in \mathbb {N}$

{\frac {\sum _{k=1}^{N}\lambda _{k}}{\sum _{k=1}^{\infty }\lambda _{k}}}\geq 0.95.

La expansión de Karhunen-Loève tiene la propiedad de entropía de representación mínima

Dada una representación de , para alguna base ortonormal y aleatoria , dejamos que . Entonces podemos definir la entropía de representación como . Luego tenemos , para todas las opciones de . Es decir, la expansión KL tiene una entropía de representación mínima. $X_{t}=\sum _{k=1}^{\infty }W_{k}\varphi _{k}(t)$ $\varphi _{k}(t)$ $W_{k}$ $p_{k}=\mathbb {E} [|W_{k}|^{2}]/\mathbb {E} [|X_{t}|_{L^{2}}^{2}]$ $\sum _{k=1}^{\infty }p_{k}=1$ $H(\{\varphi _{k}\})=-\sum _{i}p_{k}\log(p_{k})$ $H(\{\varphi _{k}\})\geq H(\{e_{k}\})$ $\varphi _{k}$

Prueba:

Denota los coeficientes obtenidos para la base como y para como . $e_{k}(t)$ $p_{k}$ $\varphi _{k}(t)$ $q_{k}$

Elegir . Tenga en cuenta que como minimiza el error cuadrático medio, tenemos que $N\geq 1$ $e_{k}$

\mathbb {E} \left|\sum _{k=1}^{N}Z_{k}e_{k}(t)-X_{t}\right|_{L^{2}}^{2}\leq \mathbb {E} \left|\sum _{k=1}^{N}W_{k}\varphi _{k}(t)-X_{t}\right|_{L^{2}}^{2}

Ampliando el tamaño de la mano derecha, obtenemos:

\mathbb {E} \left|\sum _{k=1}^{N}W_{k}\varphi _{k}(t)-X_{t}\right|_{L^{2}}^{2}=\mathbb {E} |X_{t}^{2}|_{L^{2}}+\sum _{k=1}^{N}\sum _{\ell =1}^{N}\mathbb {E} [W_{\ell }\varphi _{\ell }(t)W_{k}^{*}\varphi _{k}^{*}(t)]_{L^{2}}-\sum _{k=1}^{N}\mathbb {E} [W_{k}\varphi _{k}X_{t}^{*}]_{L^{2}}-\sum _{k=1}^{N}\mathbb {E} [X_{t}W_{k}^{*}\varphi _{k}^{*}(t)]_{L^{2}}

Usando la ortonormalidad de y expandiendo la base, obtenemos que el tamaño de la derecha es igual a: $\varphi _{k}(t)$ $X_{t}$ $\varphi _{k}(t)$

\mathbb {E} [X_{t}]_{L^{2}}^{2}-\sum _{k=1}^{N}\mathbb {E} [|W_{k}|^{2}]

Podemos realizar un análisis idéntico para , y así reescribir la desigualdad anterior como: $e_{k}(t)$

{\displaystyle \mathbb {E} [X_{t}]_{L^{2}}^{2}-\sum _{k=1}^{N}\mathbb {E} [|Z_{k}|^{2}]}\leq {\displaystyle \mathbb {E} [X_{t}]_{L^{2}}^{2}-\sum _{k=1}^{N}\mathbb {E} [|W_{k}|^{2}]}

Restando el primer término común y dividiendo por , obtenemos que: $\mathbb {E} [|X_{t}|_{L^{2}}^{2}]$

\sum _{k=1}^{N}p_{k}\geq \sum _{k=1}^{N}q_{k}

Esto implica que:

-\sum _{k=1}^{\infty }p_{k}\log(p_{k})\leq -\sum _{k=1}^{\infty }q_{k}\log(q_{k})

Aproximaciones lineales de Karhunen-Loève

Considere toda una clase de señales que queremos aproximar sobre los primeros $M$ vectores de una base. Estas señales se modelan como realizaciones de un vector aleatorio $Y [n]$ de tamaño $N.$ Para optimizar la aproximación diseñamos una base que minimice el error medio de aproximación. Esta sección demuestra que las bases óptimas son bases de Karhunen- Loeve que diagonalizan la matriz de covarianza de $Y.$ El vector aleatorio $Y$ se puede descomponer en forma ortogonal

\left\{g_{m}\right\}_{0\leq m\leq N}

como sigue:

Y=\sum _{m=0}^{N-1}\left\langle Y,g_{m}\right\rangle g_{m},

donde cada

\left\langle Y,g_{m}\right\rangle =\sum _{n=0}^{N-1}{Y[n]}g_{m}^{*}[n]

es una variable aleatoria. La aproximación a partir de los primeros $M \leq N$ vectores de la base es

Y_{M}=\sum _{m=0}^{M-1}\left\langle Y,g_{m}\right\rangle g_{m}

La conservación de energía en forma ortogonal implica

\varepsilon [M]=\mathbf {E} \left\{\left\|Y-Y_{M}\right\|^{2}\right\}=\sum _{m=M}^{N-1}\mathbf {E} \left\{\left|\left\langle Y,g_{m}\right\rangle \right|^{2}\right\}

Este error está relacionado con la covarianza de $Y$ definida por

R[n,m]=\mathbf {E} \left\{Y[n]Y^{*}[m]\right\}

Para cualquier vector $x [n]$ denotamos por $K$ el operador de covarianza representado por esta matriz,

\mathbf {E} \left\{\left|\langle Y,x\rangle \right|^{2}\right\}=\langle Kx,x\rangle =\sum _{n=0}^{N-1}\sum _{m=0}^{N-1}R[n,m]x[n]x^{*}[m]

El error $ε [M]$ es por tanto una suma de los últimos $N - M$ coeficientes del operador de covarianza

\varepsilon [M]=\sum _{m=M}^{N-1}{\left\langle Kg_{m},g_{m}\right\rangle }

El operador de covarianza $K$ es hermitiano y positivo y, por tanto, está diagonalizado en una base ortogonal llamada base de Karhunen-Loève. El siguiente teorema establece que una base de Karhunen-Loève es óptima para aproximaciones lineales.

Teorema (base de optimidad de Karhunen-Loève). Sea $K$ un operador de covarianza. Para todo $M \geq 1$ , el error de aproximación

\varepsilon [M]=\sum _{m=M}^{N-1}\left\langle Kg_{m},g_{m}\right\rangle

es mínimo si y sólo si

\left\{g_{m}\right\}_{0\leq m<N}

es una base de Karhunen-Loeve ordenada por valores propios decrecientes.

\left\langle Kg_{m},g_{m}\right\rangle \geq \left\langle Kg_{m+1},g_{m+1}\right\rangle ,\qquad 0\leq m<N-1.

Aproximación no lineal en bases

Las aproximaciones lineales proyectan la señal en M vectores a priori. La aproximación se puede hacer más precisa eligiendo los M vectores ortogonales dependiendo de las propiedades de la señal. Esta sección analiza el desempeño general de estas aproximaciones no lineales. Una señal se aproxima con M vectores seleccionados de forma adaptativa en forma ortonormal para ^[^{definición necesaria}^] $f\in \mathrm {H}$ $\mathrm {H}$

\mathrm {B} =\left\{g_{m}\right\}_{m\in \mathbb {N} }

Sea la proyección de f sobre M vectores cuyos índices están en $I$ $M$ : $f_{M}$

f_{M}=\sum _{m\in I_{M}}\left\langle f,g_{m}\right\rangle g_{m}

El error de aproximación es la suma de los coeficientes restantes.

\varepsilon [M]=\left\{\left\|f-f_{M}\right\|^{2}\right\}=\sum _{m\notin I_{M}}^{N-1}\left\{\left|\left\langle f,g_{m}\right\rangle \right|^{2}\right\}

Para minimizar este error, los índices en $I M$ deben corresponder a los M vectores que tienen la mayor amplitud del producto interno.

\left|\left\langle f,g_{m}\right\rangle \right|.

Estos son los vectores que mejor correlacionan f. Por tanto, pueden interpretarse como las características principales de f. El error resultante es necesariamente menor que el error de una aproximación lineal que selecciona los M vectores de aproximación independientemente de f. ordenemos

\left\{\left|\left\langle f,g_{m}\right\rangle \right|\right\}_{m\in \mathbb {N} }

en orden decreciente

\left|\left\langle f,g_{m_{k}}\right\rangle \right|\geq \left|\left\langle f,g_{m_{k+1}}\right\rangle \right|.

La mejor aproximación no lineal es

f_{M}=\sum _{k=1}^{M}\left\langle f,g_{m_{k}}\right\rangle g_{m_{k}}

También se puede escribir como umbral interno del producto:

f_{M}=\sum _{m=0}^{\infty }\theta _{T}\left(\left\langle f,g_{m}\right\rangle \right)g_{m}

con

T=\left|\left\langle f,g_{m_{M}}\right\rangle \right|,\qquad \theta _{T}(x)={\begin{cases}x&|x|\geq T\\0&|x|<T\end{cases}}

El error no lineal es

\varepsilon [M]=\left\{\left\|f-f_{M}\right\|^{2}\right\}=\sum _{k=M+1}^{\infty }\left\{\left|\left\langle f,g_{m_{k}}\right\rangle \right|^{2}\right\}

este error llega rápidamente a cero a medida que M aumenta, si los valores ordenados de tienen una rápida caída a medida que k aumenta. Esta caída se cuantifica calculando la norma de los productos internos de la señal en B: $\left|\left\langle f,g_{m_{k}}\right\rangle \right|$ $\mathrm {I} ^{\mathrm {P} }$

\|f\|_{\mathrm {B} ,p}=\left(\sum _{m=0}^{\infty }\left|\left\langle f,g_{m}\right\rangle \right|^{p}\right)^{\frac {1}{p}}

El siguiente teorema relaciona la desintegración de $ε [M]$ con $\|f\|_{\mathrm {B} ,p}$

Teorema (decaimiento del error). Si con $p$ $< 2$ entonces $\|f\|_{\mathrm {B} ,p}<\infty$

\varepsilon [M]\leq {\frac {\|f\|_{\mathrm {B} ,p}^{2}}{{\frac {2}{p}}-1}}M^{1-{\frac {2}{p}}}

\varepsilon [M]=o\left(M^{1-{\frac {2}{p}}}\right).

Por el contrario, si entonces $\varepsilon [M]=o\left(M^{1-{\frac {2}{p}}}\right)$

$\|f\|_{\mathrm {B} ,q}<\infty$ para cualquier $q > p$ .

Falta de optimización de las bases Karhunen-Loève

Para ilustrar mejor las diferencias entre aproximaciones lineales y no lineales, estudiamos la descomposición de un vector aleatorio simple no gaussiano en una base de Karhunen-Loève. Los procesos cuyas realizaciones tienen una traducción aleatoria son estacionarios. La base de Karhunen-Loève es entonces una base de Fourier y estudiamos su comportamiento. Para simplificar el análisis, considere un vector aleatorio Y [ n ] de tamaño N que es el módulo de desplazamiento aleatorio N de una señal determinista f [ n ] de media cero

\sum _{n=0}^{N-1}f[n]=0

Y[n]=f[(n-p){\bmod {N}}]

El desplazamiento aleatorio P se distribuye uniformemente en [0, N − 1]:

\Pr(P=p)={\frac {1}{N}},\qquad 0\leq p<N

Claramente

\mathbf {E} \{Y[n]\}={\frac {1}{N}}\sum _{p=0}^{N-1}f[(n-p){\bmod {N}}]=0

R[n,k]=\mathbf {E} \{Y[n]Y[k]\}={\frac {1}{N}}\sum _{p=0}^{N-1}f[(n-p){\bmod {N}}]f[(k-p){\bmod {N}}]={\frac {1}{N}}f\Theta {\bar {f}}[n-k],\quad {\bar {f}}[n]=f[-n]

Por eso

R[n,k]=R_{Y}[n-k],\qquad R_{Y}[k]={\frac {1}{N}}f\Theta {\bar {f}}[k]

Dado que R _Y es N periódico, Y es un vector aleatorio estacionario circular. El operador de covarianza es una convolución circular con R _Y y, por lo tanto, está diagonalizado en la base discreta de Fourier Karhunen-Loève.

\left\{{\frac {1}{\sqrt {N}}}e^{i2\pi mn/N}\right\}_{0\leq m<N}.

El espectro de potencia es la transformada de Fourier de $R Y$ :

P_{Y}[m]={\hat {R}}_{Y}[m]={\frac {1}{N}}\left|{\hat {f}}[m]\right|^{2}

Ejemplo: Considere un caso extremo en el que . Un teorema mencionado anteriormente garantiza que la base de Fourier Karhunen-Loève produce un error de aproximación esperado menor que una base canónica de Diracs . De hecho, no conocemos a priori la abscisa de los coeficientes distintos de cero de Y , por lo que no existe ningún Dirac en particular que esté mejor adaptado para realizar la aproximación. Pero los vectores de Fourier cubren todo el soporte de Y y por tanto absorben una parte de la energía de la señal. $f[n]=\delta [n]-\delta [n-1]$ $\left\{g_{m}[n]=\delta [n-m]\right\}_{0\leq m<N}$

\mathbf {E} \left\{\left|\left\langle Y[n],{\frac {1}{\sqrt {N}}}e^{i2\pi mn/N}\right\rangle \right|^{2}\right\}=P_{Y}[m]={\frac {4}{N}}\sin ^{2}\left({\frac {\pi k}{N}}\right)

La selección de coeficientes de Fourier de mayor frecuencia produce una mejor aproximación cuadrática media que elegir a priori algunos vectores de Dirac para realizar la aproximación. La situación es totalmente diferente para las aproximaciones no lineales. Entonces , la base discreta de Fourier es extremadamente ineficiente porque f y, por tanto, Y tienen una energía que se distribuye casi uniformemente entre todos los vectores de Fourier. Por el contrario, dado que f tiene sólo dos coeficientes distintos de cero en la base de Dirac, una aproximación no lineal de Y con $M$ $\geq 2$ da un error cero. ^[5] $f[n]=\delta [n]-\delta [n-1]$

Análisis de componentes principales

Hemos establecido el teorema de Karhunen-Loève y hemos derivado algunas propiedades del mismo. También notamos que un obstáculo en su aplicación fue el costo numérico de determinar los valores propios y funciones propias de su operador de covarianza a través de la ecuación integral de Fredholm de segundo tipo.

\int _{a}^{b}K_{X}(s,t)e_{k}(s)\,ds=\lambda _{k}e_{k}(t).

Sin embargo, cuando se aplica a un proceso discreto y finito , el problema toma una forma mucho más simple y se puede utilizar el álgebra estándar para realizar los cálculos. $\left(X_{n}\right)_{n\in \{1,\ldots ,N\}}$

Tenga en cuenta que un proceso continuo también se puede muestrear en N puntos en el tiempo para reducir el problema a una versión finita.

De ahora en adelante consideraremos un vector aleatorio de N dimensiones . Como se mencionó anteriormente, X podría contener N muestras de una señal, pero puede contener muchas más representaciones según el campo de aplicación. Por ejemplo, podrían ser las respuestas a una encuesta o datos económicos en un análisis econométrico. $X=\left(X_{1}~X_{2}~\ldots ~X_{N}\right)^{T}$

Como en la versión continua, asumimos que X está centrado; de lo contrario, podemos dejar (donde está el vector medio de X ) que está centrado. $X:=X-\mu _{X}$ $\mu _{X}$

Adaptemos el procedimiento al caso discreto.

Matriz de covarianza

Recuerde que la principal implicación y dificultad de la transformación KL es calcular los vectores propios del operador lineal asociado a la función de covarianza, que están dados por las soluciones de la ecuación integral escrita anteriormente.

Defina Σ, la matriz de covarianza de X , como una matriz N × N cuyos elementos están dados por:

\Sigma _{ij}=\mathbf {E} [X_{i}X_{j}],\qquad \forall i,j\in \{1,\ldots ,N\}

Reescribiendo la ecuación integral anterior para adaptarla al caso discreto, observamos que se convierte en:

\sum _{j=1}^{N}\Sigma _{ij}e_{j}=\lambda e_{i}\quad \Leftrightarrow \quad \Sigma e=\lambda e

donde es un vector N -dimensional. $e=(e_{1}~e_{2}~\ldots ~e_{N})^{T}$

La ecuación integral se reduce así a un simple problema matricial de valores propios, lo que explica por qué el PCA tiene un dominio de aplicaciones tan amplio.

Dado que Σ es una matriz simétrica definida positiva, posee un conjunto de vectores propios ortonormales que forman una base de , y escribimos este conjunto de valores propios y vectores propios correspondientes, enumerados en valores decrecientes de $λ$ $i$ . Sea también $Φ$ la matriz ortonormal que consta de estos vectores propios: $\mathbb {R} ^{N}$ $\{\lambda _{i},\varphi _{i}\}_{i\in \{1,\ldots ,N\}}$

{\begin{aligned}\Phi &:=\left(\varphi _{1}~\varphi _{2}~\ldots ~\varphi _{N}\right)^{T}\\\Phi ^{T}\Phi &=I\end{aligned}}

Transformación de componente principal

Queda por realizar la transformación KL real, denominada transformación de componente principal en este caso. Recuerde que la transformada se encontró expandiendo el proceso con respecto a la base abarcada por los vectores propios de la función de covarianza. En este caso tenemos por tanto:

X=\sum _{i=1}^{N}\langle \varphi _{i},X\rangle \varphi _{i}=\sum _{i=1}^{N}\varphi _{i}^{T}X\varphi _{i}

En una forma más compacta, la transformada del componente principal de X está definida por:

{\begin{cases}Y=\Phi ^{T}X\\X=\Phi Y\end{cases}}

El i -ésimo componente de Y es , la proyección de X en y la transformada inversa $X$ $= Φ$ $Y$ produce la expansión de $X$ en el espacio abarcado por : $Y_{i}=\varphi _{i}^{T}X$ $\varphi _{i}$ $\varphi _{i}$

X=\sum _{i=1}^{N}Y_{i}\varphi _{i}=\sum _{i=1}^{N}\langle \varphi _{i},X\rangle \varphi _{i}

Como en el caso continuo, podemos reducir la dimensionalidad del problema truncando la suma en algún punto tal que $K\in \{1,\ldots ,N\}$

{\frac {\sum _{i=1}^{K}\lambda _{i}}{\sum _{i=1}^{N}\lambda _{i}}}\geq \alpha

donde α es el umbral de varianza explicada que deseamos establecer.

También podemos reducir la dimensionalidad mediante el uso de estimación de vector propio dominante multinivel (MDEE). ^[6]

Ejemplos

El proceso de Viena

Existen numerosas caracterizaciones equivalentes del proceso de Wiener , que es una formalización matemática del movimiento browniano . Aquí lo consideramos como el proceso gaussiano estándar centrado W _t con función de covarianza

K_{W}(t,s)=\operatorname {cov} (W_{t},W_{s})=\min(s,t).

Restringimos el dominio del tiempo a [ a , b ]=[0,1] sin pérdida de generalidad.

Los vectores propios del núcleo de covarianza se determinan fácilmente. Estos son

e_{k}(t)={\sqrt {2}}\sin \left(\left(k-{\tfrac {1}{2}}\right)\pi t\right)

y los valores propios correspondientes son

\lambda _{k}={\frac {1}{(k-{\frac {1}{2}})^{2}\pi ^{2}}}.

Prueba

Para encontrar los valores propios y los vectores propios, necesitamos resolver la ecuación integral:

{\begin{aligned}\int _{a}^{b}K_{W}(s,t)e(s)\,ds&=\lambda e(t)\qquad \forall t,0\leq t\leq 1\\\int _{0}^{1}\min(s,t)e(s)\,ds&=\lambda e(t)\qquad \forall t,0\leq t\leq 1\\\int _{0}^{t}se(s)\,ds+t\int _{t}^{1}e(s)\,ds&=\lambda e(t)\qquad \forall t,0\leq t\leq 1\end{aligned}}

derivando una vez con respecto a t se obtiene:

\int _{t}^{1}e(s)\,ds=\lambda e'(t)

una segunda diferenciación produce la siguiente ecuación diferencial:

-e(t)=\lambda e''(t)

cuya solución general tiene la forma:

e(t)=A\sin \left({\frac {t}{\sqrt {\lambda }}}\right)+B\cos \left({\frac {t}{\sqrt {\lambda }}}\right)

donde A y B son dos constantes que se determinarán con las condiciones de contorno. Establecer t = 0 en la ecuación integral inicial da e (0) = 0, lo que implica que B = 0 y de manera similar, establecer t = 1 en la primera diferenciación produce e' (1) = 0, de donde:

\cos \left({\frac {1}{\sqrt {\lambda }}}\right)=0

lo que a su vez implica que los valores propios de T _{K _X} son:

\lambda _{k}=\left({\frac {1}{(k-{\frac {1}{2}})\pi }}\right)^{2},\qquad k\geq 1

Las funciones propias correspondientes son, por tanto, de la forma:

e_{k}(t)=A\sin \left((k-{\frac {1}{2}})\pi t\right),\qquad k\geq 1

Luego se elige A para normalizar e _k :

\int _{0}^{1}e_{k}^{2}(t)\,dt=1\quad \implies \quad A={\sqrt {2}}

Esto da la siguiente representación del proceso de Wiener:

Teorema . Existe una secuencia { Z _i } _i de variables aleatorias gaussianas independientes con media cero y varianza 1 tal que

W_{t}={\sqrt {2}}\sum _{k=1}^{\infty }Z_{k}{\frac {\sin \left(\left(k-{\frac {1}{2}}\right)\pi t\right)}{\left(k-{\frac {1}{2}}\right)\pi }}.

Tenga en cuenta que esta representación sólo es válida para intervalos mayores, los incrementos no son independientes. Como se establece en el teorema, la convergencia es en la norma L ² y uniforme en t . $t\in [0,1].$

El puente browniano

De manera similar, el puente browniano , que es un proceso estocástico con función de covarianza $B_{t}=W_{t}-tW_{1}$

K_{B}(t,s)=\min(t,s)-ts

se puede representar como la serie

B_{t}=\sum _{k=1}^{\infty }Z_{k}{\frac {{\sqrt {2}}\sin(k\pi t)}{k\pi }}

Aplicaciones

Los sistemas de óptica adaptativa a veces utilizan funciones K – L para reconstruir la información de fase del frente de onda (Dai 1996, JOSA A). La expansión de Karhunen-Loève está estrechamente relacionada con la descomposición de valores singulares . Este último tiene innumerables aplicaciones en procesamiento de imágenes, radar, sismología y similares. Si uno tiene observaciones de vectores independientes de un proceso estocástico valorado por vectores, entonces los vectores singulares izquierdos son estimaciones de máxima verosimilitud de la expansión KL del conjunto.

Aplicaciones en estimación y detección de señales.

Detección de una señal continua conocida S ( t )

En comunicación, normalmente tenemos que decidir si una señal de un canal ruidoso contiene información valiosa. La siguiente prueba de hipótesis se utiliza para detectar la señal continua s ( t ) de la salida del canal X ( t ), N ( t ) es el ruido del canal, que generalmente se supone un proceso gaussiano de media cero con función de correlación. $R_{N}(t,s)=E[N(t)N(s)]$

H:X(t)=N(t),

K:X(t)=N(t)+s(t),\quad t\in (0,T)

Detección de señal en ruido blanco.

Cuando el ruido del canal es blanco, su función de correlación es

R_{N}(t)={\tfrac {1}{2}}N_{0}\delta (t),

y tiene una densidad de espectro de potencia constante. En un canal físicamente práctico, la potencia del ruido es finita, por lo que:

S_{N}(f)={\begin{cases}{\frac {N_{0}}{2}}&|f|<w\\0&|f|>w\end{cases}}

Entonces la función de correlación de ruido es una función sinc con ceros en Dado que no están correlacionados y son gaussianos, son independientes. Por tanto, podemos tomar muestras de X ( t ) con espaciamiento temporal. ${\frac {n}{2\omega }},n\in \mathbf {Z} .$

\Delta t={\frac {n}{2\omega }}{\text{ within }}(0,''T'').

Dejar . Tenemos un total de observaciones iid para desarrollar la prueba de razón de verosimilitud. Defina señal , el problema es: $X_{i}=X(i\,\Delta t)$ $n={\frac {T}{\Delta t}}=T(2\omega )=2\omega T$ $\{X_{1},X_{2},\ldots ,X_{n}\}$ $S_{i}=S(i\,\Delta t)$

H:X_{i}=N_{i},

K:X_{i}=N_{i}+S_{i},i=1,2,\ldots ,n.

La relación de probabilidad logarítmica

{\mathcal {L}}({\underline {x}})=\log {\frac {\sum _{i=1}^{n}(2S_{i}x_{i}-S_{i}^{2})}{2\sigma ^{2}}}\Leftrightarrow \Delta t\sum _{i=1}^{n}S_{i}x_{i}=\sum _{i=1}^{n}S(i\,\Delta t)x(i\,\Delta t)\,\Delta t\gtrless \lambda _{\cdot }2

Como $t \to 0$ , sea:

G=\int _{0}^{T}S(t)x(t)\,dt.

Entonces G es la estadística de prueba y el detector óptimo de Neyman-Pearson es

G({\underline {x}})>G_{0}\Rightarrow K<G_{0}\Rightarrow H.

Como G es gaussiano, podemos caracterizarlo encontrando su media y varianzas. Entonces obtenemos

H:G\sim N\left(0,{\tfrac {1}{2}}N_{0}E\right)

K:G\sim N\left(E,{\tfrac {1}{2}}N_{0}E\right)

dónde

\mathbf {E} =\int _{0}^{T}S^{2}(t)\,dt

es la energía de la señal.

El error de falsa alarma

\alpha =\int _{G_{0}}^{\infty }N\left(0,{\tfrac {1}{2}}N_{0}E\right)\,dG\Rightarrow G_{0}={\sqrt {{\tfrac {1}{2}}N_{0}E}}\Phi ^{-1}(1-\alpha )

Y la probabilidad de detección:

\beta =\int _{G_{0}}^{\infty }N\left(E,{\tfrac {1}{2}}N_{0}E\right)\,dG=1-\Phi \left({\frac {G_{0}-E}{\sqrt {{\tfrac {1}{2}}N_{0}E}}}\right)=\Phi \left({\sqrt {\frac {2E}{N_{0}}}}-\Phi ^{-1}(1-\alpha )\right),

donde Φ es la CDF de la variable normal estándar o gaussiana.

Detección de señal en ruido coloreado.

Cuando N (t) está coloreado (correlacionado en el tiempo) con ruido gaussiano con media cero y función de covarianza, no podemos muestrear observaciones discretas independientes espaciando uniformemente el tiempo. En su lugar, podemos utilizar la expansión K – L para descorrelacionar el proceso de ruido y obtener "muestras" de observación gaussiana independientes. La expansión K – L de N ( t ): $R_{N}(t,s)=E[N(t)N(s)],$

N(t)=\sum _{i=1}^{\infty }N_{i}\Phi _{i}(t),\quad 0<t<T,

donde y las bases ortonormales son generadas por kernel , es decir, solución a $N_{i}=\int N(t)\Phi _{i}(t)\,dt$ $\{\Phi _{i}{t}\}$ $R_{N}(t,s)$

\int _{0}^{T}R_{N}(t,s)\Phi _{i}(s)\,ds=\lambda _{i}\Phi _{i}(t),\quad \operatorname {var} [N_{i}]=\lambda _{i}.

Haz la expansión:

S(t)=\sum _{i=1}^{\infty }S_{i}\Phi _{i}(t),

donde entonces $S_{i}=\int _{0}^{T}S(t)\Phi _{i}(t)\,dt$

X_{i}=\int _{0}^{T}X(t)\Phi _{i}(t)\,dt=N_{i}

bajo H y bajo K. Seamos , tenemos $N_{i}+S_{i}$ ${\overline {X}}=\{X_{1},X_{2},\dots \}$

N_{i}

son rv gaussianos independientes con varianza

\lambda _{i}

bajo H: son rv gaussianas independientes.

\{X_{i}\}

f_{H}[x(t)|0<t<T]=f_{H}({\underline {x}})=\prod _{i=1}^{\infty }{\frac {1}{\sqrt {2\pi \lambda _{i}}}}\exp \left(-{\frac {x_{i}^{2}}{2\lambda _{i}}}\right)

bajo K: son rv gaussianas independientes.

\{X_{i}-S_{i}\}

f_{K}[x(t)\mid 0<t<T]=f_{K}({\underline {x}})=\prod _{i=1}^{\infty }{\frac {1}{\sqrt {2\pi \lambda _{i}}}}\exp \left(-{\frac {(x_{i}-S_{i})^{2}}{2\lambda _{i}}}\right)

Por lo tanto, el log-LR viene dado por

{\mathcal {L}}({\underline {x}})=\sum _{i=1}^{\infty }{\frac {2S_{i}x_{i}-S_{i}^{2}}{2\lambda _{i}}}

y el detector óptimo es

G=\sum _{i=1}^{\infty }S_{i}x_{i}\lambda _{i}>G_{0}\Rightarrow K,<G_{0}\Rightarrow H.

Definir

k(t)=\sum _{i=1}^{\infty }\lambda _{i}S_{i}\Phi _{i}(t),0<t<T,

entonces $G=\int _{0}^{T}k(t)x(t)\,dt.$

Cómo encontrar k ( t )

Desde

\int _{0}^{T}R_{N}(t,s)k(s)\,ds=\sum _{i=1}^{\infty }\lambda _{i}S_{i}\int _{0}^{T}R_{N}(t,s)\Phi _{i}(s)\,ds=\sum _{i=1}^{\infty }S_{i}\Phi _{i}(t)=S(t),

k(t) es la solución a

\int _{0}^{T}R_{N}(t,s)k(s)\,ds=S(t).

Si N ( t ) es estacionario en sentido amplio,

\int _{0}^{T}R_{N}(t-s)k(s)\,ds=S(t),

que se conoce como ecuación de Wiener-Hopf . La ecuación se puede resolver tomando la transformada de Fourier, pero no es prácticamente realizable ya que el espectro infinito necesita factorización espacial. Un caso especial que es fácil de calcular k ( t ) es el ruido blanco gaussiano.

\int _{0}^{T}{\frac {N_{0}}{2}}\delta (t-s)k(s)\,ds=S(t)\Rightarrow k(t)=CS(t),\quad 0<t<T.

La respuesta al impulso correspondiente es h ( t ) = k ( T − t ) = CS ( T − t ). Sea C = 1, este es solo el resultado al que llegamos en la sección anterior para detectar señales en ruido blanco.

Umbral de prueba para el detector Neyman-Pearson

Dado que X(t) es un proceso gaussiano,

G=\int _{0}^{T}k(t)x(t)\,dt,

es una variable aleatoria gaussiana que se puede caracterizar por su media y varianza.

{\begin{aligned}\mathbf {E} [G\mid H]&=\int _{0}^{T}k(t)\mathbf {E} [x(t)\mid H]\,dt=0\\\mathbf {E} [G\mid K]&=\int _{0}^{T}k(t)\mathbf {E} [x(t)\mid K]\,dt=\int _{0}^{T}k(t)S(t)\,dt\equiv \rho \\\mathbf {E} [G^{2}\mid H]&=\int _{0}^{T}\int _{0}^{T}k(t)k(s)R_{N}(t,s)\,dt\,ds=\int _{0}^{T}k(t)\left(\int _{0}^{T}k(s)R_{N}(t,s)\,ds\right)=\int _{0}^{T}k(t)S(t)\,dt=\rho \\\operatorname {var} [G\mid H]&=\mathbf {E} [G^{2}\mid H]-(\mathbf {E} [G\mid H])^{2}=\rho \\\mathbf {E} [G^{2}\mid K]&=\int _{0}^{T}\int _{0}^{T}k(t)k(s)\mathbf {E} [x(t)x(s)]\,dt\,ds=\int _{0}^{T}\int _{0}^{T}k(t)k(s)(R_{N}(t,s)+S(t)S(s))\,dt\,ds=\rho +\rho ^{2}\\\operatorname {var} [G\mid K]&=\mathbf {E} [G^{2}|K]-(\mathbf {E} [G|K])^{2}=\rho +\rho ^{2}-\rho ^{2}=\rho \end{aligned}}

Por tanto, obtenemos las distribuciones de H y K :

H:G\sim N(0,\rho )

K:G\sim N(\rho ,\rho )

El error de falsa alarma es

\alpha =\int _{G_{0}}^{\infty }N(0,\rho )\,dG=1-\Phi \left({\frac {G_{0}}{\sqrt {\rho }}}\right).

Entonces, el umbral de prueba para el detector óptimo de Neyman-Pearson es

G_{0}={\sqrt {\rho }}\Phi ^{-1}(1-\alpha ).

Su poder de detección es

\beta =\int _{G_{0}}^{\infty }N(\rho ,\rho )\,dG=\Phi \left({\sqrt {\rho }}-\Phi ^{-1}(1-\alpha )\right)

Cuando el ruido es un proceso gaussiano blanco, la potencia de la señal es

\rho =\int _{0}^{T}k(t)S(t)\,dt=\int _{0}^{T}S(t)^{2}\,dt=E.

Preblanqueamiento

Para algún tipo de ruido de color, una práctica típica es agregar un filtro de preblanqueo antes del filtro correspondiente para transformar el ruido de color en ruido blanco. Por ejemplo, N(t) es un ruido coloreado estacionario de sentido amplio con función de correlación

R_{N}(\tau )={\frac {BN_{0}}{4}}e^{-B|\tau |}

S_{N}(f)={\frac {N_{0}}{2(1+({\frac {w}{B}})^{2})}}

La función de transferencia del filtro preblanqueador es

H(f)=1+j{\frac {w}{B}}.

Detección de una señal aleatoria gaussiana en ruido blanco gaussiano aditivo (AWGN)

Cuando la señal que queremos detectar del canal ruidoso también es aleatoria, por ejemplo, un proceso gaussiano blanco X ( t ), aún podemos implementar la expansión K – L para obtener una secuencia de observación independiente. En este caso, el problema de detección se describe a continuación:

H_{0}:Y(t)=N(t)

H_{1}:Y(t)=N(t)+X(t),\quad 0<t<T.

X ( t ) es un proceso aleatorio con función de correlación $R_{X}(t,s)=E\{X(t)X(s)\}$

La expansión K – L de X ( t ) es

X(t)=\sum _{i=1}^{\infty }X_{i}\Phi _{i}(t),

dónde

X_{i}=\int _{0}^{T}X(t)\Phi _{i}(t)\,dt

y son soluciones a $\Phi _{i}(t)$

\int _{0}^{T}R_{X}(t,s)\Phi _{i}(s)ds=\lambda _{i}\Phi _{i}(t).

Entonces las son secuencias independientes de rv con media y varianza cero . Desarrollando Y ( t ) y N ( t ) por , obtenemos $X_{i}$ $\lambda _{i}$ $\Phi _{i}(t)$

Y_{i}=\int _{0}^{T}Y(t)\Phi _{i}(t)\,dt=\int _{0}^{T}[N(t)+X(t)]\Phi _{i}(t)=N_{i}+X_{i},

dónde

N_{i}=\int _{0}^{T}N(t)\Phi _{i}(t)\,dt.

Como N ( t ) es ruido blanco gaussiano, los 's son una secuencia iid de rv con media y varianza cero , entonces el problema se simplifica de la siguiente manera: $N_{i}$ ${\tfrac {1}{2}}N_{0}$

H_{0}:Y_{i}=N_{i}

H_{1}:Y_{i}=N_{i}+X_{i}

La prueba óptima de Neyman-Pearson:

\Lambda ={\frac {f_{Y}\mid H_{1}}{f_{Y}\mid H_{0}}}=Ce^{-\sum _{i=1}^{\infty }{\frac {y_{i}^{2}}{2}}{\frac {\lambda _{i}}{{\tfrac {1}{2}}N_{0}({\tfrac {1}{2}}N_{0}+\lambda _{i})}}},

entonces la razón logarítmica de verosimilitud es

{\mathcal {L}}=\ln(\Lambda )=K-\sum _{i=1}^{\infty }{\tfrac {1}{2}}y_{i}^{2}{\frac {\lambda _{i}}{{\frac {N_{0}}{2}}\left({\frac {N_{0}}{2}}+\lambda _{i}\right)}}.

Desde

{\widehat {X}}_{i}={\frac {\lambda _{i}}{{\frac {N_{0}}{2}}\left({\frac {N_{0}}{2}}+\lambda _{i}\right)}}

es solo la estimación cuadrática media mínima de los dados , $X_{i}$ $Y_{i}$

{\mathcal {L}}=K+{\frac {1}{N_{0}}}\sum _{i=1}^{\infty }Y_{i}{\widehat {X}}_{i}.

La expansión K – L tiene la siguiente propiedad: Si

f(t)=\sum f_{i}\Phi _{i}(t),g(t)=\sum g_{i}\Phi _{i}(t),

dónde

f_{i}=\int _{0}^{T}f(t)\Phi _{i}(t)\,dt,\quad g_{i}=\int _{0}^{T}g(t)\Phi _{i}(t)\,dt.

entonces

\sum _{i=1}^{\infty }f_{i}g_{i}=\int _{0}^{T}g(t)f(t)\,dt.

Entonces deja

{\widehat {X}}(t\mid T)=\sum _{i=1}^{\infty }{\widehat {X}}_{i}\Phi _{i}(t),\quad {\mathcal {L}}=K+{\frac {1}{N_{0}}}\int _{0}^{T}Y(t){\widehat {X}}(t\mid T)\,dt.

El filtro no causal Q ( t , s ) se puede utilizar para obtener la estimación

{\widehat {X}}(t\mid T)=\int _{0}^{T}Q(t,s)Y(s)\,ds.

Por principio de ortogonalidad , Q ( t , s ) satisface

\int _{0}^{T}Q(t,s)R_{X}(s,t)\,ds+{\tfrac {N_{0}}{2}}Q(t,\lambda )=R_{X}(t,\lambda ),0<\lambda <T,0<t<T.

Sin embargo, por razones prácticas, es necesario derivar más el filtro causal h ( t , s ), donde h ( t , s ) = 0 para s > t , para obtener la estimación . Específicamente, ${\widehat {X}}(t\mid t)$

Q(t,s)=h(t,s)+h(s,t)-\int _{0}^{T}h(\lambda ,t)h(s,\lambda )\,d\lambda

Ver también

Notas

^ Sapatnekar, Sachin (2011), "Superar variaciones en tecnologías de escala nanométrica", Revista IEEE sobre temas emergentes y seleccionados en circuitos y sistemas , 1 (1): 5–18, Bibcode : 2011IJEST...1.... 5S, CiteSeerX 10.1.1.300.5659 , doi : 10.1109/jetcas.2011.2138250, S2CID 15566585
^ Ghoman, Satyajit; Wang, Zhicun; Chen, ordenador personal; Kapania, Rakesh (2012). "Un esquema de diseño de pedido reducido basado en POD para la optimización de la forma de vehículos aéreos". Procedimiento de la 53ª Conferencia AIAA/ASME/ASCE/AHS/ASC sobre estructuras, dinámica estructural y materiales, AIAA-2012-1808, Honolulu, Hawaii .
^ Karhunen-Loeve transform (KLT) Archivado el 28 de noviembre de 2016 en Wayback Machine , conferencias sobre procesamiento y análisis de imágenes por computadora (E161), Harvey Mudd College
^ Giambartolomei, Giordano (2016). "4 El teorema de Karhunen-Loève". El teorema de Karhunen-Loève (Licenciaturas). Universidad de Bolonia.
^ Un recorrido por ondas por el procesamiento de señales-Stéphane Mallat
^ X. Tang, “Información de textura en matrices de longitud de ejecución”, IEEE Transactions on Image Processing, vol. 7, núm. 11, págs. 1602–1609, noviembre de 1998

Referencias

Rígido, Henry; Bosques, John W. (1986). Probabilidad, procesos aleatorios y teoría de la estimación para ingenieros . Prentice-Hall, Inc. ISBN 978-0-13-711706-2. OL 21138080M.
Ghanem, Roger; Spanos, Pol (1991). Elementos finitos estocásticos: un enfoque espectral . Springer-Verlag. ISBN 978-0-387-97456-9. OL 1865197M.
Guikhman, I.; Skorokhod, A. (1977). Introducción a la Théorie des Processus Aléatoires . Ediciones MIR.
Simón, B. (1979). Integración Funcional y Física Cuántica . Prensa académica.
Karhunen, Kari (1947). "Über lineare Methoden in der Wahrscheinlichkeitsrechnung". Ana. Acad. Ciencia. Fennicae. Ser. A I. Matemáticas.-Física . 37 : 1–79.
Loève, M. (1978). Teoría de probabilidad. vol. II, 4ª ed . Textos de Posgrado en Matemáticas. vol. 46. Springer-Verlag. ISBN 978-0-387-90262-3.
Dai, G. (1996). "Reconstrucción modal del frente de onda con polinomios de Zernike y funciones de Karhunen-Loeve". JOSA A. 13 (6): 1218. Código bibliográfico : 1996JOSAA..13.1218D. doi :10.1364/JOSAA.13.001218.
Wu B., Zhu J., Najm F.(2005) "Un enfoque no paramétrico para la estimación del rango dinámico de sistemas no lineales". En actas de la Conferencia de automatización del diseño (841-844) 2005
Wu B., Zhu J., Najm F.(2006) "Estimación del rango dinámico". Transacciones IEEE sobre diseño asistido por computadora de circuitos y sistemas integrados, vol. 25 Número: 9 (1618-1636) 2006
Jorgensen, Palle et al; Canción, Myung-Sin (2007). "Codificación de entropía, espacio de Hilbert y transformaciones de Karhunen-Loeve". Revista de Física Matemática . 48 (10): 103503. arXiv : math-ph/0701056 . Código Bib : 2007JMP....48j3503J. doi : 10.1063/1.2793569. S2CID 17039075.

enlaces externos

Mathematica KarhunenLoeveFunción de descomposición.
E161: Notas de análisis y procesamiento de imágenes por computadora del Pr. Ruye Wang en Harvey Mudd College [1]