Teoría de los procesos estocásticos.
En la teoría de los procesos estocásticos , el teorema de Karhunen-Loève (llamado así por Kari Karhunen y Michel Loève ), también conocido como teorema de Kosambi-Karhunen-Loève [1] [2] establece que un proceso estocástico se puede representar como un proceso lineal infinito. combinación de funciones ortogonales , análoga a una representación en serie de Fourier de una función en un intervalo acotado. La transformación también se conoce como transformada de Hotelling y transformada de vector propio , y está estrechamente relacionada con la técnica de análisis de componentes principales (PCA) ampliamente utilizada en el procesamiento de imágenes y en el análisis de datos en muchos campos. [3]
Existen muchas expansiones de este tipo de un proceso estocástico: si el proceso está indexado sobre [ a , b ] , cualquier base ortonormal de L 2 ([ a , b ]) produce una expansión del mismo en esa forma. La importancia del teorema de Karhunen-Loève es que produce la mejor base en el sentido de que minimiza el error cuadrático medio total .
A diferencia de una serie de Fourier donde los coeficientes son números fijos y la base de expansión consta de funciones sinusoidales (es decir, funciones seno y coseno ), los coeficientes en el teorema de Karhunen-Loève son variables aleatorias y la base de expansión depende del proceso. De hecho, las funciones de base ortogonal utilizadas en esta representación están determinadas por la función de covarianza del proceso. Se puede pensar que la transformada de Karhunen-Loève se adapta al proceso para producir la mejor base posible para su expansión.
En el caso de un proceso estocástico centrado { X t } t ∈ [ a , b ] ( centrado significa E [ X t ] = 0 para todo t ∈ [ a , b ] ) que satisface una condición técnica de continuidad, X admite una descomposición
![{\displaystyle X_{t}=\sum _ {k=1}^{\infty }Z_{k}e_{k}(t)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
donde Z k son variables aleatorias no correlacionadas por pares y las funciones e k son funciones continuas de valores reales en [ a , b ] que son ortogonales por pares en L 2 ([ a , b ]) . Por lo tanto, a veces se dice que la expansión es biortogonal ya que los coeficientes aleatorios Z k son ortogonales en el espacio de probabilidad mientras que las funciones deterministas e k son ortogonales en el dominio del tiempo. El caso general de un proceso X t que no está centrado puede volverse al caso de un proceso centrado considerando X t − E [ X t ] que es un proceso centrado.
Además, si el proceso es gaussiano , entonces las variables aleatorias Zk son gaussianas y estocásticamente independientes . Este resultado generaliza la transformada de Karhunen-Loève . Un ejemplo importante de un proceso estocástico real centrado en [0, 1] es el proceso de Wiener ; El teorema de Karhunen-Loève se puede utilizar para proporcionarle una representación ortogonal canónica. En este caso la expansión consta de funciones sinusoidales.
La expansión anterior en variables aleatorias no correlacionadas también se conoce como expansión de Karhunen-Loève o descomposición de Karhunen-Loève . La versión empírica (es decir, con los coeficientes calculados a partir de una muestra) se conoce como transformada de Karhunen-Loève (KLT), análisis de componentes principales , descomposición ortogonal adecuada (POD) , funciones ortogonales empíricas (un término utilizado en meteorología y geofísica ), o la transformada de Hotelling .
Formulación
- A lo largo de este artículo, consideraremos un proceso aleatorio Xt definido sobre un espacio de probabilidad (Ω, F , P ) e indexado sobre un intervalo cerrado [ a , b ] , que es integrable al cuadrado , tiene media cero y tiene covarianza. función K X ( s , t ) . En otras palabras, tenemos:
![{\displaystyle \forall t\in [a,b]\qquad X_{t}\in L^{2}(\Omega ,F,\mathbf {P} ),\quad {\text{es decir }}\mathbf {E} [X_ {t}^{2}]<\infty,}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \forall t\in [a,b]\qquad \mathbf {E} [X_{t}]=0,}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \forall t,s\in [a,b]\qquad K_{X}(s,t)=\mathbf {E} [X_{s}X_{t}].}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
La condición de integración cuadrada es lógicamente equivalente a ser finita para todos . [4]![{\displaystyle \mathbf {E} [X_ {t}^{2}]<\infty}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle K_{X}(s,t)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle s,t\en [a,b]}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\begin{aligned}&T_{K_{X}}&:L^{2}([a,b])&\to L^{2}([a,b])\\&&:f \mapsto T_{K_{X}}f&=\int _{a}^{b}K_{X}(s,\cdot )f(s)\,ds\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
- Dado que T K X es un operador lineal, tiene sentido hablar de sus valores propios λ k y funciones propias e k , que se encuentran resolviendo la ecuación integral homogénea de Fredholm de segundo tipo.
![{\displaystyle \int _{a}^{b}K_{X}(s,t)e_{k}(s)\,ds=\lambda _{k}e_{k}(t)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Declaración del teorema
Teorema . Sea X t un proceso estocástico cuadrático de media cero integrable definido sobre un espacio de probabilidad (Ω, F , P ) e indexado sobre un intervalo cerrado y acotado [ a , b ], con función de covarianza continua K X ( s , t ) .
Entonces K X ( s,t ) es un núcleo de Mercer y siendo e k una base ortonormal sobre L 2 ([ a , b ]) formada por las funciones propias de T K X con sus respectivos valores propios λ k , X t admite la siguiente representación
![{\displaystyle X_{t}=\sum _ {k=1}^{\infty }Z_{k}e_{k}(t)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
donde la convergencia es en L 2 , uniforme en t y
![{\displaystyle Z_{k}=\int _ {a}^{b}X_ {t}e_ {k}(t)\,dt}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Además, las variables aleatorias Z k tienen media cero, no están correlacionadas y tienen varianza λ k
![{\displaystyle \mathbf {E} [Z_{k}]=0,~\forall k\in \mathbb {N} \qquad {\mbox{y}}\qquad \mathbf {E} [Z_{i}Z_ {j}]=\delta _{ij}\lambda _{j},~\forall i,j\in \mathbb {N} }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Tenga en cuenta que mediante generalizaciones del teorema de Mercer podemos reemplazar el intervalo [ a , b ] con otros espacios compactos C y la medida de Lebesgue en [ a , b ] con una medida de Borel cuyo soporte es C.
Prueba
- La función de covarianza K X satisface la definición de núcleo de Mercer. Según el teorema de Mercer , existe en consecuencia un conjunto λ k , e k ( t ) de valores propios y funciones propias de T K X que forman una base ortonormal de L 2 ([ a , b ]) , y K X puede expresarse como
![{\displaystyle K_{X}(s,t)=\sum _ {k=1}^{\infty }\lambda _ {k}e_{k}(s)e_{k}(t)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
- El proceso X t se puede expandir en términos de las funciones propias e k como:
![{\displaystyle X_{t}=\sum _ {k=1}^{\infty }Z_{k}e_{k}(t)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
- donde los coeficientes (variables aleatorias) Z k están dados por la proyección de X t sobre las respectivas funciones propias
![{\displaystyle Z_{k}=\int _ {a}^{b}X_ {t}e_ {k}(t)\,dt}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\begin{aligned}\mathbf {E} [Z_{k}]&=\mathbf {E} \left[\int _{a}^{b}X_{t}e_{k}(t )\,dt\right]=\int _{a}^{b}\mathbf {E} [X_{t}]e_{k}(t)dt=0\\[8pt]\mathbf {E} [ Z_{i}Z_{j}]&=\mathbf {E} \left[\int _{a}^{b}\int _{a}^{b}X_{t}X_{s}e_{j }(t)e_{i}(s)\,dt\,ds\right]\\&=\int _{a}^{b}\int _{a}^{b}\mathbf {E} \ left[X_{t}X_{s}\right]e_{j}(t)e_{i}(s)\,dt\,ds\\&=\int _{a}^{b}\int _ {a}^{b}K_{X}(s,t)e_{j}(t)e_{i}(s)\,dt\,ds\\&=\int _{a}^{b} e_{i}(s)\left(\int _{a}^{b}K_{X}(s,t)e_{j}(t)\,dt\right)\,ds\\&=\ lambda _{j}\int _{a}^{b}e_{i}(s)e_{j}(s)\,ds\\&=\delta _{ij}\lambda _{j}\end {alineado}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
- donde hemos utilizado el hecho de que las e k son funciones propias de T K X y son ortonormales.
- Demostremos ahora que la convergencia está en L 2 . Dejar
![{\displaystyle S_{N}=\sum _ {k=1}^{N}Z_{k}e_{k}(t).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
- Entonces:
![{\displaystyle {\begin{aligned}\mathbf {E} \left[\left|X_{t}-S_{N}\right|^{2}\right]&=\mathbf {E} \left[X_ {t}^{2}\right]+\mathbf {E} \left[S_{N}^{2}\right]-2\mathbf {E} \left[X_{t}S_{N}\right ]\\&=K_{X}(t,t)+\mathbf {E} \left[\sum _{k=1}^{N}\sum _{l=1}^{N}Z_{k }Z_{\ell }e_{k}(t)e_{\ell }(t)\right]-2\mathbf {E} \left[X_{t}\sum _{k=1}^{N} Z_{k}e_{k}(t)\right]\\&=K_{X}(t,t)+\sum _{k=1}^{N}\lambda _{k}e_{k} (t)^{2}-2\mathbf {E} \left[\sum _{k=1}^{N}\int _{a}^{b}X_{t}X_{s}e_{k }(s)e_{k}(t)\,ds\right]\\&=K_{X}(t,t)-\sum _{k=1}^{N}\lambda _{k}e_ {k}(t)^{2}\end{alineado}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
- que llega a 0 según el teorema de Mercer.
Propiedades de la transformada de Karhunen-Loève
Caso especial: distribución gaussiana
Dado que el límite en la media de las variables aleatorias conjuntamente gaussianas es conjuntamente gaussiana, y las variables aleatorias (centradas) conjuntamente gaussianas son independientes si y sólo si son ortogonales, también podemos concluir:
Teorema . Las variables Z i tienen una distribución gaussiana conjunta y son estocásticamente independientes si el proceso original { X t } t es gaussiano.
En el caso gaussiano, como las variables Z i son independientes, podemos decir más:
![{\displaystyle \lim _{N\to \infty }\sum _{i=1}^{N}e_{i}(t)Z_{i}(\omega )=X_{t}(\omega )}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
casi con seguridad.
La transformada de Karhunen-Loève descorrelaciona el proceso
Esto es consecuencia de la independencia de Z k .
La expansión de Karhunen-Loève minimiza el error cuadrático medio total
En la introducción, mencionamos que la expansión truncada de Karhunen-Loeve fue la mejor aproximación del proceso original en el sentido de que reduce el error cuadrático medio total resultante de su truncamiento. Debido a esta propiedad, a menudo se dice que la transformada KL compacta la energía de manera óptima.
Más específicamente, dada cualquier base ortonormal { f k } de L 2 ([ a , b ]) , podemos descomponer el proceso X t como:
![{\displaystyle X_{t}(\omega )=\sum _ {k=1}^{\infty }A_{k}(\omega )f_{k}(t)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
dónde
![{\displaystyle A_{k}(\omega )=\int _ {a}^{b}X_{t}(\omega )f_{k}(t)\,dt}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
y podemos aproximar X t por la suma finita
![{\displaystyle {\hat {X}}_{t}(\omega )=\sum _ {k=1}^{N}A_{k}(\omega )f_{k}(t)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
para algún número entero N .
Afirmar . De todas estas aproximaciones, la aproximación KL es la que minimiza el error cuadrático medio total (siempre que hayamos ordenado los valores propios en orden decreciente).
PruebaConsidere el error resultante del truncamiento en el N -ésimo término en la siguiente expansión ortonormal:
![{\displaystyle \varepsilon _{N}(t)=\sum _{k=N+1}^{\infty }A_{k}(\omega )f_{k}(t)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
El error cuadrático medio ε N 2 ( t ) se puede escribir como:
![{\displaystyle {\begin{aligned}\varepsilon _{N}^{2}(t)&=\mathbf {E} \left[\sum _{i=N+1}^{\infty }\sum _ {j=N+1}^{\infty }A_{i}(\omega )A_{j}(\omega )f_{i}(t)f_{j}(t)\right]\\&=\ suma _{i=N+1}^{\infty }\sum _{j=N+1}^{\infty }\mathbf {E} \left[\int _{a}^{b}\int _ {a}^{b}X_{t}X_{s}f_{i}(t)f_{j}(s)\,ds\,dt\right]f_{i}(t)f_{j}( t)\\&=\sum _{i=N+1}^{\infty }\sum _{j=N+1}^{\infty }f_{i}(t)f_{j}(t) \int _{a}^{b}\int _{a}^{b}K_{X}(s,t)f_{i}(t)f_{j}(s)\,ds\,dt\ fin {alineado}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Luego integramos esta última igualdad sobre [ a , b ]. La ortonormalidad de f k produce:
![{\displaystyle \int _{a}^{b}\varepsilon _{N}^{2}(t)\,dt=\sum _{k=N+1}^{\infty }\int _{a }^{b}\int _{a}^{b}K_{X}(s,t)f_{k}(t)f_{k}(s)\,ds\,dt}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
El problema de minimizar el error cuadrático medio total se reduce entonces a minimizar el lado derecho de esta igualdad sujeto a la restricción de que f k esté normalizado. Por lo tanto, introducimos β k , los multiplicadores lagrangianos asociados con estas restricciones, y pretendemos minimizar la siguiente función:
![{\displaystyle Er[f_{k}(t),k\in \{N+1,\ldots \}]=\sum _ {k=N+1}^{\infty }\int _ {a}^ {b}\int _{a}^{b}K_{X}(s,t)f_{k}(t)f_{k}(s)\,ds\,dt-\beta _{k}\ izquierda(\int _{a}^{b}f_{k}(t)f_{k}(t)\,dt-1\right)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Diferenciando con respecto a f i ( t ) (esta es una derivada funcional ) y estableciendo la derivada en 0 se obtiene:
![{\displaystyle {\frac {\partial Er}{\partial f_{i}(t)}}=\int _{a}^{b}\left(\int _{a}^{b}K_{X }(s,t)f_{i}(s)\,ds-\beta _{i}f_{i}(t)\right)\,dt=0}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
que se satisface en particular cuando
![{\displaystyle \int _{a}^{b}K_{X}(s,t)f_{i}(s)\,ds=\beta _{i}f_{i}(t).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
En otras palabras, cuando las f k se eligen como funciones propias de T K X , lo que resulta en la expansión de KL.
varianza explicada
Una observación importante es que dado que los coeficientes aleatorios Z k de la expansión KL no están correlacionados, la fórmula de Bienaymé afirma que la varianza de X t es simplemente la suma de las varianzas de los componentes individuales de la suma:
![{\displaystyle \operatorname {var} [X_ {t}]=\sum _ {k=0}^{\infty }e_ {k}(t)^{2}\operatorname {var} [Z_ {k}] =\sum _{k=1}^{\infty }\lambda _{k}e_{k}(t)^{2}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Integrando sobre [ a , b ] y usando la ortonormalidad de e k , obtenemos que la varianza total del proceso es:
![{\displaystyle \int _ {a}^{b}\operatorname {var} [X_ {t}]\,dt=\sum _ {k=1}^{\infty }\lambda _ {k}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
En particular, la varianza total de la aproximación N -truncada es
![{\displaystyle \sum _{k=1}^{N}\lambda _{k}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Como resultado, la expansión N -truncada explica
![{\displaystyle {\frac {\sum _{k=1}^{N}\lambda _{k}}{\sum _{k=1}^{\infty }\lambda _{k}}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
de la varianza; y si estamos contentos con una aproximación que explica, digamos, el 95% de la varianza, entonces sólo tenemos que determinar un tal que![{\displaystyle N\en \mathbb {N} }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\frac {\sum _{k=1}^{N}\lambda _{k}}{\sum _{k=1}^{\infty }\lambda _{k}}}\geq 0,95.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
La expansión de Karhunen-Loève tiene la propiedad de entropía de representación mínima
Dada una representación de , para alguna base ortonormal y aleatoria , dejamos que . Entonces podemos definir la entropía de representación como . Luego tenemos , para todas las opciones de . Es decir, la expansión KL tiene una entropía de representación mínima.![{\displaystyle X_{t}=\sum _{k=1}^{\infty }W_{k}\varphi _{k}(t)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \varphi _ {k}(t)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle W_{k}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle p_{k}=\mathbb {E} [|W_{k}|^{2}]/\mathbb {E} [|X_{t}|_{L^{2}}^{2} ]}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \sum _{k=1}^{\infty }p_{k}=1}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle H(\{\varphi _{k}\})=-\sum _{i}p_{k}\log(p_{k})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle H(\{\varphi _ {k}\})\geq H(\{e_{k}\})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \varphi _ {k}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Prueba:
Denota los coeficientes obtenidos para la base como y para como .![{\ Displaystyle e_ {k} (t)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ Displaystyle p_ {k}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \varphi _ {k}(t)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle q_{k}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Elegir . Tenga en cuenta que como minimiza el error cuadrático medio, tenemos que![{\displaystyle N\geq 1}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ Displaystyle e_ {k}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \mathbb {E} \left|\sum _{k=1}^{N}Z_{k}e_{k}(t)-X_{t}\right|_{L^{2}} ^{2}\leq \mathbb {E} \left|\sum _{k=1}^{N}W_{k}\varphi _{k}(t)-X_{t}\right|_{L ^{2}}^{2}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Ampliando el tamaño de la mano derecha, obtenemos:
![{\displaystyle \mathbb {E} \left|\sum _{k=1}^{N}W_{k}\varphi _{k}(t)-X_{t}\right|_{L^{2 }}^{2}=\mathbb {E} |X_{t}^{2}|_{L^{2}}+\sum _{k=1}^{N}\sum _{\ell = 1}^{N}\mathbb {E} [W_{\ell }\varphi _{\ell }(t)W_{k}^{*}\varphi _{k}^{*}(t)]_ {L^{2}}-\sum _{k=1}^{N}\mathbb {E} [W_{k}\varphi _{k}X_{t}^{*}]_{L^{ 2}}-\sum _{k=1}^{N}\mathbb {E} [X_{t}W_{k}^{*}\varphi _{k}^{*}(t)]_{ L^{2}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Usando la ortonormalidad de y expandiendo la base, obtenemos que el tamaño de la derecha es igual a:![{\displaystyle \varphi _ {k}(t)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle X_{t}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \varphi _ {k}(t)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \mathbb {E} [X_{t}]_{L^{2}}^{2}-\sum _ {k=1}^{N}\mathbb {E} [|W_{k} |^{2}]}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Podemos realizar un análisis idéntico para , y así reescribir la desigualdad anterior como:![{\ Displaystyle e_ {k} (t)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\displaystyle \mathbb {E} [X_{t}]_{L^{2}}^{2}-\sum _ {k=1}^{N}\mathbb {E} [|Z_ {k}|^{2}]}\leq {\displaystyle \mathbb {E} [X_{t}]_{L^{2}}^{2}-\sum _{k=1}^{N }\mathbb {E} [|W_{k}|^{2}]}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Restando el primer término común y dividiendo por , obtenemos que:![{\displaystyle \mathbb {E} [|X_{t}|_{L^{2}}^{2}]}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \sum _{k=1}^{N}p_{k}\geq \sum _{k=1}^{N}q_{k}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Esto implica que:
![{\displaystyle -\sum _{k=1}^{\infty }p_{k}\log(p_{k})\leq -\sum _{k=1}^{\infty }q_{k}\ iniciar sesión (q_ {k})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Aproximaciones lineales de Karhunen-Loève
Considere toda una clase de señales que queremos aproximar sobre los primeros M vectores de una base. Estas señales se modelan como realizaciones de un vector aleatorio Y [ n ] de tamaño N. Para optimizar la aproximación diseñamos una base que minimice el error medio de aproximación. Esta sección demuestra que las bases óptimas son bases de Karhunen- Loeve que diagonalizan la matriz de covarianza de Y. El vector aleatorio Y se puede descomponer en forma ortogonal
![{\displaystyle \left\{g_{m}\right\}_{0\leq m\leq N}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
como sigue:
![{\displaystyle Y=\sum _ {m=0}^{N-1}\left\langle Y,g_{m}\right\rangle g_{m},}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
donde cada
![{\displaystyle \left\langle Y,g_{m}\right\rangle =\sum _{n=0}^{N-1}{Y[n]}g_{m}^{*}[n]}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
es una variable aleatoria. La aproximación a partir de los primeros M ≤ N vectores de la base es
![{\displaystyle Y_{M}=\sum _ {m=0}^{M-1}\left\langle Y,g_{m}\right\rangle g_{m}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
La conservación de energía en forma ortogonal implica
![{\displaystyle \varepsilon [M]=\mathbf {E} \left\{\left\|Y-Y_{M}\right\|^{2}\right\}=\sum _ {m=M}^ {N-1}\mathbf {E} \left\{\left|\left\langle Y,g_{m}\right\rangle \right|^{2}\right\}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Este error está relacionado con la covarianza de Y definida por
![{\displaystyle R[n,m]=\mathbf {E} \left\{Y[n]Y^{*}[m]\right\}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Para cualquier vector x [ n ] denotamos por K el operador de covarianza representado por esta matriz,
![{\displaystyle \mathbf {E} \left\{\left|\langle Y,x\rangle \right|^{2}\right\}=\langle Kx,x\rangle =\sum _{n=0} ^{N-1}\sum _{m=0}^{N-1}R[n,m]x[n]x^{*}[m]}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
El error ε [ M ] es por tanto una suma de los últimos N − M coeficientes del operador de covarianza
![{\displaystyle \varepsilon [M]=\sum _ {m=M}^{N-1}{\left\langle Kg_{m},g_{m}\right\rangle }}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
El operador de covarianza K es hermitiano y positivo y, por tanto, está diagonalizado en una base ortogonal llamada base de Karhunen-Loève. El siguiente teorema establece que una base de Karhunen-Loève es óptima para aproximaciones lineales.
Teorema (base de optimidad de Karhunen-Loève). Sea K un operador de covarianza. Para todo M ≥ 1 , el error de aproximación
![{\displaystyle \varepsilon [M]=\sum _ {m=M}^{N-1}\left\langle Kg_{m},g_{m}\right\rangle }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
es mínimo si y sólo si
![{\displaystyle \left\{g_{m}\right\}_{0\leq m<N}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
es una base de Karhunen-Loeve ordenada por valores propios decrecientes.
![{\displaystyle \left\langle Kg_{m},g_{m}\right\rangle \geq \left\langle Kg_{m+1},g_{m+1}\right\rangle ,\qquad 0\leq m <N-1.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Aproximación no lineal en bases
Las aproximaciones lineales proyectan la señal en M vectores a priori. La aproximación se puede hacer más precisa eligiendo los M vectores ortogonales dependiendo de las propiedades de la señal. Esta sección analiza el desempeño general de estas aproximaciones no lineales. Una señal se aproxima con M vectores seleccionados de forma adaptativa en forma ortonormal para [ definición necesaria ]![{\displaystyle f\in \mathrm {H} }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \mathrm {H} }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \mathrm {B} =\left\{g_{m}\right\}_{m\in \mathbb {N} }}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Sea la proyección de f sobre M vectores cuyos índices están en I M :![{\displaystyle f_{M}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle f_{M}=\sum _ {m\in I_{M}}\left\langle f,g_{m}\right\rangle g_{m}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
El error de aproximación es la suma de los coeficientes restantes.
![{\displaystyle \varepsilon [M]=\left\{\left\|f-f_{M}\right\|^{2}\right\}=\sum _ {m\notin I_ {M}}^{ N-1}\left\{\left|\left\langle f,g_{m}\right\rangle \right|^{2}\right\}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Para minimizar este error, los índices en I M deben corresponder a los M vectores que tienen la mayor amplitud del producto interno.
![{\displaystyle \left|\left\langle f,g_{m}\right\rangle \right|.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Estos son los vectores que mejor correlacionan f. Por tanto, pueden interpretarse como las características principales de f. El error resultante es necesariamente menor que el error de una aproximación lineal que selecciona los M vectores de aproximación independientemente de f. ordenemos
![{\displaystyle \left\{\left|\left\langle f,g_{m}\right\rangle \right|\right\}_{m\in \mathbb {N} }}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
en orden decreciente
![{\displaystyle \left|\left\langle f,g_{m_{k}}\right\rangle \right|\geq \left|\left\langle f,g_{m_{k+1}}\right\rangle \derecha|.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
La mejor aproximación no lineal es
![{\displaystyle f_{M}=\sum _ {k=1}^{M}\left\langle f,g_{m_{k}}\right\rangle g_{m_{k}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
También se puede escribir como umbral interno del producto:
![{\displaystyle f_{M}=\sum _ {m=0}^{\infty }\theta _ {T}\left(\left\langle f,g_{m}\right\rangle \right)g_{m }}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
con
![{\displaystyle T=\left|\left\langle f,g_{m_{M}}\right\rangle \right|,\qquad \theta _ {T}(x)={\begin{cases}x&|x |\geq T\\0&|x|<T\end{casos}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
El error no lineal es
![{\displaystyle \varepsilon [M]=\left\{\left\|f-f_{M}\right\|^{2}\right\}=\sum _{k=M+1}^{\infty }\left\{\left|\left\langle f,g_{m_{k}}\right\rangle \right|^{2}\right\}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
este error llega rápidamente a cero a medida que M aumenta, si los valores ordenados de tienen una rápida caída a medida que k aumenta. Esta caída se cuantifica calculando la norma de los productos internos de la señal en B:![{\displaystyle \left|\left\langle f,g_{m_{k}}\right\rangle \right|}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \mathrm {I} ^{\mathrm {P} }}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \|f\|_{\mathrm {B} ,p}=\left(\sum _{m=0}^{\infty }\left|\left\langle f,g_{m}\right \rangle \right|^{p}\right)^{\frac {1}{p}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
El siguiente teorema relaciona la desintegración de ε [ M ] con![{\displaystyle \|f\|_{\mathrm {B},p}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Teorema (decaimiento del error). Si con p < 2 entonces![{\displaystyle \|f\|_{\mathrm {B} ,p}<\infty }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \varepsilon [M]\leq {\frac {\|f\|_{\mathrm {B} ,p}^{2}}{{\frac {2}{p}}-1}}M ^{1-{\frac {2}{p}}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
y
![{\displaystyle \varepsilon [M]=o\left(M^{1-{\frac {2}{p}}}\right).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Por el contrario, si entonces![{\displaystyle \varepsilon [M]=o\left(M^{1-{\frac {2}{p}}}\right)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
para cualquier q > p .
Falta de optimización de las bases Karhunen-Loève
Para ilustrar mejor las diferencias entre aproximaciones lineales y no lineales, estudiamos la descomposición de un vector aleatorio simple no gaussiano en una base de Karhunen-Loève. Los procesos cuyas realizaciones tienen una traducción aleatoria son estacionarios. La base de Karhunen-Loève es entonces una base de Fourier y estudiamos su comportamiento. Para simplificar el análisis, considere un vector aleatorio Y [ n ] de tamaño N que es el módulo de desplazamiento aleatorio N de una señal determinista f [ n ] de media cero
![{\displaystyle \sum _{n=0}^{N-1}f[n]=0}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle Y[n]=f[(np){\bmod {N}}]}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
El desplazamiento aleatorio P se distribuye uniformemente en [0, N − 1]:
![{\displaystyle \Pr(P=p)={\frac {1}{N}},\qquad 0\leq p<N}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Claramente
![{\displaystyle \mathbf {E} \{Y[n]\}={\frac {1}{N}}\sum _{p=0}^{N-1}f[(np){\bmod { N}}]=0}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
y
![{\displaystyle R[n,k]=\mathbf {E} \{Y[n]Y[k]\}={\frac {1}{N}}\sum _{p=0}^{N- 1}f[(np){\bmod {N}}]f[(kp){\bmod {N}}]={\frac {1}{N}}f\Theta {\bar {f}}[ nk],\quad {\bar {f}}[n]=f[-n]}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Por eso
![{\displaystyle R[n,k]=R_{Y}[nk],\qquad R_{Y}[k]={\frac {1}{N}}f\Theta {\bar {f}}[k ]}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Dado que R Y es N periódico, Y es un vector aleatorio estacionario circular. El operador de covarianza es una convolución circular con R Y y, por lo tanto, está diagonalizado en la base discreta de Fourier Karhunen-Loève.
![{\displaystyle \left\{{\frac {1}{\sqrt {N}}}e^{i2\pi mn/N}\right\}_{0\leq m<N}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
El espectro de potencia es la transformada de Fourier de R Y :
![{\displaystyle P_{Y}[m]={\hat {R}}_{Y}[m]={\frac {1}{N}}\left|{\hat {f}}[m]\ derecha|^{2}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Ejemplo: Considere un caso extremo en el que . Un teorema mencionado anteriormente garantiza que la base de Fourier Karhunen-Loève produce un error de aproximación esperado menor que una base canónica de Diracs . De hecho, no conocemos a priori la abscisa de los coeficientes distintos de cero de Y , por lo que no existe ningún Dirac en particular que esté mejor adaptado para realizar la aproximación. Pero los vectores de Fourier cubren todo el soporte de Y y por tanto absorben una parte de la energía de la señal.![{\displaystyle f[n]=\delta [n]-\delta [n-1]}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \left\{g_{m}[n]=\delta [nm]\right\}_{0\leq m<N}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \mathbf {E} \left\{\left|\left\langle Y[n],{\frac {1}{\sqrt {N}}}e^{i2\pi mn/N}\right \rangle \right|^{2}\right\}=P_{Y}[m]={\frac {4}{N}}\sin ^{2}\left({\frac {\pi k}{ N}}\derecha)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
La selección de coeficientes de Fourier de mayor frecuencia produce una mejor aproximación cuadrática media que elegir a priori algunos vectores de Dirac para realizar la aproximación. La situación es totalmente diferente para las aproximaciones no lineales. Entonces , la base discreta de Fourier es extremadamente ineficiente porque f y, por tanto, Y tienen una energía que se distribuye casi uniformemente entre todos los vectores de Fourier. Por el contrario, dado que f tiene sólo dos coeficientes distintos de cero en la base de Dirac, una aproximación no lineal de Y con M ≥ 2 da un error cero. [5]![{\displaystyle f[n]=\delta [n]-\delta [n-1]}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Análisis de componentes principales
Hemos establecido el teorema de Karhunen-Loève y hemos derivado algunas propiedades del mismo. También notamos que un obstáculo en su aplicación fue el costo numérico de determinar los valores propios y funciones propias de su operador de covarianza a través de la ecuación integral de Fredholm de segundo tipo.
![{\displaystyle \int _{a}^{b}K_{X}(s,t)e_{k}(s)\,ds=\lambda _{k}e_{k}(t).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Sin embargo, cuando se aplica a un proceso discreto y finito , el problema toma una forma mucho más simple y se puede utilizar el álgebra estándar para realizar los cálculos.![{\displaystyle \left(X_{n}\right)_{n\in \{1,\ldots,N\}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Tenga en cuenta que un proceso continuo también se puede muestrear en N puntos en el tiempo para reducir el problema a una versión finita.
De ahora en adelante consideraremos un vector aleatorio de N dimensiones . Como se mencionó anteriormente, X podría contener N muestras de una señal, pero puede contener muchas más representaciones según el campo de aplicación. Por ejemplo, podrían ser las respuestas a una encuesta o datos económicos en un análisis econométrico.![{\displaystyle X=\left(X_{1}~X_{2}~\ldots ~X_{N}\right)^{T}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Como en la versión continua, asumimos que X está centrado; de lo contrario, podemos dejar (donde está el vector medio de X ) que está centrado.![{\displaystyle X:=X-\mu _{X}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \mu _{X}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Adaptemos el procedimiento al caso discreto.
Matriz de covarianza
Recuerde que la principal implicación y dificultad de la transformación KL es calcular los vectores propios del operador lineal asociado a la función de covarianza, que están dados por las soluciones de la ecuación integral escrita anteriormente.
Defina Σ, la matriz de covarianza de X , como una matriz N × N cuyos elementos están dados por:
![{\displaystyle \Sigma _{ij}=\mathbf {E} [X_{i}X_{j}],\qquad \forall i,j\in \{1,\ldots ,N\}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Reescribiendo la ecuación integral anterior para adaptarla al caso discreto, observamos que se convierte en:
![{\displaystyle \sum _{j=1}^{N}\Sigma _{ij}e_{j}=\lambda e_{i}\quad \Leftrightarrow \quad \Sigma e=\lambda e}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
donde es un vector N -dimensional.![{\displaystyle e=(e_{1}~e_{2}~\ldots ~e_{N})^{T}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
La ecuación integral se reduce así a un simple problema matricial de valores propios, lo que explica por qué el PCA tiene un dominio de aplicaciones tan amplio.
Dado que Σ es una matriz simétrica definida positiva, posee un conjunto de vectores propios ortonormales que forman una base de , y escribimos este conjunto de valores propios y vectores propios correspondientes, enumerados en valores decrecientes de λ i . Sea también Φ la matriz ortonormal que consta de estos vectores propios:![{\displaystyle \mathbb {R} ^{N}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \{\lambda _{i},\varphi _{i}\}_{i\in \{1,\ldots ,N\}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\begin{aligned}\Phi &:=\left(\varphi _{1}~\varphi _{2}~\ldots ~\varphi _{N}\right)^{T}\\\ Fi ^{T}\Phi &=I\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Transformación de componente principal
Queda por realizar la transformación KL real, denominada transformación de componente principal en este caso. Recuerde que la transformada se encontró expandiendo el proceso con respecto a la base abarcada por los vectores propios de la función de covarianza. En este caso tenemos por tanto:
![{\displaystyle X=\sum _{i=1}^{N}\langle \varphi _{i},X\rangle \varphi _{i}=\sum _{i=1}^{N}\varphi _{i}^{T}X\varphi _{i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
En una forma más compacta, la transformada del componente principal de X está definida por:
![{\displaystyle {\begin{casos}Y=\Phi ^{T}X\\X=\Phi Y\end{casos}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
El i -ésimo componente de Y es , la proyección de X en y la transformada inversa X = Φ Y produce la expansión de X en el espacio abarcado por :![{\displaystyle Y_{i}=\varphi _{i}^{T}X}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \varphi _ {i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \varphi _ {i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle X=\sum _{i=1}^{N}Y_{i}\varphi _{i}=\sum _{i=1}^{N}\langle \varphi _{i},X \rangle \varphi _{i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Como en el caso continuo, podemos reducir la dimensionalidad del problema truncando la suma en algún punto tal que![{\displaystyle K\en \{1,\ldots ,N\}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\frac {\sum _{i=1}^{K}\lambda _{i}}{\sum _{i=1}^{N}\lambda _{i}}}\geq \ alfa}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
donde α es el umbral de varianza explicada que deseamos establecer.
También podemos reducir la dimensionalidad mediante el uso de estimación de vector propio dominante multinivel (MDEE). [6]
Ejemplos
El proceso de Viena
Existen numerosas caracterizaciones equivalentes del proceso de Wiener , que es una formalización matemática del movimiento browniano . Aquí lo consideramos como el proceso gaussiano estándar centrado W t con función de covarianza
![{\displaystyle K_{W}(t,s)=\operatorname {cov} (W_{t},W_{s})=\min(s,t).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Restringimos el dominio del tiempo a [ a , b ]=[0,1] sin pérdida de generalidad.
Los vectores propios del núcleo de covarianza se determinan fácilmente. Estos son
![{\displaystyle e_{k}(t)={\sqrt {2}}\sin \left(\left(k-{\tfrac {1}{2}}\right)\pi t\right)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
y los valores propios correspondientes son
![{\displaystyle \lambda _{k}={\frac {1}{(k-{\frac {1}{2}})^{2}\pi ^{2}}}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
PruebaPara encontrar los valores propios y los vectores propios, necesitamos resolver la ecuación integral:
![{\displaystyle {\begin{aligned}\int _ {a}^{b}K_{W}(s,t)e(s)\,ds&=\lambda e(t)\qquad \forall t,0\ leq t\leq 1\\\int _{0}^{1}\min(s,t)e(s)\,ds&=\lambda e(t)\qquad \forall t,0\leq t\leq 1\\\int _{0}^{t}se(s)\,ds+t\int _{t}^{1}e(s)\,ds&=\lambda e(t)\qquad \forall t,0\leq t\leq 1\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
derivando una vez con respecto a t se obtiene:
![{\displaystyle \int _ {t}^{1}e(s)\,ds=\lambda e'(t)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
una segunda diferenciación produce la siguiente ecuación diferencial:
![{\displaystyle -e(t)=\lambda e''(t)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
cuya solución general tiene la forma:
![{\displaystyle e(t)=A\sin \left({\frac {t}{\sqrt {\lambda }}}\right)+B\cos \left({\frac {t}{\sqrt {\ lambda }}}\derecha)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
donde A y B son dos constantes que se determinarán con las condiciones de contorno. Establecer t = 0 en la ecuación integral inicial da e (0) = 0, lo que implica que B = 0 y de manera similar, establecer t = 1 en la primera diferenciación produce e' (1) = 0, de donde:
![{\displaystyle \cos \left({\frac {1}{\sqrt {\lambda }}}\right)=0}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
lo que a su vez implica que los valores propios de T K X son:
![{\displaystyle \lambda _ {k}=\left({\frac {1}{(k-{\frac {1}{2}})\pi }}\right)^{2},\qquad k\ geq 1}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Las funciones propias correspondientes son, por tanto, de la forma:
![{\displaystyle e_{k}(t)=A\sin \left((k-{\frac {1}{2}})\pi t\right),\qquad k\geq 1}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Luego se elige A para normalizar e k :
![{\displaystyle \int _{0}^{1}e_{k}^{2}(t)\,dt=1\quad \implica \quad A={\sqrt {2}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Esto da la siguiente representación del proceso de Wiener:
Teorema . Existe una secuencia { Z i } i de variables aleatorias gaussianas independientes con media cero y varianza 1 tal que
![{\displaystyle W_{t}={\sqrt {2}}\sum _{k=1}^{\infty }Z_{k}{\frac {\sin \left(\left(k-{\frac { 1}{2}}\right)\pi t\right)}{\left(k-{\frac {1}{2}}\right)\pi }}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Tenga en cuenta que esta representación sólo es válida para intervalos mayores, los incrementos no son independientes. Como se establece en el teorema, la convergencia es en la norma L 2 y uniforme en t .![{\displaystyle t\en [0,1].}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
El puente browniano
De manera similar, el puente browniano , que es un proceso estocástico con función de covarianza![{\displaystyle B_{t}=W_{t}-tW_{1}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle K_{B}(t,s)=\min(t,s)-ts}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
se puede representar como la serie
![{\displaystyle B_{t}=\sum _ {k=1}^{\infty }Z_{k}{\frac {{\sqrt {2}}\sin(k\pi t)}{k\pi } }}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Aplicaciones
Los sistemas de óptica adaptativa a veces utilizan funciones K – L para reconstruir la información de fase del frente de onda (Dai 1996, JOSA A). La expansión de Karhunen-Loève está estrechamente relacionada con la descomposición de valores singulares . Este último tiene innumerables aplicaciones en procesamiento de imágenes, radar, sismología y similares. Si uno tiene observaciones de vectores independientes de un proceso estocástico valorado por vectores, entonces los vectores singulares izquierdos son estimaciones de máxima verosimilitud de la expansión KL del conjunto.
Aplicaciones en estimación y detección de señales.
Detección de una señal continua conocida S ( t )
En comunicación, normalmente tenemos que decidir si una señal de un canal ruidoso contiene información valiosa. La siguiente prueba de hipótesis se utiliza para detectar la señal continua s ( t ) de la salida del canal X ( t ), N ( t ) es el ruido del canal, que generalmente se supone un proceso gaussiano de media cero con función de correlación.![{\displaystyle R_{N}(t,s)=E[N(t)N(s)]}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle H:X(t)=N(t),}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle K:X(t)=N(t)+s(t),\quad t\in (0,T)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Detección de señal en ruido blanco.
Cuando el ruido del canal es blanco, su función de correlación es
![{\displaystyle R_{N}(t)={\tfrac {1}{2}}N_{0}\delta (t),}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
y tiene una densidad de espectro de potencia constante. En un canal físicamente práctico, la potencia del ruido es finita, por lo que:
![{\displaystyle S_{N}(f)={\begin{casos}{\frac {N_{0}}{2}}&|f|<w\\0&|f|>w\end{casos}} }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Entonces la función de correlación de ruido es una función sinc con ceros en Dado que no están correlacionados y son gaussianos, son independientes. Por tanto, podemos tomar muestras de X ( t ) con espaciamiento temporal.![{\displaystyle {\frac {n}{2\omega }},n\in \mathbf {Z}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \Delta t={\frac {n}{2\omega }}{\text{ dentro de }}(0,''T'').}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Dejar . Tenemos un total de observaciones iid para desarrollar la prueba de razón de verosimilitud. Defina señal , el problema es:![{\displaystyle X_{i}=X(i\,\Delta t)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle n={\frac {T}{\Delta t}}=T(2\omega )=2\omega T}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \{X_{1},X_{2},\ldots,X_{n}\}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle S_{i}=S(i\,\Delta t)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle H:X_{i}=N_{i},}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle K:X_{i}=N_{i}+S_{i},i=1,2,\ldots,n.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
La relación de probabilidad logarítmica
![{\displaystyle {\mathcal {L}}({\underline {x}})=\log {\frac {\sum _{i=1}^{n}(2S_{i}x_{i}-S_{ i}^{2})}{2\sigma ^{2}}}\Leftrightarrow \Delta t\sum _{i=1}^{n}S_{i}x_{i}=\sum _{i= 1}^{n}S(i\,\Delta t)x(i\,\Delta t)\,\Delta t\gtrless \lambda _{\cdot }2}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Como t → 0 , sea:
![{\displaystyle G=\int _ {0}^{T}S(t)x(t)\,dt.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Entonces G es la estadística de prueba y el detector óptimo de Neyman-Pearson es
![{\displaystyle G({\underline {x}})>G_{0}\Rightarrow K<G_{0}\Rightarrow H.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Como G es gaussiano, podemos caracterizarlo encontrando su media y varianzas. Entonces obtenemos
![{\displaystyle H:G\sim N\left(0,{\tfrac {1}{2}}N_{0}E\right)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle K:G\sim N\left(E,{\tfrac {1}{2}}N_{0}E\right)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
dónde
![{\displaystyle \mathbf {E} =\int _ {0}^{T}S^{2}(t)\,dt}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
es la energía de la señal.
El error de falsa alarma
![{\displaystyle \alpha =\int _{G_{0}}^{\infty }N\left(0,{\tfrac {1}{2}}N_{0}E\right)\,dG\Rightarrow G_ {0}={\sqrt {{\tfrac {1}{2}}N_{0}E}}\Phi ^{-1}(1-\alpha )}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Y la probabilidad de detección:
![{\displaystyle \beta =\int _{G_{0}}^{\infty }N\left(E,{\tfrac {1}{2}}N_{0}E\right)\,dG=1- \Phi \left({\frac {G_{0}-E}{\sqrt {{\tfrac {1}{2}}N_{0}E}}}\right)=\Phi \left({\sqrt {\frac {2E}{N_{0}}}}-\Phi ^{-1}(1-\alpha )\right),}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
donde Φ es la CDF de la variable normal estándar o gaussiana.
Detección de señal en ruido coloreado.
Cuando N (t) está coloreado (correlacionado en el tiempo) con ruido gaussiano con media cero y función de covarianza, no podemos muestrear observaciones discretas independientes espaciando uniformemente el tiempo. En su lugar, podemos utilizar la expansión K – L para descorrelacionar el proceso de ruido y obtener "muestras" de observación gaussiana independientes. La expansión K – L de N ( t ):![{\displaystyle R_{N}(t,s)=E[N(t)N(s)],}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle N(t)=\sum _{i=1}^{\infty }N_{i}\Phi _{i}(t),\quad 0<t<T,}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
donde y las bases ortonormales son generadas por kernel , es decir, solución a![{\displaystyle N_{i}=\int N(t)\Phi _{i}(t)\,dt}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \{\Phi _{i}{t}\}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle R_{N}(t,s)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \int _{0}^{T}R_{N}(t,s)\Phi _{i}(s)\,ds=\lambda _{i}\Phi _{i}(t) ,\quad \operatorname {var} [N_{i}]=\lambda _{i}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Haz la expansión:
![{\displaystyle S(t)=\sum _{i=1}^{\infty }S_{i}\Phi _{i}(t),}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
donde entonces![{\displaystyle S_{i}=\int _{0}^{T}S(t)\Phi _{i}(t)\,dt}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle X_{i}=\int _{0}^{T}X(t)\Phi _{i}(t)\,dt=N_{i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
bajo H y bajo K. Seamos , tenemos![{\ Displaystyle N_ {i} + S_ {i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\overline {X}}=\{X_{1},X_{2},\dots \}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
son rv gaussianos independientes con varianza![{\displaystyle \lambda _ {i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
- bajo H: son rv gaussianas independientes.
![{\displaystyle \{X_{i}\}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle f_{H}[x(t)|0<t<T]=f_{H}({\underline {x}})=\prod _{i=1}^{\infty }{\frac {1}{\sqrt {2\pi \lambda _ {i}}}}\exp \left(-{\frac {x_ {i}^{2}}{2\lambda _ {i}}}\right )}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
- bajo K: son rv gaussianas independientes.
![{\displaystyle \{X_{i}-S_{i}\}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle f_{K}[x(t)\mid 0<t<T]=f_{K}({\underline {x}})=\prod _{i=1}^{\infty }{\ frac {1}{\sqrt {2\pi \lambda _{i}}}}\exp \left(-{\frac {(x_{i}-S_{i})^{2}}{2\lambda _{i}}}\derecha)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Por lo tanto, el log-LR viene dado por
![{\displaystyle {\mathcal {L}}({\underline {x}})=\sum _{i=1}^{\infty }{\frac {2S_{i}x_{i}-S_{i} ^{2}}{2\lambda _ {i}}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
y el detector óptimo es
![{\displaystyle G=\sum _{i=1}^{\infty }S_{i}x_{i}\lambda _{i}>G_{0}\Rightarrow K,<G_{0}\Rightarrow H. }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Definir
![{\displaystyle k(t)=\sum _ {i=1}^{\infty }\lambda _ {i}S_ {i}\Phi _ {i}(t),0<t<T,}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
entonces![{\displaystyle G=\int _ {0}^{T}k(t)x(t)\,dt.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Cómo encontrar k ( t )
Desde
![{\displaystyle \int _{0}^{T}R_{N}(t,s)k(s)\,ds=\sum _{i=1}^{\infty }\lambda _{i}S_ {i}\int _{0}^{T}R_{N}(t,s)\Phi _{i}(s)\,ds=\sum _{i=1}^{\infty }S_{ i}\Phi _{i}(t)=S(t),}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
k(t) es la solución a
![{\displaystyle \int _{0}^{T}R_{N}(t,s)k(s)\,ds=S(t).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Si N ( t ) es estacionario en sentido amplio,
![{\displaystyle \int _{0}^{T}R_{N}(ts)k(s)\,ds=S(t),}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
que se conoce como ecuación de Wiener-Hopf . La ecuación se puede resolver tomando la transformada de Fourier, pero no es prácticamente realizable ya que el espectro infinito necesita factorización espacial. Un caso especial que es fácil de calcular k ( t ) es el ruido blanco gaussiano.
![{\displaystyle \int _{0}^{T}{\frac {N_{0}}{2}}\delta (ts)k(s)\,ds=S(t)\Rightarrow k(t)= CS(t),\quad 0<t<T.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
La respuesta al impulso correspondiente es h ( t ) = k ( T − t ) = CS ( T − t ). Sea C = 1, este es solo el resultado al que llegamos en la sección anterior para detectar señales en ruido blanco.
Umbral de prueba para el detector Neyman-Pearson
Dado que X(t) es un proceso gaussiano,
![{\displaystyle G=\int _ {0}^{T}k(t)x(t)\,dt,}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
es una variable aleatoria gaussiana que se puede caracterizar por su media y varianza.
![{\displaystyle {\begin{aligned}\mathbf {E} [G\mid H]&=\int _ {0}^{T}k(t)\mathbf {E} [x(t)\mid H] \,dt=0\\\mathbf {E} [G\mid K]&=\int _{0}^{T}k(t)\mathbf {E} [x(t)\mid K]\, dt=\int _{0}^{T}k(t)S(t)\,dt\equiv \rho \\\mathbf {E} [G^{2}\mid H]&=\int _{ 0}^{T}\int _{0}^{T}k(t)k(s)R_{N}(t,s)\,dt\,ds=\int _{0}^{T} k(t)\left(\int _{0}^{T}k(s)R_{N}(t,s)\,ds\right)=\int _{0}^{T}k(t )S(t)\,dt=\rho \\\operatorname {var} [G\mid H]&=\mathbf {E} [G^{2}\mid H]-(\mathbf {E} [G \mid H])^{2}=\rho \\\mathbf {E} [G^{2}\mid K]&=\int _ {0}^{T}\int _ {0}^{T }k(t)k(s)\mathbf {E} [x(t)x(s)]\,dt\,ds=\int _{0}^{T}\int _{0}^{T }k(t)k(s)(R_{N}(t,s)+S(t)S(s))\,dt\,ds=\rho +\rho ^{2}\\\operatorname { var} [G\mid K]&=\mathbf {E} [G^{2}|K]-(\mathbf {E} [G|K])^{2}=\rho +\rho ^{2 }-\rho ^{2}=\rho \end{alineado}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Por tanto, obtenemos las distribuciones de H y K :
![{\displaystyle H:G\sim N(0,\rho)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle K:G\sim N(\rho,\rho)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
El error de falsa alarma es
![{\displaystyle \alpha =\int _ {G_{0}}^{\infty }N(0,\rho )\,dG=1-\Phi \left({\frac {G_{0}}{\sqrt {\rho }}}\derecha).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Entonces, el umbral de prueba para el detector óptimo de Neyman-Pearson es
![{\displaystyle G_{0}={\sqrt {\rho }}\Phi ^{-1}(1-\alpha ).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Su poder de detección es
![{\displaystyle \beta =\int _{G_{0}}^{\infty }N(\rho ,\rho )\,dG=\Phi \left({\sqrt {\rho }}-\Phi ^{ -1}(1-\alfa )\derecha)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Cuando el ruido es un proceso gaussiano blanco, la potencia de la señal es
![{\displaystyle \rho =\int _{0}^{T}k(t)S(t)\,dt=\int _{0}^{T}S(t)^{2}\,dt= MI.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Preblanqueamiento
Para algún tipo de ruido de color, una práctica típica es agregar un filtro de preblanqueo antes del filtro correspondiente para transformar el ruido de color en ruido blanco. Por ejemplo, N(t) es un ruido coloreado estacionario de sentido amplio con función de correlación
![{\displaystyle R_{N}(\tau )={\frac {BN_{0}}{4}}e^{-B|\tau |}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle S_{N}(f)={\frac {N_{0}}{2(1+({\frac {w}{B}})^{2})}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
La función de transferencia del filtro preblanqueador es
![{\displaystyle H(f)=1+j{\frac {w}{B}}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Cuando la señal que queremos detectar del canal ruidoso también es aleatoria, por ejemplo, un proceso gaussiano blanco X ( t ), aún podemos implementar la expansión K – L para obtener una secuencia de observación independiente. En este caso, el problema de detección se describe a continuación:
![{\displaystyle H_{0}:Y(t)=N(t)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle H_{1}:Y(t)=N(t)+X(t),\quad 0<t<T.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
X ( t ) es un proceso aleatorio con función de correlación![{\displaystyle R_{X}(t,s)=E\{X(t)X(s)\}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
La expansión K – L de X ( t ) es
![{\displaystyle X(t)=\sum _{i=1}^{\infty }X_{i}\Phi _{i}(t),}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
dónde
![{\displaystyle X_{i}=\int _{0}^{T}X(t)\Phi _{i}(t)\,dt}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
y son soluciones a![{\displaystyle \Phi _{i}(t)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \int _{0}^{T}R_{X}(t,s)\Phi _{i}(s)ds=\lambda _{i}\Phi _{i}(t).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Entonces las son secuencias independientes de rv con media y varianza cero . Desarrollando Y ( t ) y N ( t ) por , obtenemos![{\displaystyle X_{i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \lambda _ {i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \Phi _{i}(t)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle Y_{i}=\int _{0}^{T}Y(t)\Phi _{i}(t)\,dt=\int _{0}^{T}[N(t) +X(t)]\Phi _{i}(t)=N_{i}+X_{i},}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
dónde
![{\displaystyle N_{i}=\int _{0}^{T}N(t)\Phi _{i}(t)\,dt.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Como N ( t ) es ruido blanco gaussiano, los 's son una secuencia iid de rv con media y varianza cero , entonces el problema se simplifica de la siguiente manera:![{\ Displaystyle N_ {i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\tfrac {1}{2}}N_{0}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle H_{0}:Y_{i}=N_{i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ Displaystyle H_ {1}: Y_ {i} = N_ {i} + X_ {i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
La prueba óptima de Neyman-Pearson:
![{\displaystyle \Lambda ={\frac {f_{Y}\mid H_{1}}{f_{Y}\mid H_{0}}}=Ce^{-\sum _{i=1}^{\ infty }{\frac {y_{i}^{2}}{2}}{\frac {\lambda _{i}}{{\tfrac {1}{2}}N_{0}({\tfrac { 1}{2}}N_ {0}+\lambda _ {i})}}},}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
entonces la razón logarítmica de verosimilitud es
![{\displaystyle {\mathcal {L}}=\ln(\Lambda )=K-\sum _{i=1}^{\infty }{\tfrac {1}{2}}y_{i}^{2 }{\frac {\lambda _ {i}}{{\frac {N_ {0}}{2}}\left({\frac {N_ {0}}{2}}+\lambda _ {i}\ bien)}}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Desde
![{\displaystyle {\widehat {X}}_{i}={\frac {\lambda _{i}}{{\frac {N_{0}}{2}}\left({\frac {N_{0) }}{2}}+\lambda _ {i}\right)}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
es solo la estimación cuadrática media mínima de los dados ,![{\displaystyle X_{i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle Y_{i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\mathcal {L}}=K+{\frac {1}{N_{0}}}\sum _{i=1}^{\infty }Y_{i}{\widehat {X}}_ {i}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
La expansión K – L tiene la siguiente propiedad: Si
![{\displaystyle f(t)=\sum f_{i}\Phi _{i}(t),g(t)=\sum g_{i}\Phi _{i}(t),}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
dónde
![{\displaystyle f_{i}=\int _{0}^{T}f(t)\Phi _{i}(t)\,dt,\quad g_{i}=\int _{0}^{ T}g(t)\Phi _{i}(t)\,dt.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
entonces
![{\displaystyle \sum _{i=1}^{\infty }f_{i}g_{i}=\int _{0}^{T}g(t)f(t)\,dt.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Entonces deja
![{\displaystyle {\widehat {X}}(t\mid T)=\sum _{i=1}^{\infty }{\widehat {X}}_{i}\Phi _{i}(t) ,\quad {\mathcal {L}}=K+{\frac {1}{N_{0}}}\int _{0}^{T}Y(t){\widehat {X}}(t\mid T)\,dt.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
El filtro no causal Q ( t , s ) se puede utilizar para obtener la estimación
![{\displaystyle {\widehat {X}}(t\mid T)=\int _ {0}^{T}Q(t,s)Y(s)\,ds.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Por principio de ortogonalidad , Q ( t , s ) satisface
![{\displaystyle \int _{0}^{T}Q(t,s)R_{X}(s,t)\,ds+{\tfrac {N_{0}}{2}}Q(t,\lambda )=R_{X}(t,\lambda ),0<\lambda <T,0<t<T.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Sin embargo, por razones prácticas, es necesario derivar más el filtro causal h ( t , s ), donde h ( t , s ) = 0 para s > t , para obtener la estimación . Específicamente,![{\displaystyle {\widehat {X}}(t\mid t)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle Q(t,s)=h(t,s)+h(s,t)-\int _{0}^{T}h(\lambda ,t)h(s,\lambda )\, d\lambda }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Ver también
Notas
- ^ Sapatnekar, Sachin (2011), "Superar variaciones en tecnologías de escala nanométrica", Revista IEEE sobre temas emergentes y seleccionados en circuitos y sistemas , 1 (1): 5–18, Bibcode : 2011IJEST...1.... 5S, CiteSeerX 10.1.1.300.5659 , doi : 10.1109/jetcas.2011.2138250, S2CID 15566585
- ^ Ghoman, Satyajit; Wang, Zhicun; Chen, ordenador personal; Kapania, Rakesh (2012). "Un esquema de diseño de pedido reducido basado en POD para la optimización de la forma de vehículos aéreos". Procedimiento de la 53ª Conferencia AIAA/ASME/ASCE/AHS/ASC sobre estructuras, dinámica estructural y materiales, AIAA-2012-1808, Honolulu, Hawaii .
- ^ Karhunen-Loeve transform (KLT) Archivado el 28 de noviembre de 2016 en Wayback Machine , conferencias sobre procesamiento y análisis de imágenes por computadora (E161), Harvey Mudd College
- ^ Giambartolomei, Giordano (2016). "4 El teorema de Karhunen-Loève". El teorema de Karhunen-Loève (Licenciaturas). Universidad de Bolonia.
- ^ Un recorrido por ondas por el procesamiento de señales-Stéphane Mallat
- ^ X. Tang, “Información de textura en matrices de longitud de ejecución”, IEEE Transactions on Image Processing, vol. 7, núm. 11, págs. 1602–1609, noviembre de 1998
Referencias
- Rígido, Henry; Bosques, John W. (1986). Probabilidad, procesos aleatorios y teoría de la estimación para ingenieros . Prentice-Hall, Inc. ISBN 978-0-13-711706-2. OL 21138080M.
- Ghanem, Roger; Spanos, Pol (1991). Elementos finitos estocásticos: un enfoque espectral . Springer-Verlag. ISBN 978-0-387-97456-9. OL 1865197M.
- Guikhman, I.; Skorokhod, A. (1977). Introducción a la Théorie des Processus Aléatoires . Ediciones MIR.
- Simón, B. (1979). Integración Funcional y Física Cuántica . Prensa académica.
- Karhunen, Kari (1947). "Über lineare Methoden in der Wahrscheinlichkeitsrechnung". Ana. Acad. Ciencia. Fennicae. Ser. A I. Matemáticas.-Física . 37 : 1–79.
- Loève, M. (1978). Teoría de probabilidad. vol. II, 4ª ed . Textos de Posgrado en Matemáticas. vol. 46. Springer-Verlag. ISBN 978-0-387-90262-3.
- Dai, G. (1996). "Reconstrucción modal del frente de onda con polinomios de Zernike y funciones de Karhunen-Loeve". JOSA A. 13 (6): 1218. Código bibliográfico : 1996JOSAA..13.1218D. doi :10.1364/JOSAA.13.001218.
- Wu B., Zhu J., Najm F.(2005) "Un enfoque no paramétrico para la estimación del rango dinámico de sistemas no lineales". En actas de la Conferencia de automatización del diseño (841-844) 2005
- Wu B., Zhu J., Najm F.(2006) "Estimación del rango dinámico". Transacciones IEEE sobre diseño asistido por computadora de circuitos y sistemas integrados, vol. 25 Número: 9 (1618-1636) 2006
- Jorgensen, Palle et al; Canción, Myung-Sin (2007). "Codificación de entropía, espacio de Hilbert y transformaciones de Karhunen-Loeve". Revista de Física Matemática . 48 (10): 103503. arXiv : math-ph/0701056 . Código Bib : 2007JMP....48j3503J. doi : 10.1063/1.2793569. S2CID 17039075.
enlaces externos
- Mathematica KarhunenLoeveFunción de descomposición.
- E161: Notas de análisis y procesamiento de imágenes por computadora del Pr. Ruye Wang en Harvey Mudd College [1]