stringtranslate.com

Teorema de Kosambi-Karhunen-Loève

En la teoría de los procesos estocásticos , el teorema de Karhunen-Loève (llamado así por Kari Karhunen y Michel Loève ), también conocido como teorema de Kosambi-Karhunen-Loève [1] [2] establece que un proceso estocástico se puede representar como un proceso lineal infinito. combinación de funciones ortogonales , análoga a una representación en serie de Fourier de una función en un intervalo acotado. La transformación también se conoce como transformada de Hotelling y transformada de vector propio , y está estrechamente relacionada con la técnica de análisis de componentes principales (PCA) ampliamente utilizada en el procesamiento de imágenes y en el análisis de datos en muchos campos. [3]

Existen muchas expansiones de este tipo de un proceso estocástico: si el proceso está indexado sobre [ a , b ] , cualquier base ortonormal de L 2 ([ a , b ]) produce una expansión del mismo en esa forma. La importancia del teorema de Karhunen-Loève es que produce la mejor base en el sentido de que minimiza el error cuadrático medio total .

A diferencia de una serie de Fourier donde los coeficientes son números fijos y la base de expansión consta de funciones sinusoidales (es decir, funciones seno y coseno ), los coeficientes en el teorema de Karhunen-Loève son variables aleatorias y la base de expansión depende del proceso. De hecho, las funciones de base ortogonal utilizadas en esta representación están determinadas por la función de covarianza del proceso. Se puede pensar que la transformada de Karhunen-Loève se adapta al proceso para producir la mejor base posible para su expansión.

En el caso de un proceso estocástico centrado { X t } t ∈ [ a , b ] ( centrado significa E [ X t ] = 0 para todo t ∈ [ a , b ] ) que satisface una condición técnica de continuidad, X admite una descomposición

donde Z k son variables aleatorias no correlacionadas por pares y las funciones e k son funciones continuas de valores reales en [ a , b ] que son ortogonales por pares en L 2 ([ a , b ]) . Por lo tanto, a veces se dice que la expansión es biortogonal ya que los coeficientes aleatorios Z k son ortogonales en el espacio de probabilidad mientras que las funciones deterministas e k son ortogonales en el dominio del tiempo. El caso general de un proceso X t que no está centrado puede volverse al caso de un proceso centrado considerando X tE [ X t ] que es un proceso centrado.

Además, si el proceso es gaussiano , entonces las variables aleatorias Zk son gaussianas y estocásticamente independientes . Este resultado generaliza la transformada de Karhunen-Loève . Un ejemplo importante de un proceso estocástico real centrado en [0, 1] es el proceso de Wiener ; El teorema de Karhunen-Loève se puede utilizar para proporcionarle una representación ortogonal canónica. En este caso la expansión consta de funciones sinusoidales.

La expansión anterior en variables aleatorias no correlacionadas también se conoce como expansión de Karhunen-Loève o descomposición de Karhunen-Loève . La versión empírica (es decir, con los coeficientes calculados a partir de una muestra) se conoce como transformada de Karhunen-Loève (KLT), análisis de componentes principales , descomposición ortogonal adecuada (POD) , funciones ortogonales empíricas (un término utilizado en meteorología y geofísica ), o la transformada de Hotelling .

Formulación

La condición de integración cuadrada es lógicamente equivalente a ser finita para todos . [4]

Dado que T K X es un operador lineal, tiene sentido hablar de sus valores propios λ k y funciones propias e k , que se encuentran resolviendo la ecuación integral homogénea de Fredholm de segundo tipo.

Declaración del teorema

Teorema . Sea X t un proceso estocástico cuadrático de media cero integrable definido sobre un espacio de probabilidad (Ω, F , P ) e indexado sobre un intervalo cerrado y acotado [ ab ], con función de covarianza continua K X ( s , t ) .

Entonces K X ( s,t ) es un núcleo de Mercer y siendo e k una base ortonormal sobre L 2 ([ a , b ]) formada por las funciones propias de T K X con sus respectivos valores propios λ k , X t admite la siguiente representación

donde la convergencia es en L 2 , uniforme en t y

Además, las variables aleatorias Z k tienen media cero, no están correlacionadas y tienen varianza λ k

Tenga en cuenta que mediante generalizaciones del teorema de Mercer podemos reemplazar el intervalo [ a , b ] con otros espacios compactos C y la medida de Lebesgue en [ a , b ] con una medida de Borel cuyo soporte es C.

Prueba

donde los coeficientes (variables aleatorias) Z k están dados por la proyección de X t sobre las respectivas funciones propias
donde hemos utilizado el hecho de que las e k son funciones propias de T K X y son ortonormales.
Entonces:
que llega a 0 según el teorema de Mercer.

Propiedades de la transformada de Karhunen-Loève

Caso especial: distribución gaussiana

Dado que el límite en la media de las variables aleatorias conjuntamente gaussianas es conjuntamente gaussiana, y las variables aleatorias (centradas) conjuntamente gaussianas son independientes si y sólo si son ortogonales, también podemos concluir:

Teorema . Las variables Z i tienen una distribución gaussiana conjunta y son estocásticamente independientes si el proceso original { X t } t es gaussiano.

En el caso gaussiano, como las variables Z i son independientes, podemos decir más:

casi con seguridad.

La transformada de Karhunen-Loève descorrelaciona el proceso

Esto es consecuencia de la independencia de Z k .

La expansión de Karhunen-Loève minimiza el error cuadrático medio total

En la introducción, mencionamos que la expansión truncada de Karhunen-Loeve fue la mejor aproximación del proceso original en el sentido de que reduce el error cuadrático medio total resultante de su truncamiento. Debido a esta propiedad, a menudo se dice que la transformada KL compacta la energía de manera óptima.

Más específicamente, dada cualquier base ortonormal { f k } de L 2 ([ a , b ]) , podemos descomponer el proceso X t como:

dónde

y podemos aproximar X t por la suma finita

para algún número entero N .

Afirmar . De todas estas aproximaciones, la aproximación KL es la que minimiza el error cuadrático medio total (siempre que hayamos ordenado los valores propios en orden decreciente).

Prueba

Considere el error resultante del truncamiento en el N -ésimo término en la siguiente expansión ortonormal:

El error cuadrático medio ε N 2 ( t ) se puede escribir como:

Luego integramos esta última igualdad sobre [ a , b ]. La ortonormalidad de f k produce:

El problema de minimizar el error cuadrático medio total se reduce entonces a minimizar el lado derecho de esta igualdad sujeto a la restricción de que f k esté normalizado. Por lo tanto, introducimos β k , los multiplicadores lagrangianos asociados con estas restricciones, y pretendemos minimizar la siguiente función:

Diferenciando con respecto a f i ( t ) (esta es una derivada funcional ) y estableciendo la derivada en 0 se obtiene:

que se satisface en particular cuando

En otras palabras, cuando las f k se eligen como funciones propias de T K X , lo que resulta en la expansión de KL.

varianza explicada

Una observación importante es que dado que los coeficientes aleatorios Z k de la expansión KL no están correlacionados, la fórmula de Bienaymé afirma que la varianza de X t es simplemente la suma de las varianzas de los componentes individuales de la suma:

Integrando sobre [ a , b ] y usando la ortonormalidad de e k , obtenemos que la varianza total del proceso es:

En particular, la varianza total de la aproximación N -truncada es

Como resultado, la expansión N -truncada explica

de la varianza; y si estamos contentos con una aproximación que explica, digamos, el 95% de la varianza, entonces sólo tenemos que determinar un tal que

La expansión de Karhunen-Loève tiene la propiedad de entropía de representación mínima

Dada una representación de , para alguna base ortonormal y aleatoria , dejamos que . Entonces podemos definir la entropía de representación como . Luego tenemos , para todas las opciones de . Es decir, la expansión KL tiene una entropía de representación mínima.

Prueba:

Denota los coeficientes obtenidos para la base como y para como .

Elegir . Tenga en cuenta que como minimiza el error cuadrático medio, tenemos que

Ampliando el tamaño de la mano derecha, obtenemos:

Usando la ortonormalidad de y expandiendo la base, obtenemos que el tamaño de la derecha es igual a:

Podemos realizar un análisis idéntico para , y así reescribir la desigualdad anterior como:

Restando el primer término común y dividiendo por , obtenemos que:

Esto implica que:

Aproximaciones lineales de Karhunen-Loève

Considere toda una clase de señales que queremos aproximar sobre los primeros M vectores de una base. Estas señales se modelan como realizaciones de un vector aleatorio Y [ n ] de tamaño N. Para optimizar la aproximación diseñamos una base que minimice el error medio de aproximación. Esta sección demuestra que las bases óptimas son bases de Karhunen- Loeve que diagonalizan la matriz de covarianza de Y. El vector aleatorio Y se puede descomponer en forma ortogonal

como sigue:

donde cada

es una variable aleatoria. La aproximación a partir de los primeros MN vectores de la base es

La conservación de energía en forma ortogonal implica

Este error está relacionado con la covarianza de Y definida por

Para cualquier vector x [ n ] denotamos por K el operador de covarianza representado por esta matriz,

El error ε [ M ] es por tanto una suma de los últimos NM coeficientes del operador de covarianza

El operador de covarianza K es hermitiano y positivo y, por tanto, está diagonalizado en una base ortogonal llamada base de Karhunen-Loève. El siguiente teorema establece que una base de Karhunen-Loève es óptima para aproximaciones lineales.

Teorema (base de optimidad de Karhunen-Loève). Sea K un operador de covarianza. Para todo M ≥ 1 , el error de aproximación

es mínimo si y sólo si

es una base de Karhunen-Loeve ordenada por valores propios decrecientes.

Aproximación no lineal en bases

Las aproximaciones lineales proyectan la señal en M vectores a priori. La aproximación se puede hacer más precisa eligiendo los M vectores ortogonales dependiendo de las propiedades de la señal. Esta sección analiza el desempeño general de estas aproximaciones no lineales. Una señal se aproxima con M vectores seleccionados de forma adaptativa en forma ortonormal para [ definición necesaria ]

Sea la proyección de f sobre M vectores cuyos índices están en I M :

El error de aproximación es la suma de los coeficientes restantes.

Para minimizar este error, los índices en I M deben corresponder a los M vectores que tienen la mayor amplitud del producto interno.

Estos son los vectores que mejor correlacionan f. Por tanto, pueden interpretarse como las características principales de f. El error resultante es necesariamente menor que el error de una aproximación lineal que selecciona los M vectores de aproximación independientemente de f. ordenemos

en orden decreciente

La mejor aproximación no lineal es

También se puede escribir como umbral interno del producto:

con

El error no lineal es

este error llega rápidamente a cero a medida que M aumenta, si los valores ordenados de tienen una rápida caída a medida que k aumenta. Esta caída se cuantifica calculando la norma de los productos internos de la señal en B:

El siguiente teorema relaciona la desintegración de ε [ M ] con

Teorema (decaimiento del error). Si con p < 2 entonces

y

Por el contrario, si entonces

para cualquier q > p .

Falta de optimización de las bases Karhunen-Loève

Para ilustrar mejor las diferencias entre aproximaciones lineales y no lineales, estudiamos la descomposición de un vector aleatorio simple no gaussiano en una base de Karhunen-Loève. Los procesos cuyas realizaciones tienen una traducción aleatoria son estacionarios. La base de Karhunen-Loève es entonces una base de Fourier y estudiamos su comportamiento. Para simplificar el análisis, considere un vector aleatorio Y [ n ] de tamaño N que es el módulo de desplazamiento aleatorio N de una señal determinista f [ n ] de media cero

El desplazamiento aleatorio P se distribuye uniformemente en [0,  N  − 1]:

Claramente

y

Por eso

Dado que R Y es N periódico, Y es un vector aleatorio estacionario circular. El operador de covarianza es una convolución circular con R Y y, por lo tanto, está diagonalizado en la base discreta de Fourier Karhunen-Loève.

El espectro de potencia es la transformada de Fourier de R Y :

Ejemplo: Considere un caso extremo en el que . Un teorema mencionado anteriormente garantiza que la base de Fourier Karhunen-Loève produce un error de aproximación esperado menor que una base canónica de Diracs . De hecho, no conocemos a priori la abscisa de los coeficientes distintos de cero de Y , por lo que no existe ningún Dirac en particular que esté mejor adaptado para realizar la aproximación. Pero los vectores de Fourier cubren todo el soporte de Y y por tanto absorben una parte de la energía de la señal.

La selección de coeficientes de Fourier de mayor frecuencia produce una mejor aproximación cuadrática media que elegir a priori algunos vectores de Dirac para realizar la aproximación. La situación es totalmente diferente para las aproximaciones no lineales. Entonces , la base discreta de Fourier es extremadamente ineficiente porque f y, por tanto, Y tienen una energía que se distribuye casi uniformemente entre todos los vectores de Fourier. Por el contrario, dado que f tiene sólo dos coeficientes distintos de cero en la base de Dirac, una aproximación no lineal de Y con M ≥ 2 da un error cero. [5]

Análisis de componentes principales

Hemos establecido el teorema de Karhunen-Loève y hemos derivado algunas propiedades del mismo. También notamos que un obstáculo en su aplicación fue el costo numérico de determinar los valores propios y funciones propias de su operador de covarianza a través de la ecuación integral de Fredholm de segundo tipo.

Sin embargo, cuando se aplica a un proceso discreto y finito , el problema toma una forma mucho más simple y se puede utilizar el álgebra estándar para realizar los cálculos.

Tenga en cuenta que un proceso continuo también se puede muestrear en N puntos en el tiempo para reducir el problema a una versión finita.

De ahora en adelante consideraremos un vector aleatorio de N dimensiones . Como se mencionó anteriormente, X podría contener N muestras de una señal, pero puede contener muchas más representaciones según el campo de aplicación. Por ejemplo, podrían ser las respuestas a una encuesta o datos económicos en un análisis econométrico.

Como en la versión continua, asumimos que X está centrado; de lo contrario, podemos dejar (donde está el vector medio de X ) que está centrado.

Adaptemos el procedimiento al caso discreto.

Matriz de covarianza

Recuerde que la principal implicación y dificultad de la transformación KL es calcular los vectores propios del operador lineal asociado a la función de covarianza, que están dados por las soluciones de la ecuación integral escrita anteriormente.

Defina Σ, la matriz de covarianza de X , como una matriz N × N cuyos elementos están dados por:

Reescribiendo la ecuación integral anterior para adaptarla al caso discreto, observamos que se convierte en:

donde es un vector N -dimensional.

La ecuación integral se reduce así a un simple problema matricial de valores propios, lo que explica por qué el PCA tiene un dominio de aplicaciones tan amplio.

Dado que Σ es una matriz simétrica definida positiva, posee un conjunto de vectores propios ortonormales que forman una base de , y escribimos este conjunto de valores propios y vectores propios correspondientes, enumerados en valores decrecientes de λ i . Sea también Φ la matriz ortonormal que consta de estos vectores propios:

Transformación de componente principal

Queda por realizar la transformación KL real, denominada transformación de componente principal en este caso. Recuerde que la transformada se encontró expandiendo el proceso con respecto a la base abarcada por los vectores propios de la función de covarianza. En este caso tenemos por tanto:

En una forma más compacta, la transformada del componente principal de X está definida por:

El i -ésimo componente de Y es , la proyección de X en y la transformada inversa X = Φ Y produce la expansión de X en el espacio abarcado por :

Como en el caso continuo, podemos reducir la dimensionalidad del problema truncando la suma en algún punto tal que

donde α es el umbral de varianza explicada que deseamos establecer.

También podemos reducir la dimensionalidad mediante el uso de estimación de vector propio dominante multinivel (MDEE). [6]

Ejemplos

El proceso de Viena

Existen numerosas caracterizaciones equivalentes del proceso de Wiener , que es una formalización matemática del movimiento browniano . Aquí lo consideramos como el proceso gaussiano estándar centrado W t con función de covarianza

Restringimos el dominio del tiempo a [ a , b ]=[0,1] sin pérdida de generalidad.

Los vectores propios del núcleo de covarianza se determinan fácilmente. Estos son

y los valores propios correspondientes son

Prueba

Para encontrar los valores propios y los vectores propios, necesitamos resolver la ecuación integral:

derivando una vez con respecto a t se obtiene:

una segunda diferenciación produce la siguiente ecuación diferencial:

cuya solución general tiene la forma:

donde A y B son dos constantes que se determinarán con las condiciones de contorno. Establecer t  = 0 en la ecuación integral inicial da e (0) = 0, lo que implica que B  = 0 y de manera similar, establecer t  = 1 en la primera diferenciación produce e' (1) = 0, de donde:

lo que a su vez implica que los valores propios de T K X son:

Las funciones propias correspondientes son, por tanto, de la forma:

Luego se elige A para normalizar e k :

Esto da la siguiente representación del proceso de Wiener:

Teorema . Existe una secuencia { Z i } i de variables aleatorias gaussianas independientes con media cero y varianza 1 tal que

Tenga en cuenta que esta representación sólo es válida para intervalos mayores, los incrementos no son independientes. Como se establece en el teorema, la convergencia es en la norma L 2 y uniforme en  t .

El puente browniano

De manera similar, el puente browniano , que es un proceso estocástico con función de covarianza

se puede representar como la serie

Aplicaciones

Los sistemas de óptica adaptativa a veces utilizan funciones K – L para reconstruir la información de fase del frente de onda (Dai 1996, JOSA A). La expansión de Karhunen-Loève está estrechamente relacionada con la descomposición de valores singulares . Este último tiene innumerables aplicaciones en procesamiento de imágenes, radar, sismología y similares. Si uno tiene observaciones de vectores independientes de un proceso estocástico valorado por vectores, entonces los vectores singulares izquierdos son estimaciones de máxima verosimilitud de la expansión KL del conjunto.

Aplicaciones en estimación y detección de señales.

Detección de una señal continua conocida S ( t )

En comunicación, normalmente tenemos que decidir si una señal de un canal ruidoso contiene información valiosa. La siguiente prueba de hipótesis se utiliza para detectar la señal continua s ( t ) de la salida del canal X ( t ), N ( t ) es el ruido del canal, que generalmente se supone un proceso gaussiano de media cero con función de correlación.

Detección de señal en ruido blanco.

Cuando el ruido del canal es blanco, su función de correlación es

y tiene una densidad de espectro de potencia constante. En un canal físicamente práctico, la potencia del ruido es finita, por lo que:

Entonces la función de correlación de ruido es una función sinc con ceros en Dado que no están correlacionados y son gaussianos, son independientes. Por tanto, podemos tomar muestras de X ( t ) con espaciamiento temporal.

Dejar . Tenemos un total de observaciones iid para desarrollar la prueba de razón de verosimilitud. Defina señal , el problema es:

La relación de probabilidad logarítmica

Como t → 0 , sea:

Entonces G es la estadística de prueba y el detector óptimo de Neyman-Pearson es

Como G es gaussiano, podemos caracterizarlo encontrando su media y varianzas. Entonces obtenemos

dónde

es la energía de la señal.

El error de falsa alarma

Y la probabilidad de detección:

donde Φ es la CDF de la variable normal estándar o gaussiana.

Detección de señal en ruido coloreado.

Cuando N (t) está coloreado (correlacionado en el tiempo) con ruido gaussiano con media cero y función de covarianza, no podemos muestrear observaciones discretas independientes espaciando uniformemente el tiempo. En su lugar, podemos utilizar la expansión K – L para descorrelacionar el proceso de ruido y obtener "muestras" de observación gaussiana independientes. La expansión K – L de N ( t ):

donde y las bases ortonormales son generadas por kernel , es decir, solución a

Haz la expansión:

donde entonces

bajo H y bajo K. Seamos , tenemos

son rv gaussianos independientes con varianza
bajo H: son rv gaussianas independientes.
bajo K: son rv gaussianas independientes.

Por lo tanto, el log-LR viene dado por

y el detector óptimo es

Definir

entonces

Cómo encontrar k ( t )

Desde

k(t) es la solución a

Si N ( t ) es estacionario en sentido amplio,

que se conoce como ecuación de Wiener-Hopf . La ecuación se puede resolver tomando la transformada de Fourier, pero no es prácticamente realizable ya que el espectro infinito necesita factorización espacial. Un caso especial que es fácil de calcular k ( t ) es el ruido blanco gaussiano.

La respuesta al impulso correspondiente es h ( t ) = k ( T  −  t ) = CS ( T  −  t ). Sea C  = 1, este es solo el resultado al que llegamos en la sección anterior para detectar señales en ruido blanco.

Umbral de prueba para el detector Neyman-Pearson

Dado que X(t) es un proceso gaussiano,

es una variable aleatoria gaussiana que se puede caracterizar por su media y varianza.

Por tanto, obtenemos las distribuciones de H y K :

El error de falsa alarma es

Entonces, el umbral de prueba para el detector óptimo de Neyman-Pearson es

Su poder de detección es

Cuando el ruido es un proceso gaussiano blanco, la potencia de la señal es

Preblanqueamiento

Para algún tipo de ruido de color, una práctica típica es agregar un filtro de preblanqueo antes del filtro correspondiente para transformar el ruido de color en ruido blanco. Por ejemplo, N(t) es un ruido coloreado estacionario de sentido amplio con función de correlación

La función de transferencia del filtro preblanqueador es

Detección de una señal aleatoria gaussiana en ruido blanco gaussiano aditivo (AWGN)

Cuando la señal que queremos detectar del canal ruidoso también es aleatoria, por ejemplo, un proceso gaussiano blanco X ( t ), aún podemos implementar la expansión K – L para obtener una secuencia de observación independiente. En este caso, el problema de detección se describe a continuación:

X ( t ) es un proceso aleatorio con función de correlación

La expansión K – L de X ( t ) es

dónde

y son soluciones a

Entonces las son secuencias independientes de rv con media y varianza cero . Desarrollando Y ( t ) y N ( t ) por , obtenemos

dónde

Como N ( t ) es ruido blanco gaussiano, los 's son una secuencia iid de rv con media y varianza cero , entonces el problema se simplifica de la siguiente manera:

La prueba óptima de Neyman-Pearson:

entonces la razón logarítmica de verosimilitud es

Desde

es solo la estimación cuadrática media mínima de los dados ,

La expansión K – L tiene la siguiente propiedad: Si

dónde

entonces

Entonces deja

El filtro no causal Q ( t , s ) se puede utilizar para obtener la estimación

Por principio de ortogonalidad , Q ( t , s ) satisface

Sin embargo, por razones prácticas, es necesario derivar más el filtro causal h ( t , s ), donde h ( t , s ) = 0 para s > t , para obtener la estimación . Específicamente,

Ver también

Notas

  1. ^ Sapatnekar, Sachin (2011), "Superar variaciones en tecnologías de escala nanométrica", Revista IEEE sobre temas emergentes y seleccionados en circuitos y sistemas , 1 (1): 5–18, Bibcode : 2011IJEST...1.... 5S, CiteSeerX  10.1.1.300.5659 , doi : 10.1109/jetcas.2011.2138250, S2CID  15566585
  2. ^ Ghoman, Satyajit; Wang, Zhicun; Chen, ordenador personal; Kapania, Rakesh (2012). "Un esquema de diseño de pedido reducido basado en POD para la optimización de la forma de vehículos aéreos". Procedimiento de la 53ª Conferencia AIAA/ASME/ASCE/AHS/ASC sobre estructuras, dinámica estructural y materiales, AIAA-2012-1808, Honolulu, Hawaii .
  3. ^ Karhunen-Loeve transform (KLT) Archivado el 28 de noviembre de 2016 en Wayback Machine , conferencias sobre procesamiento y análisis de imágenes por computadora (E161), Harvey Mudd College
  4. ^ Giambartolomei, Giordano (2016). "4 El teorema de Karhunen-Loève". El teorema de Karhunen-Loève (Licenciaturas). Universidad de Bolonia.
  5. ^ Un recorrido por ondas por el procesamiento de señales-Stéphane Mallat
  6. ^ X. Tang, “Información de textura en matrices de longitud de ejecución”, IEEE Transactions on Image Processing, vol. 7, núm. 11, págs. 1602–1609, noviembre de 1998

Referencias

enlaces externos