Núcleo positivo-definido

En la teoría de operadores , una rama de las matemáticas, un núcleo definido positivo es una generalización de una función definida positiva o una matriz definida positiva . Fue introducido por primera vez por James Mercer a principios del siglo XX, en el contexto de la resolución de ecuaciones de operadores integrales . Desde entonces, han surgido funciones definidas positivas y sus diversas analogías y generalizaciones en diversas partes de las matemáticas. Ocurren naturalmente en el análisis de Fourier , la teoría de la probabilidad , la teoría del operador , la teoría de funciones complejas , los problemas de momentos , las ecuaciones integrales , los problemas de valores en la frontera para ecuaciones diferenciales parciales , el aprendizaje automático , los problemas de incrustación , la teoría de la información y otras áreas.

Definición

Sea un conjunto no vacío, a veces denominado conjunto de índices. Una función simétrica se llama núcleo positivo definido (pd) si ${\mathcal {X}}$ $K:{\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$ ${\mathcal {X}}$

es válido para cualquiera , dado . $x_{1},\dots,x_{n}\in {\mathcal {X}}$ $n\in \mathbb {N},c_{1},\dots,c_{n}\in \mathbb {R}$

En la teoría de la probabilidad, a veces se hace una distinción entre núcleos definidos positivos, para los cuales la igualdad en (1.1) implica , y núcleos semidefinidos positivos (psd), que no imponen esta condición. Tenga en cuenta que esto equivale a exigir que cualquier matriz finita construida mediante evaluación por pares, tenga valores propios completamente positivos (pd) o no negativos (psd) . $c_{i}=0\;(\forall i)$ $\mathbf {K} _{ij}=K(x_{i},x_{j})$

En la literatura matemática, los núcleos suelen ser funciones valoradas complejas. Es decir, una función de valor complejo se llama núcleo hermitiano si y definida positiva si para cualquier conjunto finito de puntos y cualquier número complejo , $K:{\mathcal {X}}\times {\mathcal {X}}\to \mathbb {C}$ $K(x,y)={\overline {K(y,x)}}$ $x_{1},\dots,x_{n}\in {\mathcal {X}}$ $\xi _{1},\dots ,\xi _{n}\in \mathbb {C}$

\sum _{i=1}^{n}\sum _{j=1}^{n}\xi _{i}{\overline {\xi }}_{j}K(x_{i) },x_{j})\geq 0

donde denota el conjugado complejo . ^[1] En el resto de este artículo asumimos funciones de valor real, que es la práctica común en aplicaciones de núcleos pd. ${\overline {\xi }}_{j}$

Algunas propiedades generales

Para una familia de núcleos pd $(K_{i})_{i\in \mathbb {N} },\ \ K_{i}:{\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R }$
- La suma cónica es pd, dada $\sum _ {i=1}^{n}\lambda _ {i}K_ {i}$ $\lambda _ {1},\dots,\lambda _ {n}\geq 0$
- El producto es pd, dado. ${\ Displaystyle K_ {1} ^ {a_ {1}} \ dots K_ {n} ^ {a_ {n}}}$ $a_{1},\dots,a_{n}\in \mathbb {N}$
- El límite es pd si el límite existe. $K=\lim _{n\to \infty }K_{n}$
Si es una secuencia de conjuntos y una secuencia de núcleos pd, entonces ambos $({\mathcal {X}}_{i})_{i=1}^{n}$ $(K_{i})_{i=1}^{n},\ \ K_{i}:{\mathcal {X}}_{i}\times {\mathcal {X}}_{i }\to \mathbb {R}$ $K((x_{1},\dots ,x_{n}),(y_{1},\dots ,y_{n}))=\prod _{i=1}^{n}K_{ i}(x_{i},y_{i})$ y $K((x_{1},\dots ,x_{n}),(y_{1},\dots ,y_{n}))=\sum _{i=1}^{n}K_{ i}(x_{i},y_{i})$ ¿Están los núcleos pd activados ? ${\mathcal {X}}={\mathcal {X}}_{1}\times \dots \times {\mathcal {X}}_{n}$
Dejar . Entonces la restricción de to también es un núcleo pd. ${\mathcal {X}}_{0}\subset {\mathcal {X}}$ $K_{0}$ $K$ ${\mathcal {X}}_{0}\times {\mathcal {X}}_{0}$

Ejemplos de núcleos pd

Ejemplos comunes de núcleos pd definidos en el espacio euclidiano incluyen: $\mathbb {R} ^{d}$
- Núcleo lineal: . $K(\mathbf {x} ,\mathbf {y} )=\mathbf {x} ^{T}\mathbf {y} ,\quad \mathbf {x} ,\mathbf {y} \in \mathbb {R} ^{d}$
- Núcleo polinómico : . $K(\mathbf {x} ,\mathbf {y} )=(\mathbf {x} ^{T}\mathbf {y} +r)^{n},\quad \mathbf {x} ,\mathbf {y} \in \mathbb {R} ^{d},r\geq 0,n\geq 1$
- Núcleo gaussiano ( núcleo RBF ): . $K(\mathbf {x} ,\mathbf {y} )=e^{-{\frac {\|\mathbf {x} -\mathbf {y} \|^{2}}{2\sigma ^{2}}}},\quad \mathbf {x} ,\mathbf {y} \in \mathbb {R} ^{d},\sigma >0$
- Núcleo laplaciano: . $K(\mathbf {x} ,\mathbf {y} )=e^{-\alpha \|\mathbf {x} -\mathbf {y} \|},\quad \mathbf {x} ,\mathbf {y} \in \mathbb {R} ^{d},\alpha >0$
- Núcleo de Abel: . $K(x,y)=e^{-\alpha |x-y|},\quad x,y\in \mathbb {R} ,\alpha >0$
- Núcleo que genera espacios de Sobolev : , donde es la función de Bessel de tercer tipo . $W_{2}^{k}(\mathbb {R} ^{d})$ $K(x,y)=\|x-y\|_{2}^{k-{\frac {d}{2}}}B_{k-{\frac {d}{2}}}(\|x-y\|_{2})$ $B_{\nu }$
- Núcleo que genera el espacio Paley-Wiener: . $K(x,y)={\mbox{sinc}}(\alpha (x-y)),\quad x,y\in \mathbb {R} ,\alpha >0$
Si es un espacio de Hilbert , entonces su producto interno correspondiente es un núcleo pd. De hecho, tenemos $H$ $(\cdot ,\cdot )_{H}:H\times H\to \mathbb {R}$ $\sum _{i,j=1}^{n}c_{i}c_{j}(x_{i},x_{j})_{H}=\left(\sum _{i=1}^{n}c_{i}x_{i},\sum _{j=1}^{n}c_{j}x_{j}\right)_{H}=\left\|\sum _{i=1}^{n}c_{i}x_{i}\right\|_{H}^{2}\geq 0$
Núcleos definidos e histogramas: los histogramas se encuentran con frecuencia en aplicaciones de problemas de la vida real. La mayoría de las observaciones suelen estar disponibles en forma de vectores de recuentos no negativos que, si se normalizan, producen histogramas de frecuencias. Se ha demostrado ^[2] que la siguiente familia de métricas al cuadrado, respectivamente la divergencia de Jensen, el -cuadrado, la variación total y dos variaciones de la distancia de Hellinger: $\mathbb {R} _{+}^{d}$ $\chi$ $\psi _{JD}=H\left({\frac {\theta +\theta '}{2}}\right)-{\frac {H(\theta )+H(\theta ')}{2}},$ $\psi _{\chi ^{2}}=\sum _{i}{\frac {(\theta _{i}-\theta _{i}')^{2}}{\theta _{i}+\theta _{i}'}},\quad \psi _{TV}=\sum _{i}\left|\theta _{i}-\theta _{i}'\right|,$ $\psi _{H_{1}}=\sum _{i}\left|{\sqrt {\theta _{i}}}-{\sqrt {\theta _{i}'}}\right|,\psi _{H_{2}}=\sum _{i}\left|{\sqrt {\theta _{i}}}-{\sqrt {\theta _{i}'}}\right|^{2},$ se puede utilizar para definir núcleos pd utilizando la siguiente fórmula $K(\theta ,\theta ')=e^{-\alpha \psi (\theta ,\theta ')},\alpha >0.$

Historia

Los núcleos definidos positivos, tal como se definen en (1.1), aparecieron por primera vez en 1909 en un artículo sobre ecuaciones integrales de James Mercer. ^[3] Varios otros autores hicieron uso de este concepto en las siguientes dos décadas, pero ninguno de ellos utilizó explícitamente kernels , funciones iepd (de hecho, M. Mathias y S. Bochner parecen no haber estado al tanto del estudio de los kernels pd). El trabajo de Mercer surgió del artículo de Hilbert de 1904 ^[4] sobre las ecuaciones integrales de Fredholm de segundo tipo: $K(x,y)=f(x-y)$

En particular, Hilbert había demostrado que

donde es un núcleo simétrico real continuo, es continuo, es un sistema completo de funciones propias ortonormales , y son los valores propios correspondientes de (1.2). Hilbert definió un núcleo "definido" como aquel para el cual la integral doble $K$ $x$ $\{\psi _{n}\}$ $\lambda _{n}$

J(x)=\int _{a}^{b}\int _{a}^{b}K(s,t)x(s)x(t)\ \mathrm {d} s\;\mathrm {d} t

J(x)>0

x(t)=0

K(s,t)

J(x)\geq 0

x

[a,b]

K(s,t)=\sum _{n}{\frac {\psi _{n}(s)\psi _{n}(t)}{\lambda _{n}}}

Aproximadamente al mismo tiempo, WH Young, ^[5] motivado por una cuestión diferente en la teoría de ecuaciones integrales, demostró que para núcleos continuos la condición (1.1) es equivalente a para todos . $J(x)\geq 0$ $x\in L^{1}[a,b]$

EH Moore ^[6]^[7] inició el estudio de un tipo muy general de núcleo pd. Si es un conjunto abstracto, llama funciones definidas en “matrices hermitianas positivas” si satisfacen (1.1) para todos . Moore estaba interesado en la generalización de ecuaciones integrales y demostró que para cada una de ellas existe un espacio de funciones de Hilbert tal que, para cada una . Esta propiedad se llama propiedad de reproducción del núcleo y resulta tener importancia en la solución de problemas de valores en la frontera para ecuaciones diferenciales parciales elípticas. $E$ $K(x,y)$ $E\times E$ $x_{i}\in E$ $K$ $H$ $f\in H,f(y)=(f,K(\cdot ,y))_{H}$

Otra línea de desarrollo en la que los núcleos pd desempeñaron un papel importante fue la teoría de los armónicos en espacios homogéneos iniciada por E. Cartan en 1929 y continuada por H. Weyl y S. Ito. La teoría más completa de los núcleos pd en espacios homogéneos es la de M. Kerin ^[8], que incluye como casos especiales el trabajo sobre funciones pd y representaciones unitarias irreducibles de grupos localmente compactos.

En teoría de la probabilidad, los núcleos pd surgen como núcleos de covarianza de procesos estocásticos. ^[9]

Conexión con la reproducción de espacios de Hilbert del núcleo y mapas de características.

Los núcleos definidos positivos proporcionan un marco que abarca algunas construcciones básicas del espacio de Hilbert. A continuación presentamos una estrecha relación entre núcleos definidos positivos y dos objetos matemáticos, concretamente la reproducción de espacios de Hilbert y mapas de características.

Sea un conjunto, un espacio de funciones de Hilbert y el producto interno correspondiente en . Para cualquiera, la función de evaluación está definida por . Primero definimos un espacio de Hilbert del núcleo reproductor (RKHS): $X$ $H$ $f:X\to \mathbb {R}$ $(\cdot ,\cdot )_{H}:H\times H\to \mathbb {R}$ $H$ $x\in X$ $e_{x}:H\to \mathbb {R}$ $f\mapsto e_{x}(f)=f(x)$

Definición : El espacio se denomina espacio de Hilbert del núcleo reproductor si las funciones de evaluación son continuas. $H$

Cada RKHS tiene una función especial asociada, a saber, el núcleo reproductor:

Definición : La reproducción del núcleo es una función tal que $K:X\times X\to \mathbb {R}$
$K_{x}(\cdot )\in H,\forall x\in X$ , y
$(f,K_{x})=f(x)$ , para todos y . $f\in H$ $x\in X$
Esta última propiedad se llama propiedad de reproducción.

El siguiente resultado muestra la equivalencia entre RKHS y los núcleos en reproducción:

Teorema : cada núcleo en reproducción induce un RKHS único, y cada RKHS tiene un núcleo en reproducción único. $K$

Ahora la conexión entre núcleos definidos positivos y RKHS viene dada por el siguiente teorema

Teorema : cada núcleo reproductor es definido positivo, y cada núcleo definido positivo define un RKHS único, del cual es el núcleo reproductor único.

Por lo tanto, dado un núcleo definido positivo , es posible construir un RKHS asociado como núcleo de reproducción. $K$ $K$

Como se indicó anteriormente, los núcleos definidos positivos se pueden construir a partir de productos internos. Este hecho se puede utilizar para conectar los núcleos pd con otro objeto interesante que surge en las aplicaciones de aprendizaje automático, a saber, el mapa de características. Sea un espacio de Hilbert y el producto interno correspondiente. Cualquier mapa se llama mapa de características. En este caso lo llamamos espacio de características. Es fácil ver ^[10] que cada mapa de características define un núcleo pd único mediante $F$ $(\cdot ,\cdot )_{F}$ $\Phi :X\to F$ $F$

K(x,y)=(\Phi (x),\Phi (y))_{F}.

K

F=H

\Phi (x)=K_{x}

x\in X

(\Phi (x),\Phi (y))_{F}=(K_{x},K_{y})_{H}=K(x,y)

x

y

K(x,y)

Núcleos y distancias.

Los métodos kernel a menudo se comparan con métodos basados en la distancia, como los vecinos más cercanos . En esta sección analizamos los paralelismos entre sus dos ingredientes respectivos, a saber, núcleos y distancias . $K$ $d$

Aquí por función de distancia entre cada par de elementos de algún conjunto , nos referimos a una métrica definida en ese conjunto, es decir, cualquier función de valor no negativo en la que satisfaga $X$ $d$ ${\mathcal {X}}\times {\mathcal {X}}$

$d(x,y)\geq 0$ , y si y sólo si , $d(x,y)=0$ $x=y$
$d(x,y)=d(y,x)$ ,
$d(x,z)\leq d(x,y)+d(y,z)$ .

Un vínculo entre las distancias y los núcleos pd está dado por un tipo particular de núcleo, llamado núcleo definido negativo, y se define de la siguiente manera

Definición : Una función simétrica se llama núcleo definido negativo (nd) si $\psi :{\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$ ${\mathcal {X}}$
es válido para cualquiera y tal que . $n\in \mathbb {N} ,x_{1},\dots ,x_{n}\in {\mathcal {X}},$ $c_{1},\dots ,c_{n}\in \mathbb {R}$ ${\textstyle \sum _{i=1}^{n}c_{i}=0}$

El paralelo entre nd kernels y distancias es el siguiente: siempre que nd kernel desaparece en el conjunto y es cero sólo en este conjunto, entonces su raíz cuadrada es una distancia para . ^[11] Al mismo tiempo, cada distancia no corresponde necesariamente a un núcleo. Esto sólo es cierto para las distancias hilbertianas, donde la distancia se llama hilbertiana si se puede incrustar el espacio métrico isométricamente en algún espacio de Hilbert. $\{(x,x):x\in {\mathcal {X}}\}$ ${\mathcal {X}}$ $d$ $({\mathcal {X}},d)$

Por otro lado, los núcleos nd se pueden identificar con una subfamilia de núcleos pd conocidos como núcleos infinitamente divisibles. Se dice que un núcleo de valor no negativo es infinitamente divisible si para cada existe un núcleo definido positivo tal que . $K$ $n\in \mathbb {N}$ $K_{n}$ $K=(K_{n})^{n}$

Otro vínculo es que un núcleo pd induce una pseudométrica , donde la primera restricción en la función de distancia se afloja para permitir . Dado un núcleo definido positivo , podemos definir una función de distancia como: $d(x,y)=0$ $x\neq y$ $K$

d(x,y)={\sqrt {K(x,x)-2K(x,y)+K(y,y)}}

Algunas aplicaciones

Núcleos en el aprendizaje automático

Los núcleos definidos positivos, a través de su equivalencia con la reproducción de espacios de Hilbert del núcleo, son particularmente importantes en el campo de la teoría del aprendizaje estadístico debido al célebre teorema del representante que establece que cada función minimizadora en un RKHS se puede escribir como una combinación lineal de la función del núcleo. evaluados en los puntos de entrenamiento. Este es un resultado prácticamente útil ya que simplifica efectivamente el problema empírico de minimización de riesgos desde un problema de optimización de dimensión infinita a uno de dimensión finita.

Núcleos en modelos probabilísticos.

Hay varias formas diferentes en que surgen los núcleos en la teoría de la probabilidad.

Problemas de recuperación no deterministas: supongamos que queremos encontrar la respuesta de una función modelo desconocida en un nuevo punto de un conjunto , siempre que tengamos una muestra de pares entrada-respuesta dada por observación o experimento. La respuesta en no es una función fija de sino más bien una realización de una variable aleatoria de valor real . El objetivo es obtener información sobre la función que reemplaza en el entorno determinista. Para dos elementos, las variables aleatorias y no estarán descorrelacionadas, porque está demasiado cerca de los experimentos aleatorios descritos por y a menudo mostrará un comportamiento similar. Esto se describe mediante un núcleo de covarianza . Tal núcleo existe y es positivo-definido bajo supuestos adicionales débiles. Ahora se puede obtener una buena estimación utilizando la interpolación del núcleo con el núcleo de covarianza, ignorando por completo el trasfondo probabilístico. $f(x)$ $f$ $x$ ${\mathcal {X}}$ $(x_{i},f_{i})=(x_{i},f(x_{i}))$ $f_{i}$ $x_{i}$ $x_{i}$ $Z(x_{i})$ $E[Z(x_{i})]$ $f$ $x,y\in {\mathcal {X}}$ $Z(x)$ $Z(y)$ $x$ $y$ $Z(x)$ $Z(y)$ $K(x,y)=E[Z(x)\cdot Z(y)]$ $Z(x)$

Supongamos ahora que se le suma una variable de ruido , con media y varianza cero , de modo que el ruido es independiente para diferentes e independiente de allí, entonces el problema de encontrar una buena estimación para es idéntico al anterior, pero con una modificación núcleo dado por . $\epsilon (x)$ $\sigma ^{2}$ $x$ $x$ $Z$ $f$ $K(x,y)=E[Z(x)\cdot Z(y)]+\sigma ^{2}\delta _{xy}$

Estimación de densidad por kernels: El problema es recuperar la densidad de una distribución multivariada sobre un dominio , a partir de una muestra grande que incluye repeticiones. Cuando los puntos de muestreo son densos, la función de densidad verdadera debe tomar valores grandes. Es posible realizar una estimación de densidad simple contando el número de muestras en cada celda de una cuadrícula y trazando el histograma resultante, lo que produce una estimación de densidad constante por partes. Se puede obtener una mejor estimación utilizando un núcleo invariante de traducción no negativo , con integral total igual a uno, y definir $f$ ${\mathcal {X}}$ $x_{1},\dots ,x_{n}\in {\mathcal {X}}$ $K$ $f(x)={\frac {1}{n}}\sum _{i=1}^{n}K\left({\frac {x-x_{i}}{h}}\right)$ como una estimación suave.

Solución numérica de ecuaciones diferenciales parciales.

Una de las mayores áreas de aplicación de los llamados métodos sin malla es la solución numérica de PDE . Algunos de los métodos populares sin malla están estrechamente relacionados con los núcleos definidos positivos (como el Petrov Galerkin local sin malla (MLPG), el método de reproducción de partículas del núcleo (RKPM) y la hidrodinámica de partículas suavizadas (SPH) ). Estos métodos utilizan un núcleo de base radial para la colocación . ^[12]

Teorema de dilatación de Stinespring

Otras aplicaciones

En la literatura sobre experimentos informáticos ^[13] y otros experimentos de ingeniería, se encuentran cada vez más modelos basados en núcleos pd, RBF o kriging . Uno de esos temas es la metodología de la superficie de respuesta . Otros tipos de aplicaciones que se reducen al ajuste de datos son la creación rápida de prototipos y los gráficos por computadora . Aquí se utilizan a menudo modelos de superficie implícitos para aproximar o interpolar datos de nubes de puntos.

Las aplicaciones de los núcleos pd en varias otras ramas de las matemáticas se encuentran en la integración multivariada, la optimización multivariada y en el análisis numérico y la computación científica, donde se estudian algoritmos rápidos, precisos y adaptativos idealmente implementados en entornos informáticos de alto rendimiento. ^[14]

Ver también

Referencias

^ Berezanskij, Jurij Makarovič (1968). "Expansiones en funciones propias de operadores autoadjuntos" . Providence, RI: Sociedad Estadounidense de Matemáticas. págs. 45–47. ISBN 978-0-8218-1567-0.
^ Hein, M. y Bousquet, O. (2005). "Métricas hilbertianas y núcleos definidos positivos en medidas de probabilidad". En Ghahramani, Z. y Cowell, R., editores, Actas de AISTATS 2005.
^ Mercer, J. (1909). “Funciones de tipo positivo y negativo y su conexión con la teoría de ecuaciones integrales”. Transacciones filosóficas de la Royal Society of London, Serie A 209, págs. 415-446.
^ Hilbert, D. (1904). "Grundzuge einer allgemeinen Theorie der linearen Integralgleichungen I", Gott. Nachrichten, matemáticas-física. K1 (1904), págs.49-91.
^ Joven, WH (1909). "Una nota sobre una clase de funciones simétricas y sobre un teorema requerido en la teoría de ecuaciones integrales", Philos. Trans. Roy.Soc. Londres, ser. A, 209, págs. 415-446.
^ Moore, EH (1916). "Sobre matrices hermitianas propiamente positivas", Bull. América. Matemáticas. Soc. 23, 59, págs. 66-67.
^ Moore, EH (1935). "Análisis general, Parte I", Memorias Amer. Filos. Soc. 1, Filadelfia.
^ Krein. M (1949/1950). "Núcleos hermitianos positivos en espacios homogéneos I y II" (en ruso), Ucrania. Estera. Z. 1 (1949), págs. 64-98, y 2 (1950), págs. 10-59. Traducción al inglés: Amer. Matemáticas. Soc. Traducciones Ser. 2, 34 (1963), págs. 69-164.
^ Loève, M. (1960). "Teoría de la probabilidad", 2ª ed., Van Nostrand, Princeton, Nueva Jersey
^ Rosasco, L. y Poggio, T. (2015). Manuscrito "Un recorrido por la regularización del aprendizaje automático: notas de la conferencia del MIT 9.520".
^ Berg, C., Christensen, JPR y Ressel, P. (1984). "Análisis armónicos de semigrupos". Número 100 en Textos de Graduado en Matemáticas, Springer Verlag.
^ Schaback, R. y Wendland, H. (2006). "Técnicas del kernel: del aprendizaje automático a los métodos sin malla", Cambridge University Press, Acta Numerica (2006), págs.
^ Haaland, B. y Qian, PZG (2010). "Emuladores precisos para experimentos informáticos a gran escala", Ann. Estadística.
^ Gumerov, NA y Duraiswami, R. (2007). "Interpolación rápida de funciones de base radial mediante iteración de Krylov precondicionada". SIAM J. Científico. Computación 29/5, págs. 1876-1899.