stringtranslate.com

Núcleo positivo-definido

En la teoría de operadores , una rama de las matemáticas, un núcleo definido positivo es una generalización de una función definida positiva o una matriz definida positiva . Fue introducido por primera vez por James Mercer a principios del siglo XX, en el contexto de la resolución de ecuaciones de operadores integrales . Desde entonces, han surgido funciones definidas positivas y sus diversas analogías y generalizaciones en diversas partes de las matemáticas. Ocurren naturalmente en el análisis de Fourier , la teoría de la probabilidad , la teoría del operador , la teoría de funciones complejas , los problemas de momentos , las ecuaciones integrales , los problemas de valores en la frontera para ecuaciones diferenciales parciales , el aprendizaje automático , los problemas de incrustación , la teoría de la información y otras áreas.

Definición

Sea un conjunto no vacío, a veces denominado conjunto de índices. Una función simétrica se llama núcleo positivo definido (pd) si

es válido para cualquiera , dado .

En la teoría de la probabilidad, a veces se hace una distinción entre núcleos definidos positivos, para los cuales la igualdad en (1.1) implica , y núcleos semidefinidos positivos (psd), que no imponen esta condición. Tenga en cuenta que esto equivale a exigir que cualquier matriz finita construida mediante evaluación por pares, tenga valores propios completamente positivos (pd) o no negativos (psd) .

En la literatura matemática, los núcleos suelen ser funciones valoradas complejas. Es decir, una función de valor complejo se llama núcleo hermitiano si y definida positiva si para cualquier conjunto finito de puntos y cualquier número complejo ,

donde denota el conjugado complejo . [1] En el resto de este artículo asumimos funciones de valor real, que es la práctica común en aplicaciones de núcleos pd.

Algunas propiedades generales

Ejemplos de núcleos pd

Historia

Los núcleos definidos positivos, tal como se definen en (1.1), aparecieron por primera vez en 1909 en un artículo sobre ecuaciones integrales de James Mercer. [3] Varios otros autores hicieron uso de este concepto en las siguientes dos décadas, pero ninguno de ellos utilizó explícitamente kernels , funciones iepd (de hecho, M. Mathias y S. Bochner parecen no haber estado al tanto del estudio de los kernels pd). El trabajo de Mercer surgió del artículo de Hilbert de 1904 [4] sobre las ecuaciones integrales de Fredholm de segundo tipo:

En particular, Hilbert había demostrado que

donde es un núcleo simétrico real continuo, es continuo, es un sistema completo de funciones propias ortonormales , y son los valores propios correspondientes de (1.2). Hilbert definió un núcleo "definido" como aquel para el cual la integral doble

Aproximadamente al mismo tiempo, WH Young, [5] motivado por una cuestión diferente en la teoría de ecuaciones integrales, demostró que para núcleos continuos la condición (1.1) es equivalente a para todos .

EH Moore [6] [7] inició el estudio de un tipo muy general de núcleo pd. Si es un conjunto abstracto, llama funciones definidas en “matrices hermitianas positivas” si satisfacen (1.1) para todos . Moore estaba interesado en la generalización de ecuaciones integrales y demostró que para cada una de ellas existe un espacio de funciones de Hilbert tal que, para cada una . Esta propiedad se llama propiedad de reproducción del núcleo y resulta tener importancia en la solución de problemas de valores en la frontera para ecuaciones diferenciales parciales elípticas.

Otra línea de desarrollo en la que los núcleos pd desempeñaron un papel importante fue la teoría de los armónicos en espacios homogéneos iniciada por E. Cartan en 1929 y continuada por H. Weyl y S. Ito. La teoría más completa de los núcleos pd en espacios homogéneos es la de M. Kerin [8], que incluye como casos especiales el trabajo sobre funciones pd y representaciones unitarias irreducibles de grupos localmente compactos.

En teoría de la probabilidad, los núcleos pd surgen como núcleos de covarianza de procesos estocásticos. [9]

Conexión con la reproducción de espacios de Hilbert del núcleo y mapas de características.

Los núcleos definidos positivos proporcionan un marco que abarca algunas construcciones básicas del espacio de Hilbert. A continuación presentamos una estrecha relación entre núcleos definidos positivos y dos objetos matemáticos, concretamente la reproducción de espacios de Hilbert y mapas de características.

Sea un conjunto, un espacio de funciones de Hilbert y el producto interno correspondiente en . Para cualquiera, la función de evaluación está definida por . Primero definimos un espacio de Hilbert del núcleo reproductor (RKHS):

Definición : El espacio se denomina espacio de Hilbert del núcleo reproductor si las funciones de evaluación son continuas.

Cada RKHS tiene una función especial asociada, a saber, el núcleo reproductor:

Definición : La reproducción del núcleo es una función tal que

  1. , y
  2. , para todos y .

Esta última propiedad se llama propiedad de reproducción.

El siguiente resultado muestra la equivalencia entre RKHS y los núcleos en reproducción:

Teorema  :  cada núcleo en reproducción induce un RKHS único, y cada RKHS tiene un núcleo en reproducción único.

Ahora la conexión entre núcleos definidos positivos y RKHS viene dada por el siguiente teorema

Teorema  :  cada núcleo reproductor es definido positivo, y cada núcleo definido positivo define un RKHS único, del cual es el núcleo reproductor único.

Por lo tanto, dado un núcleo definido positivo , es posible construir un RKHS asociado como núcleo de reproducción.

Como se indicó anteriormente, los núcleos definidos positivos se pueden construir a partir de productos internos. Este hecho se puede utilizar para conectar los núcleos pd con otro objeto interesante que surge en las aplicaciones de aprendizaje automático, a saber, el mapa de características. Sea un espacio de Hilbert y el producto interno correspondiente. Cualquier mapa se llama mapa de características. En este caso lo llamamos espacio de características. Es fácil ver [10] que cada mapa de características define un núcleo pd único mediante

Núcleos y distancias.

Los métodos kernel a menudo se comparan con métodos basados ​​en la distancia, como los vecinos más cercanos . En esta sección analizamos los paralelismos entre sus dos ingredientes respectivos, a saber, núcleos y distancias .

Aquí por función de distancia entre cada par de elementos de algún conjunto , nos referimos a una métrica definida en ese conjunto, es decir, cualquier función de valor no negativo en la que satisfaga

Un vínculo entre las distancias y los núcleos pd está dado por un tipo particular de núcleo, llamado núcleo definido negativo, y se define de la siguiente manera

Definición : Una función simétrica se llama núcleo definido negativo (nd) si

es válido para cualquiera y tal que .

El paralelo entre nd kernels y distancias es el siguiente: siempre que nd kernel desaparece en el conjunto y es cero sólo en este conjunto, entonces su raíz cuadrada es una distancia para . [11] Al mismo tiempo, cada distancia no corresponde necesariamente a un núcleo. Esto sólo es cierto para las distancias hilbertianas, donde la distancia se llama hilbertiana si se puede incrustar el espacio métrico isométricamente en algún espacio de Hilbert.

Por otro lado, los núcleos nd se pueden identificar con una subfamilia de núcleos pd conocidos como núcleos infinitamente divisibles. Se dice que un núcleo de valor no negativo es infinitamente divisible si para cada existe un núcleo definido positivo tal que .

Otro vínculo es que un núcleo pd induce una pseudométrica , donde la primera restricción en la función de distancia se afloja para permitir . Dado un núcleo definido positivo , podemos definir una función de distancia como:

Algunas aplicaciones

Núcleos en el aprendizaje automático

Los núcleos definidos positivos, a través de su equivalencia con la reproducción de espacios de Hilbert del núcleo, son particularmente importantes en el campo de la teoría del aprendizaje estadístico debido al célebre teorema del representante que establece que cada función minimizadora en un RKHS se puede escribir como una combinación lineal de la función del núcleo. evaluados en los puntos de entrenamiento. Este es un resultado prácticamente útil ya que simplifica efectivamente el problema empírico de minimización de riesgos desde un problema de optimización de dimensión infinita a uno de dimensión finita.

Núcleos en modelos probabilísticos.

Hay varias formas diferentes en que surgen los núcleos en la teoría de la probabilidad.

Supongamos ahora que se le suma una variable de ruido , con media y varianza cero , de modo que el ruido es independiente para diferentes e independiente de allí, entonces el problema de encontrar una buena estimación para es idéntico al anterior, pero con una modificación núcleo dado por .

Solución numérica de ecuaciones diferenciales parciales.

Una de las mayores áreas de aplicación de los llamados métodos sin malla es la solución numérica de PDE . Algunos de los métodos populares sin malla están estrechamente relacionados con los núcleos definidos positivos (como el Petrov Galerkin local sin malla (MLPG), el método de reproducción de partículas del núcleo (RKPM) y la hidrodinámica de partículas suavizadas (SPH) ). Estos métodos utilizan un núcleo de base radial para la colocación . [12]

Teorema de dilatación de Stinespring

Otras aplicaciones

En la literatura sobre experimentos informáticos [13] y otros experimentos de ingeniería, se encuentran cada vez más modelos basados ​​en núcleos pd, RBF o kriging . Uno de esos temas es la metodología de la superficie de respuesta . Otros tipos de aplicaciones que se reducen al ajuste de datos son la creación rápida de prototipos y los gráficos por computadora . Aquí se utilizan a menudo modelos de superficie implícitos para aproximar o interpolar datos de nubes de puntos.

Las aplicaciones de los núcleos pd en varias otras ramas de las matemáticas se encuentran en la integración multivariada, la optimización multivariada y en el análisis numérico y la computación científica, donde se estudian algoritmos rápidos, precisos y adaptativos idealmente implementados en entornos informáticos de alto rendimiento. [14]

Ver también

Referencias

  1. ^ Berezanskij, Jurij Makarovič (1968). "Expansiones en funciones propias de operadores autoadjuntos" . Providence, RI: Sociedad Estadounidense de Matemáticas. págs. 45–47. ISBN 978-0-8218-1567-0.
  2. ^ Hein, M. y Bousquet, O. (2005). "Métricas hilbertianas y núcleos definidos positivos en medidas de probabilidad". En Ghahramani, Z. y Cowell, R., editores, Actas de AISTATS 2005.
  3. ^ Mercer, J. (1909). “Funciones de tipo positivo y negativo y su conexión con la teoría de ecuaciones integrales”. Transacciones filosóficas de la Royal Society of London, Serie A 209, págs. 415-446.
  4. ^ Hilbert, D. (1904). "Grundzuge einer allgemeinen Theorie der linearen Integralgleichungen I", Gott. Nachrichten, matemáticas-física. K1 (1904), págs.49-91.
  5. ^ Joven, WH (1909). "Una nota sobre una clase de funciones simétricas y sobre un teorema requerido en la teoría de ecuaciones integrales", Philos. Trans. Roy.Soc. Londres, ser. A, 209, págs. 415-446.
  6. ^ Moore, EH (1916). "Sobre matrices hermitianas propiamente positivas", Bull. América. Matemáticas. Soc. 23, 59, págs. 66-67.
  7. ^ Moore, EH (1935). "Análisis general, Parte I", Memorias Amer. Filos. Soc. 1, Filadelfia.
  8. ^ Krein. M (1949/1950). "Núcleos hermitianos positivos en espacios homogéneos I y II" (en ruso), Ucrania. Estera. Z. 1 (1949), págs. 64-98, y 2 (1950), págs. 10-59. Traducción al inglés: Amer. Matemáticas. Soc. Traducciones Ser. 2, 34 (1963), págs. 69-164.
  9. ^ Loève, M. (1960). "Teoría de la probabilidad", 2ª ed., Van Nostrand, Princeton, Nueva Jersey
  10. ^ Rosasco, L. y Poggio, T. (2015). Manuscrito "Un recorrido por la regularización del aprendizaje automático: notas de la conferencia del MIT 9.520".
  11. ^ Berg, C., Christensen, JPR y Ressel, P. (1984). "Análisis armónicos de semigrupos". Número 100 en Textos de Graduado en Matemáticas, Springer Verlag.
  12. ^ Schaback, R. y Wendland, H. (2006). "Técnicas del kernel: del aprendizaje automático a los métodos sin malla", Cambridge University Press, Acta Numerica (2006), págs.
  13. ^ Haaland, B. y Qian, PZG (2010). "Emuladores precisos para experimentos informáticos a gran escala", Ann. Estadística.
  14. ^ Gumerov, NA y Duraiswami, R. (2007). "Interpolación rápida de funciones de base radial mediante iteración de Krylov precondicionada". SIAM J. Científico. Computación 29/5, págs. 1876-1899.