stringtranslate.com

Núcleo positivo definido

En la teoría de operadores , una rama de las matemáticas, un núcleo positivo-definido es una generalización de una función positiva-definida o una matriz positiva-definida . Fue introducido por primera vez por James Mercer a principios del siglo XX, en el contexto de la resolución de ecuaciones integrales de operadores . Desde entonces, las funciones positivas-definidas y sus diversos análogos y generalizaciones han surgido en diversas partes de las matemáticas. Ocurren naturalmente en el análisis de Fourier , la teoría de la probabilidad , la teoría de operadores , la teoría de funciones complejas , los problemas de momento , las ecuaciones integrales , los problemas de valores en la frontera para ecuaciones diferenciales parciales , el aprendizaje automático , el problema de incrustación , la teoría de la información y otras áreas.

Definición

Sea un conjunto no vacío, a veces denominado conjunto índice. Una función simétrica se denomina núcleo positivo definido (pd) si

válido para todos , .

En teoría de la probabilidad, a veces se hace una distinción entre núcleos positivos definidos, para los cuales la igualdad en (1.1) implica , y núcleos positivos semidefinidos (psd), que no imponen esta condición. Nótese que esto es equivalente a requerir que cada matriz finita construida por evaluación por pares, , tenga valores propios completamente positivos (pd) o no negativos (psd) .

En la literatura matemática, los núcleos son generalmente funciones de valor complejo. Es decir, una función de valor complejo se denomina núcleo hermítico si y definida positiva si para cada conjunto finito de puntos y cualquier número complejo ,

donde denota el conjugado complejo . [1] En el resto de este artículo asumimos funciones de valor real, que es la práctica común en aplicaciones de núcleos pd.

Algunas propiedades generales

Ejemplos de núcleos pd

Historia

Los núcleos positivos definidos, tal como se definen en (1.1), aparecieron por primera vez en 1909 en un artículo sobre ecuaciones integrales de James Mercer. [3] Varios otros autores hicieron uso de este concepto en las dos décadas siguientes, pero ninguno de ellos utilizó explícitamente núcleos , es decir, funciones pd (de hecho, M. Mathias y S. Bochner parecen no haber estado al tanto del estudio de los núcleos pd). El trabajo de Mercer surgió del artículo de Hilbert de 1904 [4] sobre ecuaciones integrales de Fredholm de segundo tipo:

En particular, Hilbert había demostrado que

donde es un núcleo simétrico real continuo, es continuo, es un sistema completo de funciones propias ortonormales , y son los valores propios correspondientes de (1.2). Hilbert definió un núcleo "definido" como uno para el cual la integral doble satisface excepto para . El objeto original del artículo de Mercer era caracterizar los núcleos que son definidos en el sentido de Hilbert, pero Mercer pronto encontró que la clase de tales funciones era demasiado restrictiva para caracterizarlas en términos de determinantes. Por lo tanto, definió un núcleo simétrico real continuo como de tipo positivo (es decir, positivo-definido) si para todas las funciones reales continuas en , y demostró que (1.1) es una condición necesaria y suficiente para que un núcleo sea de tipo positivo. Mercer luego demostró que para cualquier núcleo pd continuo la expansión se cumple de manera absoluta y uniforme.

Casi al mismo tiempo, WH Young [5], motivado por una cuestión diferente en la teoría de ecuaciones integrales, demostró que para núcleos continuos la condición (1.1) es equivalente a para todo .

EH Moore [6] [7] inició el estudio de un tipo muy general de núcleo de ecuaciones diferenciales parciales. Si es un conjunto abstracto, llama a las funciones definidas en “matrices hermíticas positivas” si satisfacen (1.1) para todo . Moore estaba interesado en la generalización de ecuaciones integrales y demostró que para cada una de ellas existe un espacio de Hilbert de funciones tales que, para cada . Esta propiedad se denomina propiedad de reproducción del núcleo y resulta tener importancia en la solución de problemas de valores en la frontera para ecuaciones diferenciales parciales elípticas.

Otra línea de desarrollo en la que los núcleos pd desempeñaron un papel importante fue la teoría de armónicos en espacios homogéneos iniciada por E. Cartan en 1929 y continuada por H. Weyl y S. Ito. La teoría más completa de núcleos pd en espacios homogéneos es la de M. Krein [8], que incluye como casos especiales el trabajo sobre funciones pd y representaciones unitarias irreducibles de grupos localmente compactos.

En la teoría de probabilidad, los núcleos pd surgen como núcleos de covarianza de procesos estocásticos. [9]

Conexión con la reproducción de espacios de Hilbert del núcleo y mapas de características

Los núcleos definidos positivos proporcionan un marco que abarca algunas construcciones básicas de espacios de Hilbert. A continuación, presentamos una relación estrecha entre los núcleos definidos positivos y dos objetos matemáticos, a saber, la reproducción de espacios de Hilbert y mapas de características.

Sea un conjunto, un espacio de Hilbert de funciones , y el producto interno correspondiente en . Para cualquier función de evaluación se define por . Primero definimos un espacio de Hilbert de núcleo de reproducción (RKHS):

Definición : Un espacio se denomina espacio de Hilbert de núcleo reproductor si las funciones de evaluación son continuas.

Cada RKHS tiene una función especial asociada, es decir, el núcleo de reproducción:

Definición : El núcleo reproductor es una función tal que

  1. , y
  2. , para todos y .

La última propiedad se llama propiedad de reproducción.

El siguiente resultado muestra la equivalencia entre RKHS y los núcleos de reproducción:

Teorema  :  Cada núcleo reproductor induce un RKHS único, y cada RKHS tiene un núcleo reproductor único.

Ahora bien, la conexión entre los núcleos definidos positivos y RKHS viene dada por el siguiente teorema

Teorema  :  Todo núcleo reproductor es definido positivo, y cada núcleo definido positivo define un RKHS único, del cual es el único núcleo reproductor.

Por lo tanto, dado un núcleo definido positivo , es posible construir un RKHS asociado con como núcleo reproductor.

Como se dijo anteriormente, los núcleos definidos positivos se pueden construir a partir de productos internos. Este hecho se puede utilizar para conectar los núcleos pd con otro objeto interesante que surge en aplicaciones de aprendizaje automático, a saber, el mapa de características. Sea un espacio de Hilbert y el producto interno correspondiente. Cualquier mapa se llama mapa de características. En este caso, llamamos al espacio de características. Es fácil ver [10] que cada mapa de características define un núcleo pd único por De hecho, la definibilidad positiva de se sigue de la propiedad pd del producto interno. Por otro lado, cada núcleo pd y su RKHS correspondiente tienen muchos mapas de características asociados. Por ejemplo: Sea , y para todos . Entonces , por la propiedad de reproducción. Esto sugiere una nueva mirada a los núcleos pd como productos internos en espacios de Hilbert apropiados, o en otras palabras, los núcleos pd pueden verse como mapas de similitud que cuantifican efectivamente qué tan similares son dos puntos y a través del valor . Además, a través de la equivalencia de los núcleos pd y su RKHS correspondiente, cada mapa de características se puede utilizar para construir un RKHS.

Núcleos y distancias

Los métodos kernel suelen compararse con métodos basados ​​en la distancia, como el de los vecinos más próximos . En esta sección, analizamos los paralelismos entre sus dos componentes respectivos, es decir, los kernels y las distancias .

Aquí, por una función de distancia entre cada par de elementos de algún conjunto , nos referimos a una métrica definida en ese conjunto, es decir, cualquier función de valor no negativo en la que se satisface

Un vínculo entre las distancias y los núcleos pd está dado por un tipo particular de núcleo, llamado núcleo definido negativo, y definido de la siguiente manera

Definición : Una función simétrica se denomina núcleo definido negativo (nd) si

se aplica a cualquier y tal que .

El paralelismo entre los núcleos nd y las distancias está en lo siguiente: siempre que un núcleo nd se anule en el conjunto , y sea cero solo en este conjunto, entonces su raíz cuadrada es una distancia para . [11] Al mismo tiempo, cada distancia no corresponde necesariamente a un núcleo nd. Esto solo es cierto para las distancias hilbertianas, donde la distancia se llama hilbertiana si uno puede incrustar el espacio métrico isométricamente en algún espacio de Hilbert.

Por otra parte, los núcleos nd pueden identificarse con una subfamilia de núcleos pd conocidos como núcleos infinitamente divisibles. Se dice que un núcleo de valor no negativo es infinitamente divisible si para cada existe un núcleo positivo definido tal que .

Otro vínculo es que un núcleo pd induce una pseudométrica , donde la primera restricción de la función de distancia se relaja para permitir . Dado un núcleo definido positivo , podemos definir una función de distancia como:

Algunas aplicaciones

Núcleos en el aprendizaje automático

Los núcleos definidos positivos, a través de su equivalencia con los espacios de Hilbert de núcleos reproductores (RKHS), son particularmente importantes en el campo de la teoría del aprendizaje estadístico debido al célebre teorema del representante que establece que cada función minimizadora en un RKHS puede escribirse como una combinación lineal de la función de núcleo evaluada en los puntos de entrenamiento. Este es un resultado útil en la práctica, ya que simplifica de manera efectiva el problema de minimización de riesgo empírico de un problema de optimización de dimensión infinita a uno de dimensión finita.

Núcleos en modelos probabilísticos

Hay varias formas diferentes en las que surgen los núcleos en la teoría de la probabilidad.

Supongamos ahora que se agrega una variable de ruido , con media y varianza cero , a , de modo que el ruido es independiente para diferentes e independiente de allí, entonces el problema de encontrar una buena estimación para es idéntico al anterior, pero con un kernel modificado dado por .

Solución numérica de ecuaciones diferenciales parciales

Una de las mayores áreas de aplicación de los llamados métodos sin malla es la solución numérica de ecuaciones en derivadas parciales . Algunos de los métodos sin malla más populares están estrechamente relacionados con los núcleos positivos definidos (como el método local sin malla de Petrov Galerkin (MLPG), el método de partículas con núcleo reproductor (RKPM) y la hidrodinámica de partículas suavizadas (SPH) ). Estos métodos utilizan núcleos de base radial para la colocación . [12]

Teorema de dilatación de Stinespring

Otras aplicaciones

En la literatura sobre experimentos informáticos [13] y otros experimentos de ingeniería, se encuentran cada vez más modelos basados ​​en núcleos de pd, RBF o kriging . Uno de estos temas es la metodología de superficie de respuesta . Otros tipos de aplicaciones que se reducen al ajuste de datos son la creación rápida de prototipos y los gráficos por computadora . Aquí, a menudo se utilizan modelos de superficie implícitos para aproximar o interpolar datos de nubes de puntos.

Las aplicaciones de los núcleos pd en varias otras ramas de las matemáticas son la integración multivariada, la optimización multivariada y el análisis numérico y la computación científica, donde se estudian algoritmos rápidos, precisos y adaptativos implementados idealmente en entornos informáticos de alto rendimiento. [14]

Véase también

Referencias

  1. ^ Berezanskij, Jurij Makarovič (1968). Expansiones en funciones propias de operadores autoadjuntos . Providence, RI: American Mathematical Soc., págs. 45-47. ISBN. 978-0-8218-1567-0.
  2. ^ Hein, M. y Bousquet, O. (2005). "Métricas hilbertianas y núcleos definidos positivos en medidas de probabilidad". En Ghahramani, Z. y Cowell, R., editores, Actas de AISTATS 2005.
  3. ^ Mercer, J. (1909). “Funciones de tipo positivo y negativo y su conexión con la teoría de ecuaciones integrales”. Philosophical Transactions of the Royal Society of London, Serie A 209, págs. 415–446.
  4. ^ Hilbert, D. (1904). "Grundzuge einer allgemeinen Theorie der linearen Integralgleichungen I", Gott. Nachrichten, matemáticas-física. K1 (1904), págs. 49–91.
  5. ^ Young, WH (1909). "Una nota sobre una clase de funciones simétricas y sobre un teorema requerido en la teoría de ecuaciones integrales", Philos. Trans. Roy.Soc. Londres, Ser. A, 209, págs. 415–446.
  6. ^ Moore, EH (1916). "Sobre matrices hermíticas propiamente positivas", Bull. Amer. Math. Soc. 23, 59, págs. 66–67.
  7. ^ Moore, EH (1935). "Análisis general, parte I", Memorias Amer. Philos. Soc. 1, Filadelfia.
  8. ^ Krein. M (1949/1950). "Núcleos hermíticos positivos en espacios homogéneos I y II" (en ruso), Ukrain. Mat. Z. 1(1949), págs. 64–98, y 2(1950), págs. 10–59. Traducción al inglés: Amer. Math. Soc. Translations Ser. 2, 34 (1963), págs. 69–164.
  9. ^ Loève, M. (1960). "Teoría de la probabilidad", 2.ª ed., Van Nostrand, Princeton, NJ
  10. ^ Rosasco, L. y Poggio, T. (2015). "Un recorrido de regularización del aprendizaje automático: notas de la clase MIT 9.520", manuscrito.
  11. ^ Berg, C., Christensen, JPR y Ressel, P. (1984). "Análisis armónico de semigrupos". Número 100 en Textos de posgrado en matemáticas, Springer Verlag.
  12. ^ Schaback, R. y Wendland, H. (2006). "Técnicas de kernel: del aprendizaje automático a los métodos sin malla", Cambridge University Press, Acta Numerica (2006), págs. 1–97.
  13. ^ Haaland, B. y Qian, PZG (2010). "Emuladores precisos para experimentos informáticos a gran escala", Ann. Stat.
  14. ^ Gumerov, NA y Duraiswami, R. (2007). "Interpolación rápida de la función de base radial mediante iteración de Krylov preacondicionada". SIAM J. Scient. Computing 29/5, págs. 1876–1899.