stringtranslate.com

Reproducción del espacio de Hilbert del núcleo

La figura ilustra enfoques relacionados pero variados para ver RKHS

En el análisis funcional (una rama de las matemáticas ), un espacio de Hilbert del núcleo reproductor ( RKHS ) es un espacio de funciones de Hilbert en el que la evaluación puntual es un funcional lineal continuo . En términos generales, esto significa que si dos funciones y en el RKHS son cercanas en norma, es decir, pequeñas, entonces y también son cercanas puntualmente, es decir, pequeñas para todas . No es necesario que lo contrario sea cierto. Informalmente, esto se puede demostrar observando la norma suprema : la secuencia de funciones converge puntualmente, pero no converge uniformemente , es decir, no converge con respecto a la norma suprema. (Este no es un contraejemplo porque la norma suprema no surge de ningún producto interno debido a que no se satisface la ley del paralelogramo ).

No es del todo sencillo construir un espacio de funciones de Hilbert que no sea un RKHS. [1] Sin embargo, se han encontrado algunos ejemplos. [2] [3]

Los espacios L 2 no son espacios de funciones de Hilbert (y por lo tanto no son RKHS), sino espacios de Hilbert de clases de equivalencia de funciones (por ejemplo, las funcionesydefinidas poryson equivalentes en L 2 ). Sin embargo, hay RKHS en los que la norma es una norma L 2 , como el espacio de funciones de banda limitada (consulte el ejemplo a continuación).

Un RKHS está asociado con un núcleo que reproduce cada función en el espacio en el sentido de que para cada elemento del conjunto en el que se definen las funciones, la "evaluación en " se puede realizar tomando un producto interno con una función determinada por el núcleo. Tal núcleo reproductor existe si y sólo si cada función de evaluación es continua.

El núcleo reproductor se introdujo por primera vez en el trabajo de 1907 de Stanisław Zaremba sobre problemas de valores límite para funciones armónicas y biarmónicas . James Mercer examinó simultáneamente funciones que satisfacen la propiedad de reproducción en la teoría de ecuaciones integrales . La idea del núcleo reproductor permaneció intacta durante casi veinte años hasta que apareció en las disertaciones de Gábor Szegő , Stefan Bergman y Salomon Bochner . El tema fue finalmente desarrollado sistemáticamente a principios de la década de 1950 por Nachman Aronszajn y Stefan Bergman. [4]

Estos espacios tienen amplias aplicaciones, incluido el análisis complejo , el análisis armónico y la mecánica cuántica . La reproducción de espacios de Hilbert del núcleo es particularmente importante en el campo de la teoría del aprendizaje estadístico debido al célebre teorema del representante que establece que cada función en un RKHS que minimiza un riesgo empírico funcional puede escribirse como una combinación lineal de la función del núcleo evaluada en los puntos de entrenamiento. . Este es un resultado prácticamente útil ya que simplifica efectivamente el problema empírico de minimización de riesgos desde un problema de optimización de dimensión infinita a uno de dimensión finita.

Para facilitar la comprensión, proporcionamos el marco para espacios de Hilbert con valor real. La teoría se puede extender fácilmente a espacios de funciones de valores complejos y, por lo tanto, incluir muchos ejemplos importantes de reproducción de espacios de Hilbert del núcleo que son espacios de funciones analíticas . [5]

Definición

Sea un conjunto arbitrario y un espacio de Hilbert de funciones con valores reales en , equipado con suma puntual y multiplicación escalar puntual. El funcional de evaluación sobre el espacio de funciones de Hilbert es un funcional lineal que evalúa cada función en un punto ,

Decimos que H es un espacio de Hilbert de núcleo reproductivo si, para todo in , es continuo en cada in o, de manera equivalente, si es un operador acotado en , es decir, existe algo tal que

Aunque se supone que es aplicable a todos , aún podría darse el caso de que .

Si bien la propiedad ( 1 ) es la condición más débil que asegura tanto la existencia de un producto interno como la evaluación de cada función en cada punto del dominio, no se presta a una fácil aplicación en la práctica. Se puede obtener una definición más intuitiva del RKHS observando que esta propiedad garantiza que el funcional de evaluación se pueda representar tomando el producto interno de con una función en . Esta función es el llamado núcleo de reproducción [ cita necesaria ] para el espacio de Hilbert del que toma su nombre el RKHS. Más formalmente, el teorema de representación de Riesz implica que para todo existe un elemento único con la propiedad de reproducción,

Dado que es en sí misma una función definida con valores en el campo (o en el caso de espacios complejos de Hilbert) y como está en tenemos eso

¿Dónde está el elemento asociado a ?

Esto nos permite definir el núcleo reproductor de como una función (o en el caso complejo) mediante

A partir de esta definición es fácil ver que (o en el caso complejo) es simétrico (resp. simétrico conjugado) y definido positivo , es decir

para cada [6] El teorema de Moore-Aronszajn (ver más abajo) es una especie de inverso a esto: si una función satisface estas condiciones, entonces hay un espacio de funciones de Hilbert para el cual es un núcleo reproductor.

Ejemplo

El espacio de funciones continuas de banda limitada es un RKHS, como mostramos ahora. Formalmente, fije alguna frecuencia de corte y defina el espacio de Hilbert

donde es el conjunto de funciones integrables cuadradas continuas, y es la transformada de Fourier de . Como producto interno de este espacio de Hilbert, utilizamos

Del teorema de inversión de Fourier , tenemos

Luego, por la desigualdad de Cauchy-Schwarz y el teorema de Plancherel, se deduce que, para todos ,

Esta desigualdad muestra que el funcional de evaluación es acotado, lo que demuestra que efectivamente es un RKHS.

La función del núcleo en este caso viene dada por

La transformada de Fourier definida anteriormente está dada por

que es una consecuencia de la propiedad de desplazamiento en el tiempo de la transformada de Fourier . En consecuencia, utilizando el teorema de Plancherel , tenemos

Así obtenemos la propiedad reproductiva del núcleo.

en este caso es la "versión de banda limitada" de la función delta de Dirac , y converge en sentido débil cuando la frecuencia de corte tiende al infinito.

Teorema de Moore-Aronszajn

Hemos visto cómo un espacio de Hilbert de núcleo reproductor define una función de núcleo reproductor que es a la vez simétrica y definida positiva . El teorema de Moore-Aronszajn va en la otra dirección; afirma que cada núcleo definido positivo y simétrico define un espacio de Hilbert de núcleo reproductor único. El teorema apareció por primera vez en la Teoría de la reproducción de núcleos de Aronszajn , aunque este lo atribuye a EH Moore .

Teorema . Supongamos que K es un núcleo definido positivo y simétrico en un conjunto X. Entonces hay un espacio de funciones de Hilbert único en X para el cual K es un núcleo reproductor.

Prueba . Para todo x en X , defina K x = K ( x , ⋅ ). Sea H 0 el tramo lineal de { K x  : xX }. Defina un producto interno en H 0 por

lo que implica . La simetría de este producto interno se deriva de la simetría de K y la no degeneración se deriva del hecho de que K es definido positivo.

Sea H la compleción de H 0 con respecto a este producto interno. Entonces H consta de funciones de la forma

Ahora podemos comprobar la propiedad de reproducción ( 2 ):

Para demostrar la unicidad, sea G otro espacio de funciones de Hilbert para el cual K es un núcleo reproductor. Para cada xey en X , ( 2 ) implica que

Por linealidad, en el lapso de . Entonces, porque G es completo y contiene H 0 y por tanto contiene su compleción.

Ahora necesitamos demostrar que cada elemento de G está en H. Sea un elemento de G . Como H es un subespacio cerrado de G , podemos escribir donde y . Ahora bien, si entonces, dado que K es un núcleo reproductor de G y H :

donde hemos utilizado el hecho de que pertenece a H para que su producto interno con en G sea cero. Esto muestra que en G y concluye la prueba.

Operadores integrales y teorema de Mercer

Podemos caracterizar un núcleo definido positivo simétrico mediante el operador integral utilizando el teorema de Mercer y obtener una visión adicional del RKHS. Sea un espacio compacto equipado con una medida de Borel finita estrictamente positiva y una función definida continua, simétrica y positiva. Defina el operador integral como

donde es el espacio de funciones cuadradas integrables con respecto a .

El teorema de Mercer establece que la descomposición espectral del operador integral de produce una representación en serie de en términos de los valores propios y funciones propias de . Esto implica entonces que es un núcleo en reproducción, de modo que el RKHS correspondiente puede definirse en términos de estos valores propios y funciones propias. Proporcionamos los detalles a continuación.

Bajo estos supuestos es un operador compacto, continuo, autoadjunto y positivo. El teorema espectral para operadores autoadjuntos implica que existe, como máximo, una secuencia decreciente contable tal que y , donde forman una base ortonormal de . Por la positividad de para todos También se puede demostrar que se aplica continuamente en el espacio de funciones continuas y, por lo tanto, podemos elegir funciones continuas como vectores propios, es decir, para todos. Entonces, según el teorema de Mercer, se puede escribir en términos de valores propios y funciones propias continuas. como

por todo lo que

Esta representación de la serie anterior se conoce como núcleo de Mercer o representación de Mercer de .

Además, se puede demostrar que el RKHS de está dado por

donde el producto interno de dado por

Esta representación del RKHS tiene aplicación en probabilidad y estadística, por ejemplo, a la representación de Karhunen-Loève para procesos estocásticos y PCA del núcleo .

Mapas de características

Un mapa de características es un mapa , donde hay un espacio de Hilbert al que llamaremos espacio de características. Las primeras secciones presentaron la conexión entre funciones de evaluación acotadas/continuas, funciones definidas positivas y operadores integrales y en esta sección proporcionamos otra representación del RKHS en términos de mapas de características.

Cada mapa de características define un kernel a través de

Claramente es simétrico y la precisión positiva se deriva de las propiedades del producto interno en . Por el contrario, cada función definida positiva y su correspondiente espacio de Hilbert con núcleo reproductor tiene infinitos mapas de características asociados tales que ( 3 ) se cumple.

Por ejemplo, podemos tomar trivialmente y para todos . Entonces ( 3 ) se satisface con la propiedad de reproducción. Otro ejemplo clásico de un mapa de características se relaciona con la sección anterior sobre operadores integrales tomando y .

Esta conexión entre los núcleos y los mapas de características nos proporciona una nueva forma de entender las funciones definidas positivas y, por lo tanto, reproducir los núcleos como productos internos en . Además, cada mapa de características puede definir naturalmente un RKHS mediante la definición de una función definida positiva.

Por último, los mapas de características nos permiten construir espacios funcionales que revelan otra perspectiva del RKHS. Considere el espacio lineal

Podemos definir una norma por

Se puede demostrar que es un RKHS con kernel definido por . Esta representación implica que los elementos del RKHS son productos internos de elementos en el espacio de características y, en consecuencia, pueden verse como hiperplanos. Esta visión del RKHS está relacionada con el truco del kernel en el aprendizaje automático. [7]

Propiedades

Propiedades útiles de los RKHS:

Ejemplos comunes

Núcleos bilineales

El RKHS correspondiente a este núcleo es el espacio dual, que consta de funciones que satisfacen .

Núcleos polinomiales

Núcleos de función de base radial

Éstas son otra clase común de núcleos que satisfacen . Algunos ejemplos incluyen:

Núcleos de Bergman

También proporcionamos ejemplos de núcleos de Bergman . Sea X finito y H consista en todas las funciones de valores complejos en X. Entonces un elemento de H se puede representar como una matriz de números complejos. Si se utiliza el producto interno habitual , entonces K x es la función cuyo valor es 1 en x y 0 en cualquier otro lugar, y puede considerarse como una matriz identidad ya que

En este caso, H es isomorfo a .

El caso de (donde denota la unidad de disco ) es más sofisticado. Aquí el espacio de Bergman es el espacio de funciones holomorfas integrables al cuadrado en . Se puede demostrar que el núcleo reproductor para es

Por último, el espacio de funciones limitadas de banda con ancho de banda es un RKHS con núcleo de reproducción.

Extensión a funciones con valores vectoriales

En esta sección ampliamos la definición de RKHS a espacios de funciones con valores vectoriales, ya que esta extensión es particularmente importante en el aprendizaje multitarea y la regularización múltiple . La principal diferencia es que el núcleo reproductor es una función simétrica que ahora es una matriz semidefinida positiva para cada in . Más formalmente, definimos un RKHS con valores vectoriales (vvRKHS) como un espacio de funciones de Hilbert tal que para todos y

y

Esta segunda propiedad es paralela a la propiedad de reproducción para el caso de valores escalares. Esta definición también se puede conectar a operadores integrales, funciones de evaluación acotadas y mapas de características, como vimos para el RKHS con valores escalares. Podemos definir de manera equivalente vvRKHS como un espacio de Hilbert valorado por un vector con una función de evaluación acotada y demostrar que esto implica la existencia de un núcleo reproductor único según el teorema de representación de Riesz. El teorema de Mercer también se puede ampliar para abordar la configuración con valores vectoriales y, por lo tanto, podemos obtener una vista del mapa de características de vvRKHS. Por último, también se puede demostrar que el cierre del intervalo de coincide con , otra propiedad similar al caso de valores escalares.

Podemos adquirir intuición para el vvRKHS adoptando una perspectiva de componentes de estos espacios. En particular, encontramos que cada vvRKHS es isométricamente isomorfo a un RKHS con valor escalar en un espacio de entrada particular. Dejar . Considere el espacio y el núcleo reproductor correspondiente.

Como se señaló anteriormente, el RKHS asociado a este núcleo en reproducción viene dado por el cierre del lapso de dónde para cada conjunto de pares .

La conexión con el RKHS con valores escalares se puede establecer por el hecho de que cada núcleo con valores matricial puede identificarse con un núcleo de la forma ( 4 ) a través de

Además, cada núcleo con la forma ( 4 ) define un núcleo con valores matriciales con la expresión anterior. Ahora dejando que el mapa se defina como

donde es el componente de la base canónica para , se puede demostrar que es biyectiva y una isometría entre y .

Si bien esta vista de vvRKHS puede ser útil en el aprendizaje multitarea, esta isometría no reduce el estudio del caso con valores vectoriales al del caso con valores escalares. De hecho, este procedimiento de isometría puede hacer que sea demasiado difícil trabajar en la práctica tanto con el núcleo de valores escalares como con el espacio de entrada, ya que las propiedades de los núcleos originales a menudo se pierden. [11] [12] [13]

Una clase importante de núcleos reproductores con valores matriciales son los núcleos separables que pueden factorizarse como el producto de un núcleo con valores escalares y una matriz semidefinida positiva simétrica de dimensiones. A la luz de nuestra discusión anterior, estos núcleos tienen la forma

para todos dentro y dentro . Como el núcleo con valores escalares codifica las dependencias entre las entradas, podemos observar que el núcleo con valores matricial codifica las dependencias tanto entre las entradas como entre las salidas.

Por último, observamos que la teoría anterior se puede ampliar aún más a espacios de funciones con valores en espacios funcionales, pero obtener núcleos para estos espacios es una tarea más difícil. [14]

Conexión entre RKHS y la función ReLU

La función ReLU se define comúnmente y es un pilar en la arquitectura de redes neuronales donde se utiliza como función de activación. Se puede construir una función no lineal similar a ReLU utilizando la teoría de la reproducción de espacios de Hilbert del núcleo. A continuación, derivamos esta construcción y mostramos cómo implica el poder de representación de las redes neuronales con activaciones ReLU.

Trabajaremos con el espacio de Hilbert de funciones absolutamente continuas con una derivada cuadrada integrable (ie ). Tiene el producto interno.

Para construir el núcleo reproductor basta con considerar un subespacio denso, así que sea y . El teorema fundamental del cálculo da entonces

dónde

y es decir

Esto implica reproduce .

Además, la función mínima tiene las siguientes representaciones con la función ReLu:

Usando esta formulación, podemos aplicar el teorema del representante al RKHS, lo que permite demostrar la optimización del uso de activaciones ReLU en configuraciones de redes neuronales. [ cita necesaria ]

Ver también

Notas

  1. ^ Alpay, D. y TM Mills. "Una familia de espacios de Hilbert que no reproducen espacios centrales de Hilbert". J.Anal. Aplica. 1.2 (2003): 107–111.
  2. ^ Z. Pasternak-Winiarski, "Sobre pesos que admiten núcleos reproductivos de tipo Bergman", Revista Internacional de Matemáticas y Ciencias Matemáticas , vol. 15, Número 1, 1992.
  3. ^ T. Ł. Żynda, "Sobre pesos que admiten la reproducción de núcleos de tipo Szegő", Revista de Análisis Matemático Contemporáneo (Academia de Ciencias de Armenia), 55, 2020.
  4. ^ Okutmustur
  5. ^ Paulson
  6. ^ Durrett
  7. ^ rosasco
  8. ^ rosasco
  9. ^ Berlinet, Alain y Thomas, Christine. Reproducción de espacios centrales de Hilbert en Probabilidad y estadística , Kluwer Academic Publishers, 2004
  10. ^ Thomas-Agnan C. Computación de una familia de núcleos reproductores para aplicaciones estadísticas. Algoritmos numéricos, 13, págs. 21-32 (1996)
  11. ^ De Vito
  12. ^ Zhang
  13. ^ Álvarez
  14. ^ rosasco

Referencias