En el análisis funcional , un espacio de Hilbert de núcleo reproductor ( RKHS ) es un espacio de Hilbert de funciones en el que la evaluación puntual es una función lineal continua . Específicamente, un espacio de Hilbert de funciones de un conjunto (hasta o ) es un RKHS si, para cada , existe una función tal que para todos ,
La función se llama núcleo reproductor y reproduce el valor de at a través del producto interno.
Una consecuencia inmediata de esta propiedad es que la convergencia en la norma implica convergencia puntual (e implica convergencia uniforme si es finito). Sin embargo, lo inverso no se cumple necesariamente.
Por ejemplo, considere la secuencia de funciones . Estas funciones convergen puntualmente a 0 como , pero no convergen uniformemente (es decir, no convergen con respecto a la norma suprema). Esto ilustra que la convergencia puntual no implica convergencia en la norma. Es importante notar que la norma suprema no surge de ningún producto interno, ya que no satisface la ley del paralelogramo .
No es del todo sencillo construir ejemplos naturales de un espacio de Hilbert que no sean un RKHS de una manera no trivial. [1] Sin embargo, se han encontrado algunos ejemplos. [2] [3]
Si bien los espacios L 2 se definen habitualmente como un espacio de Hilbert cuyos elementos son clases de equivalencia de funciones, se pueden redefinir de manera trivial como un espacio de Hilbert de funciones mediante la elección de una función (total) como representante de cada clase de equivalencia. Sin embargo, ninguna elección de representantes puede hacer de este espacio un RKHS ( tendría que ser la inexistente función delta de Dirac). Sin embargo, hay RKHS en los que la norma es una norma L 2 , como el espacio de funciones limitadas por banda (véase el ejemplo siguiente).
Un RKHS está asociado con un núcleo que reproduce cada función en el espacio en el sentido de que para cada función en el conjunto en el que se definen las funciones, se puede realizar una "evaluación en" tomando un producto interno con una función determinada por el núcleo. Un núcleo de reproducción de este tipo existe si y solo si cada función de evaluación es continua.
Estos espacios tienen amplias aplicaciones, incluyendo el análisis complejo , el análisis armónico y la mecánica cuántica . Los espacios de Hilbert de núcleo reproductor son particularmente importantes en el campo de la teoría del aprendizaje estadístico debido al célebre teorema del representador que establece que cada función en un RKHS que minimiza una función de riesgo empírica puede escribirse como una combinación lineal de la función de núcleo evaluada en los puntos de entrenamiento. Este es un resultado prácticamente útil ya que simplifica efectivamente el problema de minimización de riesgo empírico de un problema de optimización de dimensión infinita a uno de dimensión finita.
Para facilitar la comprensión, proporcionamos el marco para espacios de Hilbert de valores reales. La teoría se puede extender fácilmente a espacios de funciones de valores complejos y, por lo tanto, incluye los numerosos ejemplos importantes de espacios de Hilbert de núcleo reproductivos que son espacios de funciones analíticas . [5]
Definición
Sea un conjunto arbitrario y un espacio de Hilbert de funciones de valor real en , dotado de suma puntual y multiplicación escalar puntual. La función de evaluación sobre el espacio de Hilbert de funciones es una función lineal que evalúa cada función en un punto ,
Decimos que H es un espacio de Hilbert de núcleo reproductor si, para todo en , es continuo en todo en o, equivalentemente, si es un operador acotado en , es decir, existe alguno tal que
Aunque se supone para todos , todavía podría ser el caso que .
Si bien la propiedad ( 1 ) es la condición más débil que asegura tanto la existencia de un producto interno como la evaluación de cada función en en cada punto del dominio, no se presta a una aplicación fácil en la práctica. Se puede obtener una definición más intuitiva del RKHS observando que esta propiedad garantiza que la función de evaluación se puede representar tomando el producto interno de con una función en . Esta función es el llamado núcleo reproductor [ cita requerida ] para el espacio de Hilbert del que el RKHS toma su nombre. Más formalmente, el teorema de representación de Riesz implica que para todo en existe un elemento único de con la propiedad reproductora,
Dado que es en sí misma una función definida con valores en el campo (o en el caso de espacios de Hilbert complejos) y como está en tenemos que
¿Dónde está el elemento asociado a ?
Esto nos permite definir el núcleo reproductor de como una función (o en el caso complejo) por
A partir de esta definición es fácil ver que (o en el caso complejo) es a la vez simétrica (resp. simétrica conjugada) y definida positiva , es decir
para cada [6] El teorema de Moore-Aronszajn (ver abajo) es una especie de inverso a esto: si una función satisface estas condiciones, entonces hay un espacio de Hilbert de funciones en para el cual es un núcleo reproductor.
Ejemplos
El ejemplo más simple de un espacio de Hilbert con núcleo reproductor es el espacio donde es un conjunto y es la medida de conteo en . Para , el núcleo reproductor es la función indicadora del conjunto de un punto .
donde es el conjunto de funciones integrables al cuadrado, y es la transformada de Fourier de . Como producto interno, utilizamos
Como se trata de un subespacio cerrado de , es un espacio de Hilbert. Además, los elementos de son funciones suaves en que tienden a cero en el infinito, esencialmente por el lema de Riemann-Lebesgue . De hecho, los elementos de son las restricciones a de funciones holomorfas enteras , por el teorema de Paley-Wiener .
De esta manera obtenemos la propiedad reproductora del núcleo.
en este caso es la "versión de banda limitada" de la función delta de Dirac , y que converge a en sentido débil a medida que la frecuencia de corte tiende a infinito.
Teorema de Moore-Aronszajn
Hemos visto cómo un espacio de Hilbert de núcleo reproductor define una función de núcleo reproductor que es a la vez simétrica y definida positiva . El teorema de Moore-Aronszajn va en la dirección opuesta; establece que cada núcleo simétrico y definido positivo define un espacio de Hilbert de núcleo reproductor único. El teorema apareció por primera vez en Theory of Reproducing Kernels de Aronszajn , aunque él lo atribuye a EH Moore .
Teorema . Supóngase que K es un núcleo simétrico, definido positivo en un conjunto X . Entonces existe un único espacio de Hilbert de funciones en X para el cual K es un núcleo reproductor.
Demostración . Para todo x en X , defina K x = K ( x , ⋅ ). Sea H 0 el espacio lineal de { K x : x ∈ X }. Defina un producto interno en H 0 por
lo que implica . La simetría de este producto interno se desprende de la simetría de K y la no degeneración se desprende del hecho de que K es definida positiva.
Sea H la completitud de H 0 con respecto a este producto interno. Entonces H consta de funciones de la forma
Ahora podemos comprobar la propiedad de reproducción ( 2 ):
Para demostrar la unicidad, sea G otro espacio de Hilbert de funciones para el cual K es un núcleo reproductor. Para cada x e y en X , ( 2 ) implica que
Por linealidad, en el lapso de . Entonces, como G es completo y contiene H 0 y, por lo tanto, contiene su completitud.
Ahora necesitamos demostrar que cada elemento de G está en H . Sea un elemento de G . Como H es un subespacio cerrado de G , podemos escribir donde y . Ahora bien, si entonces, como K es un núcleo reproductor de G y H :
donde hemos utilizado el hecho de que pertenece a H de modo que su producto interno con en G es cero. Esto demuestra que en G y concluye la prueba.
Operadores integrales y teorema de Mercer
Podemos caracterizar un núcleo definido positivo simétrico a través del operador integral usando el teorema de Mercer y obtener una visión adicional del RKHS. Sea un espacio compacto equipado con una medida de Borel finita estrictamente positiva y una función definida positiva, continua y simétrica. Defina el operador integral como
donde es el espacio de funciones cuadradas integrables con respecto a .
El teorema de Mercer establece que la descomposición espectral del operador integral de produce una representación en serie de en términos de los valores propios y las funciones propias de . Esto implica que es un núcleo reproductor, de modo que el RKHS correspondiente se puede definir en términos de estos valores propios y funciones propias. A continuación, proporcionamos los detalles.
Bajo estos supuestos es un operador compacto, continuo, autoadjunto y positivo. El teorema espectral para operadores autoadjuntos implica que existe una sucesión decreciente como máximo numerable tal que y , donde forman una base ortonormal de . Por la positividad de para todos También se puede demostrar que se aplica continuamente al espacio de funciones continuas y, por lo tanto, podemos elegir funciones continuas como vectores propios, es decir, para todos Entonces, por el teorema de Mercer, se puede escribir en términos de los valores propios y las funciones propias continuas como
para todos aquellos que
Esta representación de la serie anterior se denomina núcleo de Mercer o representación de Mercer de .
Además, se puede demostrar que el RKHS de está dado por
donde el producto interno de dado por
Esta representación del RKHS tiene aplicación en probabilidad y estadística, por ejemplo en la representación de Karhunen-Loève para procesos estocásticos y PCA kernel .
Mapas de características
Un mapa de características es un mapa , donde es un espacio de Hilbert al que llamaremos espacio de características. Las primeras secciones presentaron la conexión entre funciones de evaluación acotadas/continuas, funciones definidas positivas y operadores integrales y en esta sección proporcionamos otra representación del RKHS en términos de mapas de características.
Cada mapa de características define un núcleo a través de
Claramente , la simetría y la definitividad positiva se deducen de las propiedades del producto interno en . A la inversa, cada función definida positiva y el espacio de Hilbert del núcleo reproductor correspondiente tiene infinitos mapas de características asociados tales que ( 3 ) se cumple.
Por ejemplo, podemos tomar trivialmente y para todo . Entonces ( 3 ) se satisface por la propiedad de reproducción. Otro ejemplo clásico de un mapa de características se relaciona con la sección anterior sobre operadores integrales al tomar y .
Esta conexión entre los núcleos y los mapas de características nos proporciona una nueva forma de entender las funciones definidas positivas y, por lo tanto, reproducir los núcleos como productos internos en . Además, cada mapa de características puede definir naturalmente un RKHS mediante la definición de una función definida positiva.
Por último, los mapas de características nos permiten construir espacios de funciones que revelan otra perspectiva sobre el RKHS. Consideremos el espacio lineal
Podemos definir una norma por
Se puede demostrar que es un RKHS con núcleo definido por . Esta representación implica que los elementos del RKHS son productos internos de elementos en el espacio de características y, en consecuencia, pueden verse como hiperplanos. Esta visión del RKHS está relacionada con el truco del núcleo en el aprendizaje automático. [7]
Propiedades
Propiedades útiles de los RKHS:
Sea una secuencia de conjuntos y una colección de funciones definidas positivas correspondientes en Entonces se sigue que
es un núcleo en
Sea entonces la restricción de a también un núcleo reproductor.
Consideremos un núcleo normalizado tal que para todo . Definamos una pseudométrica en X como
Esta desigualdad nos permite verla como una medida de similitud entre entradas. Si son similares entonces estarán más cerca de 1 mientras que si son diferentes entonces estarán más cerca de 0.
El cierre del lapso de coincide con . [8]
Ejemplos comunes
Núcleos bilineales
El RKHS correspondiente a este núcleo es el espacio dual, que consiste en funciones que satisfacen .
Núcleos polinómicos
Núcleos de funciones de base radial
Estos son otros tipos comunes de núcleos que satisfacen . Algunos ejemplos incluyen:
Kernel exponencial gaussiano o cuadrado :
Núcleo laplaciano :
La norma al cuadrado de una función en el RKHS con este núcleo es: [9] [10]
Granos de Bergman
También proporcionamos ejemplos de núcleos de Bergman . Sea X finito y sea H compuesto por todas las funciones de valor complejo en X. Entonces, un elemento de H puede representarse como una matriz de números complejos. Si se utiliza el producto interno habitual, entonces K x es la función cuyo valor es 1 en x y 0 en todos los demás lugares, y puede considerarse como una matriz identidad ya que
Por último, el espacio de funciones de banda limitada con ancho de banda es un RKHS con núcleo de reproducción.
Extensión a funciones con valores vectoriales
En esta sección ampliamos la definición de RKHS a espacios de funciones con valores vectoriales, ya que esta extensión es particularmente importante en el aprendizaje multitarea y la regularización de variedades . La principal diferencia es que el núcleo de reproducción es una función simétrica que ahora es una matriz semidefinida positiva para cada en . Más formalmente, definimos un RKHS con valores vectoriales (vvRKHS) como un espacio de Hilbert de funciones tal que para todos y
y
Esta segunda propiedad es paralela a la propiedad de reproducción para el caso de valor escalar. Esta definición también se puede conectar con operadores integrales, funciones de evaluación acotadas y mapas de características como vimos para el RKHS de valor escalar. Podemos definir de manera equivalente el vvRKHS como un espacio de Hilbert de valor vectorial con una funcional de evaluación acotada y mostrar que esto implica la existencia de un núcleo de reproducción único mediante el teorema de representación de Riesz. El teorema de Mercer también se puede extender para abordar la configuración de valor vectorial y, por lo tanto, podemos obtener una vista de mapa de características del vvRKHS. Por último, también se puede mostrar que el cierre del lapso de coincide con , otra propiedad similar al caso de valor escalar.
Podemos obtener una idea intuitiva de los vvRKHS si tomamos una perspectiva de componentes en estos espacios. En particular, encontramos que cada vvRKHS es isométricamente isomorfo a un RKHS de valor escalar en un espacio de entrada particular. Sea . Consideremos el espacio y el núcleo de reproducción correspondiente
Como se señaló anteriormente, el RKHS asociado a este núcleo de reproducción está dado por el cierre del lapso de donde para cada conjunto de pares .
La conexión con el RKHS de valor escalar se puede hacer entonces por el hecho de que cada núcleo de valor matricial se puede identificar con un núcleo de la forma de ( 4 ) a través de
Además, cada núcleo con la forma ( 4 ) define un núcleo matricial con la expresión anterior. Ahora, definamos la función como
donde es el componente de la base canónica para , se puede demostrar que es biyectiva y una isometría entre y .
Si bien esta visión del vvRKHS puede ser útil en el aprendizaje multitarea, esta isometría no reduce el estudio del caso de valor vectorial al del caso de valor escalar. De hecho, este procedimiento de isometría puede hacer que tanto el núcleo de valor escalar como el espacio de entrada sean demasiado difíciles de trabajar en la práctica, ya que las propiedades de los núcleos originales a menudo se pierden. [11] [12] [13]
Una clase importante de núcleos reproductores con valores matriciales son los núcleos separables , que pueden factorizarse como el producto de un núcleo con valores escalares y una matriz semidefinida positiva simétrica de dimensión 1. A la luz de nuestra discusión anterior, estos núcleos tienen la forma
para todos en y en . Como el núcleo con valores escalares codifica las dependencias entre las entradas, podemos observar que el núcleo con valores matriciales codifica las dependencias entre las entradas y las salidas.
Por último, observamos que la teoría anterior se puede extender aún más a espacios de funciones con valores en espacios de funciones, pero obtener núcleos para estos espacios es una tarea más difícil. [14]
Conexión entre los RKHS y la función ReLU
La función ReLU se define comúnmente como una función de activación y es un pilar en la arquitectura de redes neuronales. Se puede construir una función no lineal similar a ReLU utilizando la teoría de reproducción de espacios de Hilbert de kernel. A continuación, derivamos esta construcción y mostramos cómo implica el poder de representación de las redes neuronales con activaciones ReLU.
Trabajaremos con el espacio de Hilbert de funciones absolutamente continuas con derivada integrable al cuadrado (es decir, ). Tiene el producto interno
Para construir el núcleo reproductor basta considerar un subespacio denso, por lo que sean y . El Teorema Fundamental del Cálculo da entonces
dónde
y es decir
Esto implica reproduce .
Además la función mínima tiene las siguientes representaciones con la función ReLu:
Usando esta formulación, podemos aplicar el teorema del representador al RKHS, lo que permite demostrar la optimalidad de usar activaciones ReLU en entornos de redes neuronales. [ cita requerida ]
^ Alpay, D. y TM Mills. "Una familia de espacios de Hilbert que no reproducen espacios de Hilbert de núcleo". J. Anal. Appl. 1.2 (2003): 107–111.
^ Z. Pasternak-Winiarski, "Sobre pesos que admiten la reproducción de núcleos de tipo Bergman", Revista Internacional de Matemáticas y Ciencias Matemáticas , vol. 15, número 1, 1992.
^ T. Ł. Żynda, "Sobre pesos que admiten la reproducción del núcleo del tipo Szegő", Journal of Contemporary Mathematical Analysis (Academia de Ciencias de Armenia), 55, 2020.
^ Mustur de la noche
^ Paulson
^ Durrett
^ Rosasco
^ Rosasco
^ Berlinet, Alain y Thomas, Christine. Reproducción de espacios de Hilbert de núcleo en probabilidad y estadística , Kluwer Academic Publishers, 2004
^ Thomas-Agnan C. Cálculo de una familia de núcleos de reproducción para aplicaciones estadísticas. Algoritmos numéricos, 13, págs. 21-32 (1996)
^ De Vito
^ Zhang
^ Álvarez
^ Rosasco
Referencias
Alvarez, Mauricio, Rosasco, Lorenzo y Lawrence, Neil, “Núcleos para funciones con valores vectoriales: una revisión”, https://arxiv.org/abs/1106.6251, junio de 2011.
Berlinet, Alain y Thomas, Christine. Reproducción de espacios de Hilbert en probabilidad y estadística , Kluwer Academic Publishers, 2004.
Cucker, Felipe; Smale, Steve (2002). "Sobre los fundamentos matemáticos del aprendizaje". Boletín de la Sociedad Americana de Matemáticas . 39 (1): 1–49. doi : 10.1090/S0273-0979-01-00923-5 . MR 1864085.
De Vito, Ernest, Umanita, Verónica y Villa, Silvia. "Una extensión del teorema de Mercer a núcleos medibles con valores vectoriales", arXiv :1110.4017, junio de 2013.
Durrett, Greg. Notas del curso 9.520, Instituto Tecnológico de Massachusetts, https://www.mit.edu/~9.520/scribe-notes/class03_gdurett.pdf, febrero de 2010.
Kimeldorf, George; Wahba, Grace (1971). "Algunos resultados sobre funciones spline de Chebycheff" (PDF) . Revista de análisis matemático y aplicaciones . 33 (1): 82–95. doi : 10.1016/0022-247X(71)90184-3 . MR 0290013.
Okutmustur, Baver. “Reproducción de espacios de Hilbert en el núcleo”, tesis de maestría, Universidad Bilkent, http://www.thesis.bilkent.edu.tr/0002953.pdf, agosto de 2005.
Paulsen, Vern. “Introducción a la teoría de reproducción de espacios de Hilbert de núcleo”, https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=440218056738e05b5ab43679f932a9f33fccee87.
Steinwart, Ingo; Scovel, Clint (2012). "Teorema de Mercer sobre dominios generales: sobre la interacción entre medidas, núcleos y RKHS". Constr. App . 35 (3): 363–417. doi :10.1007/s00365-012-9153-3. MR 2914365. S2CID 253885172.
Rosasco, Lorenzo y Poggio, Thomas. "Un recorrido por la regularización del aprendizaje automático: notas de la clase MIT 9.520", manuscrito, diciembre de 2014.
Wahba, Grace , Modelos spline para datos observacionales , SIAM, 1990.
Zhang, Haizhang; Xu, Yuesheng; Zhang, Qinghui (2012). "Refinamiento de núcleos reproductivos con valores de operador" (PDF) . Journal of Machine Learning Research . 13 : 91–136.