stringtranslate.com

Interpretación bayesiana de la regularización del kernel

Dentro de las estadísticas bayesianas para el aprendizaje automático , los métodos kernel surgen del supuesto de un espacio de producto interno o una estructura de similitud en las entradas. Para algunos de estos métodos, como las máquinas de vectores de soporte (SVM), la formulación original y su regularización no eran de naturaleza bayesiana. Es útil entenderlos desde una perspectiva bayesiana . Debido a que los kernels no son necesariamente semidefinidos positivos, la estructura subyacente puede no ser espacios de producto interno, sino espacios de Hilbert kernel de reproducción más generales . En la probabilidad bayesiana, los métodos kernel son un componente clave de los procesos gaussianos , donde la función kernel se conoce como función de covarianza. Los métodos kernel se han utilizado tradicionalmente en problemas de aprendizaje supervisado donde el espacio de entrada suele ser un espacio de vectores mientras que el espacio de salida es un espacio de escalares . Más recientemente, estos métodos se han extendido a problemas que tratan con múltiples salidas , como en el aprendizaje multitarea . [1]

Una equivalencia matemática entre el punto de vista de la regularización y el bayesiano se demuestra fácilmente en casos en los que el espacio de Hilbert del núcleo reproductor es de dimensión finita . El caso de dimensión infinita plantea cuestiones matemáticas sutiles; consideraremos aquí el caso de dimensión finita. Comenzamos con una breve revisión de las ideas principales que subyacen a los métodos de núcleo para el aprendizaje escalar y presentamos brevemente los conceptos de regularización y procesos gaussianos. Luego mostramos cómo ambos puntos de vista llegan a estimadores esencialmente equivalentes y mostramos la conexión que los une.

El problema del aprendizaje supervisado

El problema clásico de aprendizaje supervisado requiere estimar la salida para algún nuevo punto de entrada mediante el aprendizaje de un estimador de valor escalar sobre la base de un conjunto de entrenamiento que consiste en pares de entrada-salida, . [2] Dada una función bivariada simétrica y positiva llamada kernel , uno de los estimadores más populares en el aprendizaje automático está dado por

donde es la matriz kernel con entradas , , y . Veremos cómo se puede derivar este estimador tanto desde una perspectiva de regularización como de una perspectiva bayesiana.

Una perspectiva de regularización

El supuesto principal en la perspectiva de regularización es que se supone que el conjunto de funciones pertenece a un espacio de Hilbert de núcleo reproductor . [2] [3] [4] [5]

Reproducción del espacio de Hilbert del núcleo

Un espacio de Hilbert de núcleo reproductor (RKHS) es un espacio de Hilbert de funciones definidas por una función simétrica , definida positivamente, llamada núcleo reproductor , de modo que la función pertenece a para todos los . [6] [7] [8] Hay tres propiedades principales que hacen atractivo a un RKHS:

1. La propiedad reproductora , que da nombre al espacio,

¿Dónde está el producto interno en ?

2. Las funciones en un RKHS están en el cierre de la combinación lineal del núcleo en puntos dados,

.

Esto permite la construcción en un marco unificado de modelos tanto lineales como lineales generalizados.

3. La norma al cuadrado en un RKHS se puede escribir como

y podría verse como una medida de la complejidad de la función.

La función regularizada

El estimador se deriva como el minimizador de la función regularizada.

donde y es la norma en . El primer término en este funcional, que mide el promedio de los cuadrados de los errores entre y , se llama riesgo empírico y representa el costo que pagamos al predecir el valor verdadero . El segundo término en el funcional es la norma al cuadrado en un RKHS multiplicado por un peso y sirve para estabilizar el problema [3] [5] así como para agregar un equilibrio entre el ajuste y la complejidad del estimador. [2] El peso , llamado regularizador , determina el grado en el que se debe penalizar la inestabilidad y la complejidad del estimador (mayor penalización para el valor creciente de ).

Derivación del estimador

La forma explícita del estimador en la ecuación ( 1 ) se deriva en dos pasos. Primero, el teorema del representador [9] [10] [11] establece que el minimizador del funcional ( 2 ) siempre se puede escribir como una combinación lineal de los núcleos centrados en los puntos del conjunto de entrenamiento,

para algunos . La forma explícita de los coeficientes se puede encontrar sustituyendo en la ecuación funcional ( 2 ). Para una función de la forma en la ecuación ( 3 ), tenemos que

Podemos reescribir la función ( 2 ) como

Esta funcional es convexa en y por lo tanto podemos encontrar su mínimo fijando el gradiente con respecto a a cero,

Sustituyendo esta expresión por los coeficientes de la ecuación ( 3 ), obtenemos el estimador establecido previamente en la ecuación ( 1 ),

Una perspectiva bayesiana

La noción de kernel juega un papel crucial en la probabilidad bayesiana como función de covarianza de un proceso estocástico llamado proceso gaussiano .

Una revisión de la probabilidad bayesiana

Como parte del marco bayesiano, el proceso gaussiano especifica la distribución previa que describe las creencias previas sobre las propiedades de la función que se está modelando. Estas creencias se actualizan después de tener en cuenta los datos de observación mediante una función de verosimilitud que relaciona las creencias previas con las observaciones. En conjunto, la distribución previa y la verosimilitud conducen a una distribución actualizada denominada distribución posterior que se utiliza habitualmente para predecir casos de prueba.

El proceso gaussiano

Un proceso gaussiano (PG) es un proceso estocástico en el que cualquier número finito de variables aleatorias muestreadas sigue una distribución normal conjunta . [12] El vector de media y la matriz de covarianza de la distribución gaussiana especifican completamente el PG. Los PG se utilizan normalmente como distribución a priori para funciones y, como tal, el vector de media y la matriz de covarianza pueden verse como funciones, donde la función de covarianza también se denomina núcleo del PG. Sea una función la que sigue un proceso gaussiano con función media y función núcleo ,

En términos de la distribución gaussiana subyacente, tenemos que para cualquier conjunto finito si dejamos entonces

donde es el vector medio y es la matriz de covarianza de la distribución gaussiana multivariada.

Derivación del estimador

En un contexto de regresión, generalmente se supone que la función de verosimilitud es una distribución gaussiana y que las observaciones son independientes y están distribuidas de manera idéntica (iid).

Esta suposición corresponde a que las observaciones se corrompen con ruido gaussiano de media cero con varianza . La suposición iid permite factorizar la función de verosimilitud sobre los puntos de datos dado el conjunto de entradas y la varianza del ruido , y así la distribución posterior se puede calcular analíticamente. Para un vector de entrada de prueba , dados los datos de entrenamiento , la distribución posterior se da por

donde denota el conjunto de parámetros que incluyen la varianza del ruido y cualquier parámetro de la función de covarianza y donde

La conexión entre la regularización y Bayes

Una conexión entre la teoría de regularización y la teoría bayesiana solo se puede lograr en el caso de RKHS de dimensión finita . Bajo este supuesto, la teoría de regularización y la teoría bayesiana están conectadas a través de la predicción del proceso gaussiano. [3] [12]

En el caso de dimensión finita, cada RKHS se puede describir en términos de un mapa de características tal que [2]

Las funciones en el RKHS con núcleo se pueden escribir entonces como

y también tenemos eso

Ahora podemos construir un proceso gaussiano asumiendo que se distribuye de acuerdo con una distribución gaussiana multivariada con media cero y matriz de covarianza identidad,

Si asumimos una probabilidad gaussiana tenemos

donde . La distribución posterior resultante es la dada por

Podemos ver que una estimación posterior máxima (MAP) es equivalente al problema de minimización que define la regularización de Tikhonov , donde en el caso bayesiano el parámetro de regularización está relacionado con la varianza del ruido.

Desde una perspectiva filosófica, la función de pérdida en un contexto de regularización desempeña un papel diferente al de la función de verosimilitud en el contexto bayesiano. Mientras que la función de pérdida mide el error en el que se incurre al predecir en lugar de , la función de verosimilitud mide la probabilidad de que las observaciones se basen en el modelo que se supuso verdadero en el proceso generativo. Sin embargo, desde una perspectiva matemática, las formulaciones de los marcos de regularización y bayesiano hacen que la función de pérdida y la función de verosimilitud tengan el mismo papel matemático de promover la inferencia de funciones que se aproximen a las etiquetas tanto como sea posible.

Véase también

Referencias

  1. ^ Álvarez, Mauricio A.; Rosasco, Lorenzo; Lawrence, Neil D. (junio de 2011). "Núcleos para funciones vectoriales: una revisión". arXiv : 1106.6251 [stat.ML].
  2. ^ abcd Vapnik, Vladimir (1998). Teoría del aprendizaje estadístico. Wiley. ISBN 9780471030034.
  3. ^ abc Wahba, Grace (1990). Modelos spline para datos observacionales . SIAM.
  4. ^ Schölkopf, Bernhard; Smola, Alexander J. (2002). Aprendizaje con núcleos: máquinas de vectores de soporte, regularización, optimización y más . MIT Press. ISBN 9780262194754.
  5. ^ ab Girosi, F.; Poggio, T. (1990). "Redes y la propiedad de mejor aproximación" (PDF) . Cibernética biológica . 63 (3). Springer: 169–176. doi :10.1007/bf00195855. hdl : 1721.1/6017 . S2CID  18824241.
  6. ^ Aronszajn, N (mayo de 1950). "Teoría de la reproducción de núcleos". Transacciones de la American Mathematical Society . 68 (3): 337–404. doi : 10.2307/1990404 . JSTOR  1990404.
  7. ^ Schwartz, Laurent (1964). "Sous-espaces hilbertiens d'espaces vectoriels topologiques et noyaux associés (noyaux reproduisants)". Revista de Análisis Matemático . 13 (1). Saltador: 115–256. doi :10.1007/bf02786620. S2CID  117202393.
  8. ^ Cucker, Felipe; Smale, Steve (5 de octubre de 2001). "Sobre los fundamentos matemáticos del aprendizaje". Boletín de la Sociedad Americana de Matemáticas . 39 (1): 1–49. doi : 10.1090/s0273-0979-01-00923-5 .
  9. ^ Kimeldorf, George S.; Wahba, Grace (1970). "Una correspondencia entre la estimación bayesiana en procesos estocásticos y el suavizado por splines". Anales de estadística matemática . 41 (2): 495–502. doi : 10.1214/aoms/1177697089 .
  10. ^ Schölkopf, Bernhard; Herbrich, Ralf; Smola, Alex J. (2001). "Un teorema de representante generalizado". Computational Learning Theory . Apuntes de clase en informática. Vol. 2111/2001. págs. 416–426. doi :10.1007/3-540-44581-1_27. ISBN 978-3-540-42343-0.
  11. ^ De Vito, Ernesto; Rosasco, Lorenzo; Caponnetto, Andrea; Piana, Michele; Verri, Alessandro (octubre de 2004). "Algunas propiedades de los métodos de kernel regularizados". Revista de investigación en aprendizaje automático . 5 : 1363–1390.
  12. ^ de Rasmussen, Carl Edward; Williams, Christopher KI (2006). Procesos gaussianos para el aprendizaje automático. The MIT Press. ISBN 0-262-18253-X.