Función del núcleo de aprendizaje automático
En el aprendizaje automático , el núcleo de función de base radial , o núcleo RBF , es una función de núcleo popular que se utiliza en varios algoritmos de aprendizaje kernelizado . En particular, se utiliza comúnmente en la clasificación de máquinas de vectores de soporte . [1]
El núcleo RBF en dos muestras y , representado como vectores de características en algún espacio de entrada , se define como [2]
puede reconocerse como la distancia euclidiana al cuadrado entre los dos vectores característicos. es un parámetro libre. Una definición equivalente implica un parámetro :
Dado que el valor del núcleo RBF disminuye con la distancia y varía entre cero (en el límite de distancia infinita) y uno (cuando x = x' ), tiene una interpretación fácil como una medida de similitud . [2]
El espacio de características del núcleo tiene un número infinito de dimensiones; para , su expansión utilizando el teorema multinomial es: [3]
dónde ,
Aproximaciones
Debido a que las máquinas de vectores de soporte y otros modelos que emplean el truco del núcleo no se escalan bien a grandes cantidades de muestras de entrenamiento o grandes cantidades de características en el espacio de entrada, se han introducido varias aproximaciones al núcleo RBF (y núcleos similares). [4]
Normalmente, estas toman la forma de una función z que asigna un solo vector a un vector de mayor dimensionalidad, aproximando el núcleo:
¿Dónde está el mapeo implícito incrustado en el kernel RBF?
Características aleatorias de Fourier
Una forma de construir dicha z es tomar una muestra aleatoria de la transformación de Fourier del núcleo [5], donde son muestras independientes de la distribución normal .
Teorema:
Demostración: Basta con demostrar el caso de . Utilizar la identidad trigonométrica , la simetría esférica de la distribución gaussiana, luego evaluar la integral
Teorema: . (Apéndice A.2 [6] ).
Método de Nyström
Otro enfoque utiliza el método de Nyström para aproximar la descomposición propia de la matriz de Gram K , utilizando solo una muestra aleatoria del conjunto de entrenamiento. [7]
Véase también
Referencias
- ^ Chang, Yin-Wen; Hsieh, Cho-Jui; Chang, Kai-Wei; Ringgaard, Michael; Lin, Chih-Jen (2010). "Entrenamiento y prueba de asignaciones de datos polinomiales de bajo grado a través de SVM lineal". Revista de investigación en aprendizaje automático . 11 : 1471–1490.
- ^ ab Jean-Philippe Vert, Koji Tsuda y Bernhard Schölkopf (2004). "Una introducción a los métodos del kernel". Métodos del kernel en biología computacional .
- ^ Shashua, Amnon (2009). "Introducción al aprendizaje automático: notas de clase 67577". arXiv : 0904.3664v1 [cs.LG].
- ^ Andreas Müller (2012). Aproximaciones de kernel para SVM eficientes (y otros métodos de extracción de características).
- ^ Rahimi, Ali; Recht, Benjamin (2007). "Características aleatorias para máquinas de núcleo a gran escala". Avances en sistemas de procesamiento de información neuronal . 20 . Curran Associates, Inc.
- ^ Peng, Hao; Pappas, Nikolaos; Yogatama, Dani; Schwartz, Roy; Smith, Noé A.; Kong, Lingpeng (19 de marzo de 2021). "Atención a funciones aleatorias". arXiv : 2103.02143 [cs.CL].
- ^ CKI Williams; M. Seeger (2001). "Uso del método Nyström para acelerar las máquinas de núcleo". Avances en sistemas de procesamiento de información neuronal . 13 .