stringtranslate.com

Núcleo de función de base radial

En el aprendizaje automático , la función de base radial kernel , o kernel RBF , es una función de kernel popular que se utiliza en varios algoritmos de aprendizaje kernelizados . En particular, se usa comúnmente en la clasificación de máquinas de vectores de soporte . [1]

El núcleo RBF en dos muestras y , representado como vectores de características en algún espacio de entrada , se define como [2]

puede reconocerse como la distancia euclidiana al cuadrado entre los dos vectores de características. es un parámetro libre. Una definición equivalente implica un parámetro :

Dado que el valor del núcleo RBF disminuye con la distancia y oscila entre cero (en el límite de distancia infinita) y uno (cuando x = x' ), tiene una interpretación fácil como una medida de similitud . [2] El espacio de características del kernel tiene un número infinito de dimensiones; para , su expansión usando el teorema multinomial es: [3]

dónde ,

Aproximaciones

Debido a que las máquinas de vectores de soporte y otros modelos que emplean el truco del kernel no escalan bien a grandes cantidades de muestras de entrenamiento o grandes cantidades de características en el espacio de entrada, se han introducido varias aproximaciones al kernel RBF (y kernels similares). [4] Normalmente, toman la forma de una función z que asigna un único vector a un vector de mayor dimensionalidad, aproximando el núcleo:

¿Dónde está el mapeo implícito incrustado en el kernel RBF?

Características aleatorias de Fourier

Una forma de construir dicha z es tomar una muestra aleatoria de la transformada de Fourier del núcleo [5]

Teorema:

Prueba: Basta probar el caso de . Utilice la identidad trigonométrica , la simetría esférica de distribución gaussiana, luego evalúe la integral

Teorema: . (Apéndice A.2 [6] ).

Método de Nyström

Otro enfoque utiliza el método de Nyström para aproximar la descomposición propia de la matriz de Gram K , utilizando sólo una muestra aleatoria del conjunto de entrenamiento. [7]

Ver también

Referencias

  1. ^ Chang, Yin-Wen; Hsieh, Cho-Jui; Chang, Kai-Wei; Ringgaard, Michael; Lin, Chih-Jen (2010). "Entrenamiento y prueba de asignaciones de datos polinomiales de bajo grado mediante SVM lineal". Revista de investigación sobre aprendizaje automático . 11 : 1471-1490.
  2. ^ ab Jean-Philippe Vert, Koji Tsuda y Bernhard Schölkopf (2004). "Una introducción a los métodos del kernel". Métodos del kernel en biología computacional .
  3. ^ Shashua, Amnón (2009). "Introducción al aprendizaje automático: notas de clase 67577". arXiv : 0904.3664v1 [cs.LG].
  4. ^ Andreas Muller (2012). Aproximaciones del kernel para SVM eficientes (y otros métodos de extracción de características).
  5. ^ Rahimi, Ali; Recht, Benjamín (2007). "Funciones aleatorias para máquinas Kernel a gran escala". Avances en los sistemas de procesamiento de información neuronal . 20 . Curran asociados, Inc.
  6. ^ Peng, Hao; Pappas, Nikolaos; Yogatama, Dani; Schwartz, Roy; Smith, Noé A.; Kong, Lingpeng (19 de marzo de 2021). "Atención a funciones aleatorias". arXiv : 2103.02143 [cs.CL].
  7. ^ CKI Williams; M. Seeger (2001). "Uso del método Nyström para acelerar las máquinas kernel". Avances en los sistemas de procesamiento de información neuronal . 13 .