stringtranslate.com

Aproximaciones de matrices de bajo rango

Las aproximaciones matriciales de bajo rango son herramientas esenciales en la aplicación de métodos kernel a problemas de aprendizaje a gran escala . [1]

Los métodos kernel (por ejemplo, máquinas de vectores de soporte o procesos gaussianos [2] ) proyectan puntos de datos en un espacio de características de alta dimensión o de dimensión infinita y encuentran el hiperplano de división óptimo. En el método kernel, los datos se representan en una matriz kernel (o matriz de Gram ). Muchos algoritmos pueden resolver problemas de aprendizaje automático utilizando la matriz kernel . El principal problema del método kernel es su alto costo computacional asociado con las matrices kernel . El costo es al menos cuadrático en el número de puntos de datos de entrenamiento, pero la mayoría de los métodos kernel incluyen el cálculo de la inversión de la matriz o la descomposición de valores propios y el costo se vuelve cúbico en el número de datos de entrenamiento. Los grandes conjuntos de entrenamiento causan grandes costos de almacenamiento y computacionales . Si bien los métodos de descomposición de bajo rango ( descomposición de Cholesky ) reducen este costo, aún requieren el cálculo de la matriz kernel . Uno de los enfoques para abordar este problema son las aproximaciones matriciales de bajo rango. Los ejemplos más populares de ellos son el método de Nyström y las características aleatorias. Ambos se han aplicado con éxito al aprendizaje kernel eficiente.

Aproximación de Nyström

Los métodos del kernel se vuelven inviables cuando el número de puntos es tan grande que la matriz del kernel no se puede almacenar en la memoria.

Si es el número de ejemplos de entrenamiento, el costo de almacenamiento y computacional requerido para encontrar la solución del problema usando el método kernel general es y respectivamente. La aproximación de Nyström puede permitir una aceleración significativa de los cálculos. [2] [3] Esta aceleración se logra utilizando, en lugar de la matriz kernel, su aproximación de rango . Una ventaja del método es que no es necesario calcular o almacenar toda la matriz kernel, sino solo una submatriz de tamaño .

Reduce los requisitos de almacenamiento y complejidad a y respectivamente.

El método se denomina "aproximación de Nyström" porque puede interpretarse como un caso del método de Nyström de la teoría de ecuaciones integrales . [3]

Teorema de aproximación del núcleo

es una matriz de kernel para algún método de kernel . Considere los primeros puntos en el conjunto de entrenamiento. Entonces existe una matriz de rango :

, dónde

,

es matriz invertible

y

Prueba

Aplicación de descomposición en valores singulares

La aplicación de la descomposición en valores singulares (SVD) a una matriz con dimensiones produce un sistema singular que consta de vectores de valores singulares y tales que forman bases ortonormales de y respectivamente:

Si y son matrices con 's y 's en las columnas y es una matriz diagonal que tiene valores singulares en las primeras entradas de la diagonal (todos los demás elementos de la matriz son ceros):

Entonces la matriz se puede reescribir como: [4]

Más pruebas

Aplicando la descomposición en valores singulares a estas matrices:

Aplicando la descomposición en valores singulares a estas matrices:

Dado que son matrices ortogonales ,

Reemplazando por y , se puede obtener una aproximación para :

( no es necesariamente una matriz ortogonal ).

Sin embargo, al definirlo , se puede calcular de la siguiente manera:

Por la caracterización de la matriz ortogonal : se cumple la igualdad. Luego, utilizando la fórmula para la inversa de la multiplicación de matrices para matrices invertibles y , la expresión entre llaves se puede reescribir como:

Entonces la expresión para :

Definiendo , la prueba está terminada.

Teorema general para la aproximación del núcleo para un mapa de características

Para un mapa de características con kernel asociado : la igualdad también se obtiene reemplazando por el operador tal que , , , y por el operador tal que , , . Una vez más, una inspección simple muestra que el mapa de características solo es necesario en la prueba, mientras que el resultado final solo depende del cálculo de la función kernel.

Aplicación de mínimos cuadrados regularizados

En notación vectorial y kernel, el problema de mínimos cuadrados regularizados se puede reescribir como: Calculando el gradiente y estableciendo en 0, se puede obtener el mínimo: La matriz inversa se puede calcular utilizando la identidad matricial de Woodbury :

Tiene los requisitos de almacenamiento y complejidad deseados.

Aproximación de mapas de características aleatorias

Sea – muestras de datos, – un mapa de características aleatorio (mapea un solo vector a un vector de mayor dimensionalidad) de modo que el producto interno entre un par de puntos transformados se aproxime a su evaluación de kernel :

¿Dónde está el mapeo incrustado en el kernel RBF ?

Dado que es de baja dimensión, la entrada se puede transformar fácilmente con , después de eso se pueden aplicar diferentes métodos de aprendizaje lineal para aproximar la respuesta del núcleo no lineal correspondiente. Existen diferentes mapas de características aleatorizados para calcular las aproximaciones a los núcleos RBF. Por ejemplo, características aleatorias de Fourier y características de binning aleatorio .

Características aleatorias de Fourier

El mapa de características aleatorias de Fourier produce una aproximación de Monte Carlo al mapa de características. El método de Monte Carlo se considera aleatorio. Estas características aleatorias consisten en sinusoides extraídas aleatoriamente de la transformada de Fourier del núcleo que se va a aproximar, donde y son variables aleatorias . La línea se elige aleatoriamente y luego los puntos de datos se proyectan sobre ella mediante las asignaciones. El escalar resultante pasa por una sinusoide. El producto de los puntos transformados se aproximará a un núcleo invariante al desplazamiento. Dado que el mapa es suave, las características aleatorias de Fourier funcionan bien en tareas de interpolación.

Funciones de clasificación aleatoria

Un mapa de características de binning aleatorio divide el espacio de entrada utilizando cuadrículas desplazadas aleatoriamente con resoluciones elegidas aleatoriamente y asigna a un punto de entrada una cadena de bits binarios que corresponde a los bins en los que cae. Las cuadrículas se construyen de modo que la probabilidad de que dos puntos se asignen al mismo bin sea proporcional a . El producto interno entre un par de puntos transformados es proporcional a la cantidad de veces que los dos puntos se agrupan juntos y, por lo tanto, es una estimación imparcial de . Dado que este mapeo no es uniforme y utiliza la proximidad entre los puntos de entrada, las características de binning aleatorio funcionan bien para aproximar núcleos que dependen solo de la distancia entre los puntos de datos.

Comparación de métodos de aproximación

Los enfoques para el aprendizaje de kernel a gran escala ( método Nyström y características aleatorias) difieren en el hecho de que el método Nyström utiliza funciones de base dependientes de los datos, mientras que en el enfoque de características aleatorias las funciones de base se muestrean a partir de una distribución independiente de los datos de entrenamiento. Esta diferencia conduce a un análisis mejorado para los enfoques de aprendizaje de kernel basados ​​en el método Nyström. Cuando hay una gran brecha en el espectro propio de la matriz kernel , los enfoques basados ​​en el método Nyström pueden lograr mejores resultados que el enfoque basado en características aleatorias . [5]

Véase también

Enlaces externos

Referencias

  1. ^ Francis R. Bach y Michael I. Jordan (2005). "Descomposición predictiva de bajo rango para métodos de kernel". ICML .
  2. ^ ab Williams, CKI; Seeger, M. (2001). "Uso del método Nyström para acelerar las máquinas de núcleo". Avances en sistemas de procesamiento de información neuronal . 13 .
  3. ^ ab Petros Drineas y Michael W. Mahoney (2005). "Sobre el método Nyström para aproximar una matriz de Gram para mejorar el aprendizaje basado en kernel". Journal of Machine Learning Research 6 , págs. 2153–2175.
  4. ^ C. Eckart, G. Young, La aproximación de una matriz por otra de rango inferior. Psychometrika, Volumen 1, 1936, Páginas 211–8. doi :10.1007/BF02288367
  5. ^ Tianbao Yang, Yu-Feng Li, Mehrdad Mahdavi, Rong Jin y Zhi-Hua Zhou (2012). "Método Nyström vs. características aleatorias de Fourier: una comparación teórica y empírica". Advances in Neural Information Processing Systems 25 (NIPS) .