stringtranslate.com

Máquina de vectores de soporte de mínimos cuadrados

Las máquinas de vectores de soporte de mínimos cuadrados (LS-SVM) para estadística y en modelado estadístico , son versiones de mínimos cuadrados de las máquinas de vectores de soporte (SVM), que son un conjunto de métodos de aprendizaje supervisado relacionados que analizan datos y reconocen patrones, y que se utilizan para la clasificación y el análisis de regresión . En esta versión, uno encuentra la solución resolviendo un conjunto de ecuaciones lineales en lugar de un problema de programación cuadrática convexa (QP) para las SVM clásicas. Los clasificadores SVM de mínimos cuadrados fueron propuestos por Johan Suykens y Joos Vandewalle. [1] Las LS-SVM son una clase de métodos de aprendizaje basados ​​en kernel .

De la máquina de vectores de soporte a la máquina de vectores de soporte de mínimos cuadrados

Dado un conjunto de entrenamiento con datos de entrada y etiquetas de clase binarias correspondientes , el clasificador SVM [2] , según la formulación original de Vapnik , satisface las siguientes condiciones:

Los datos en espiral: para el punto de datos azul, para el punto de datos rojo

que es equivalente a

¿Dónde está el mapa no lineal del espacio original al espacio de alta o infinita dimensión?

Datos inseparables

En caso de que no exista dicho hiperplano separador, introducimos las llamadas variables de holgura tales que

El resultado del clasificador SVM

De acuerdo con el principio de minimización del riesgo estructural , el límite de riesgo se minimiza mediante el siguiente problema de minimización:

Para resolver este problema, podríamos construir la función lagrangiana :

donde están los multiplicadores lagrangianos . El punto óptimo estará en el punto de silla de la función lagrangiana, y entonces obtenemos

Sustituyendo por su expresión en el Lagrangiano formado a partir del objetivo y restricciones adecuados, obtendremos el siguiente problema de programación cuadrática:

donde se denomina función kernel . Al resolver este problema QP sujeto a las restricciones en ( 1 ), obtendremos el hiperplano en el espacio de alta dimensión y, por lo tanto, el clasificador en el espacio original.

Formulación de SVM de mínimos cuadrados

La versión de mínimos cuadrados del clasificador SVM se obtiene reformulando el problema de minimización como

sujeto a las restricciones de igualdad

La formulación del clasificador SVM de mínimos cuadrados (LS-SVM) anterior corresponde implícitamente a una interpretación de regresión con objetivos binarios .

Usando , tenemos

Tenga en cuenta que este error también tendría sentido para el ajuste de datos de mínimos cuadrados, de modo que los mismos resultados finales se aplican al caso de regresión.

Por lo tanto, la formulación del clasificador LS-SVM es equivalente a

con y

El resultado del clasificador LS-SVM

Tanto y deben considerarse como hiperparámetros para ajustar la cantidad de regularización en función del error cuadrático medio. La solución solo depende de la relación , por lo que la formulación original utiliza solo como parámetro de ajuste. Usamos y como parámetros para proporcionar una interpretación bayesiana a LS-SVM.

La solución del regresor LS-SVM se obtendrá después de construir la función lagrangiana :

¿Dónde están los multiplicadores de Lagrange? Las condiciones de optimalidad son

La eliminación de y producirá un sistema lineal en lugar de un problema de programación cuadrática :

con , y . Aquí, es una matriz identidad , y es la matriz kernel definida por .

Función del núcleoK

Para la función kernel K (•, •) normalmente se tienen las siguientes opciones:

donde , , , y son constantes. Nótese que la condición de Mercer se cumple para todos los valores y en el caso polinomial y RBF, pero no para todas las opciones posibles de y en el caso MLP. Los parámetros de escala , y determinan el escalamiento de las entradas en la función kernel polinomial, RBF y MLP . Este escalamiento está relacionado con el ancho de banda del kernel en las estadísticas , donde se muestra que el ancho de banda es un parámetro importante del comportamiento de generalización de un método kernel.

Interpretación bayesiana para LS-SVM

Smola et al. propusieron una interpretación bayesiana del SVM. Demostraron que el uso de diferentes núcleos en el SVM puede considerarse como la definición de diferentes distribuciones de probabilidad previa en el espacio funcional, como . Aquí es una constante y es el operador de regularización correspondiente al núcleo seleccionado.

MacKay [3] [4] [5] desarrolló un marco de evidencia bayesiano general y lo utilizó para resolver problemas de regresión, redes neuronales directas y redes de clasificación. A partir de un conjunto de datos , un modelo con un vector de parámetros y un denominado hiperparámetro o parámetro de regularización , se construye una inferencia bayesiana con tres niveles de inferencia:

Podemos ver que el marco de evidencia bayesiano es una teoría unificada para el aprendizaje del modelo y la selección del modelo. Kwok utilizó el marco de evidencia bayesiano para interpretar la formulación de SVM y la selección del modelo. Y también aplicó el marco de evidencia bayesiano para respaldar la regresión vectorial.

Ahora, dados los puntos de datos y los hiperparámetros y del modelo , los parámetros del modelo y se estiman maximizando el posterior . Aplicando la regla de Bayes, obtenemos

donde es una constante normalizadora tal que la integral sobre todos los posibles y es igual a 1. Suponemos que y son independientes del hiperparámetro , y son condicionalmente independientes, es decir, suponemos

Cuando , la distribución de se aproximará a una distribución uniforme. Además, suponemos que y son una distribución gaussiana, por lo que obtenemos la distribución a priori de y con que es

Aquí está la dimensionalidad del espacio de características, igual que la dimensionalidad de .

Se supone que la probabilidad de depende únicamente de y . Suponemos que los puntos de datos están distribuidos de manera idéntica e independiente (iid), de modo que:

Para obtener la función de costo de mínimos cuadrados, se supone que la probabilidad de un punto de datos es proporcional a:

Se toma una distribución gaussiana para los errores como:

Se supone que y se determinan de tal manera que los centros de clase y se asignan a los objetivos -1 y +1, respectivamente. Las proyecciones de los elementos de clase siguen una distribución gaussiana multivariante, que tienen una varianza .

Combinando las expresiones anteriores y descuidando todas las constantes, la regla de Bayes se convierte en

Las estimaciones de densidad posterior máxima y se obtienen luego minimizando el logaritmo negativo de (26), por lo que llegamos a (10).

Referencias

  1. ^ Suykens, J. A. K.; Vandewalle, J. (1999) "Clasificadores de máquinas de vectores de soporte de mínimos cuadrados", Neural Processing Letters , 9 (3), 293–300.
  2. ^ Vapnik, V. La naturaleza de la teoría del aprendizaje estadístico. Springer-Verlag, Nueva York, 1995.
  3. ^ MacKay, D. J. C. Interpolación bayesiana. Neural Computation, 4(3): 415–447, mayo de 1992.
  4. ^ MacKay, D. J. C. Un marco bayesiano práctico para redes de retropropagación. Neural Computation, 4(3): 448–472, mayo de 1992.
  5. ^ MacKay, D. J. C. El marco de evidencia aplicado a las redes de clasificación. Neural Computation, 4(5): 720–736, septiembre de 1992.

Bibliografía

Enlaces externos