De la máquina de vectores de soporte a la máquina de vectores de soporte de mínimos cuadrados
Dado un conjunto de entrenamiento con datos de entrada y etiquetas de clase binarias correspondientes , el clasificador SVM [2] , según la formulación original de Vapnik , satisface las siguientes condiciones:
que es equivalente a
¿Dónde está el mapa no lineal del espacio original al espacio de alta o infinita dimensión?
Datos inseparables
En caso de que no exista dicho hiperplano separador, introducimos las llamadas variables de holgura tales que
Sustituyendo por su expresión en el Lagrangiano formado a partir del objetivo y restricciones adecuados, obtendremos el siguiente problema de programación cuadrática:
donde se denomina función kernel . Al resolver este problema QP sujeto a las restricciones en ( 1 ), obtendremos el hiperplano en el espacio de alta dimensión y, por lo tanto, el clasificador en el espacio original.
Formulación de SVM de mínimos cuadrados
La versión de mínimos cuadrados del clasificador SVM se obtiene reformulando el problema de minimización como
sujeto a las restricciones de igualdad
La formulación del clasificador SVM de mínimos cuadrados (LS-SVM) anterior corresponde implícitamente a una interpretación de regresión con objetivos binarios .
Usando , tenemos
Tenga en cuenta que este error también tendría sentido para el ajuste de datos de mínimos cuadrados, de modo que los mismos resultados finales se aplican al caso de regresión.
Por lo tanto, la formulación del clasificador LS-SVM es equivalente a
con y
Tanto y deben considerarse como hiperparámetros para ajustar la cantidad de regularización en función del error cuadrático medio. La solución solo depende de la relación , por lo que la formulación original utiliza solo como parámetro de ajuste. Usamos y como parámetros para proporcionar una interpretación bayesiana a LS-SVM.
La solución del regresor LS-SVM se obtendrá después de construir la función lagrangiana :
¿Dónde están los multiplicadores de Lagrange? Las condiciones de optimalidad son
donde , , , y son constantes. Nótese que la condición de Mercer se cumple para todos los valores y en el caso polinomial y RBF, pero no para todas las opciones posibles de y en el caso MLP. Los parámetros de escala , y determinan el escalamiento de las entradas en la función kernel polinomial, RBF y MLP . Este escalamiento está relacionado con el ancho de banda del kernel en las estadísticas , donde se muestra que el ancho de banda es un parámetro importante del comportamiento de generalización de un método kernel.
MacKay [3] [4] [5] desarrolló un marco de evidencia bayesiano general y lo utilizó para resolver problemas de regresión, redes neuronales directas y redes de clasificación. A partir de un conjunto de datos , un modelo con un vector de parámetros y un denominado hiperparámetro o parámetro de regularización , se construye una inferencia bayesiana con tres niveles de inferencia:
En el nivel 1, para un valor dado de , el primer nivel de inferencia infiere la distribución posterior de mediante la regla bayesiana
El segundo nivel de inferencia determina el valor de , maximizando
El tercer nivel de inferencia en el marco de evidencia clasifica diferentes modelos examinando sus probabilidades posteriores.
Podemos ver que el marco de evidencia bayesiano es una teoría unificada para el aprendizaje del modelo y la selección del modelo. Kwok utilizó el marco de evidencia bayesiano para interpretar la formulación de SVM y la selección del modelo. Y también aplicó el marco de evidencia bayesiano para respaldar la regresión vectorial.
Ahora, dados los puntos de datos y los hiperparámetros y del modelo , los parámetros del modelo y se estiman maximizando el posterior . Aplicando la regla de Bayes, obtenemos
donde es una constante normalizadora tal que la integral sobre todos los posibles y es igual a 1. Suponemos que y son independientes del hiperparámetro , y son condicionalmente independientes, es decir, suponemos
Cuando , la distribución de se aproximará a una distribución uniforme. Además, suponemos que y son una distribución gaussiana, por lo que obtenemos la distribución a priori de y con que es
Aquí está la dimensionalidad del espacio de características, igual que la dimensionalidad de .
Se supone que la probabilidad de depende únicamente de y . Suponemos que los puntos de datos están distribuidos de manera idéntica e independiente (iid), de modo que:
Para obtener la función de costo de mínimos cuadrados, se supone que la probabilidad de un punto de datos es proporcional a:
Se toma una distribución gaussiana para los errores como:
Se supone que y se determinan de tal manera que los centros de clase y se asignan a los objetivos -1 y +1, respectivamente. Las proyecciones de los elementos de clase siguen una distribución gaussiana multivariante, que tienen una varianza .
Combinando las expresiones anteriores y descuidando todas las constantes, la regla de Bayes se convierte en
Las estimaciones de densidad posterior máxima y se obtienen luego minimizando el logaritmo negativo de (26), por lo que llegamos a (10).
Referencias
^ Suykens, J. A. K.; Vandewalle, J. (1999) "Clasificadores de máquinas de vectores de soporte de mínimos cuadrados", Neural Processing Letters , 9 (3), 293–300.
^ Vapnik, V. La naturaleza de la teoría del aprendizaje estadístico. Springer-Verlag, Nueva York, 1995.
^ MacKay, D. J. C. Interpolación bayesiana. Neural Computation, 4(3): 415–447, mayo de 1992.
^ MacKay, D. J. C. Un marco bayesiano práctico para redes de retropropagación. Neural Computation, 4(3): 448–472, mayo de 1992.
^ MacKay, D. J. C. El marco de evidencia aplicado a las redes de clasificación. Neural Computation, 4(5): 720–736, septiembre de 1992.
Bibliografía
JAK Suykens, T. Van Gestel, J. De Brabanter, B. De Moor, J. Vandewalle, Máquinas de vectores de soporte de mínimos cuadrados, World Scientific Pub. Co., Singapur, 2002. ISBN 981-238-151-1
Suykens J. A. K., Vandewalle J., Clasificadores de máquinas de vectores de soporte de mínimos cuadrados, Neural Processing Letters , vol. 9, núm. 3, junio de 1999, págs. 293–300.
Vladimir Vapnik. La naturaleza de la teoría del aprendizaje estadístico . Springer-Verlag, 1995. ISBN 0-387-98780-0
MacKay, DJC, Redes probables y predicciones plausibles: una revisión de métodos bayesianos prácticos para redes neuronales supervisadas. Network: Computation in Neural Systems , vol. 6, 1995, págs. 469–505.
Enlaces externos
"La caja de herramientas del Laboratorio de máquinas de vectores de soporte de mínimos cuadrados (LS-SVMlab) contiene implementaciones de Matlab/C para varios algoritmos LS-SVM".
www.kernel-machines.org "Máquinas de vectores de soporte y métodos basados en kernel (Smola y Schölkopf)".
www.gaussianprocess.org "Procesos Gaussianos: Modelado de datos utilizando valores previos del Proceso Gaussiano sobre funciones para regresión y clasificación (MacKay, Williams)".
www.support-vector.net "Máquinas de vectores de soporte y métodos basados en kernel (Cristianini)".
dlib: contiene una implementación de SVM de mínimos cuadrados para conjuntos de datos a gran escala.