Máquina de vectores de soporte estructurado

La máquina de vectores de soporte estructurada es un algoritmo de aprendizaje automático que generaliza el clasificador de la máquina de vectores de soporte (SVM). Mientras que el clasificador SVM admite la clasificación binaria , la clasificación multiclase y la regresión , la SVM estructurada permite el entrenamiento de un clasificador para etiquetas de salida estructuradas generales .

Por ejemplo, una instancia de muestra podría ser una oración en lenguaje natural y la etiqueta de salida es un árbol de análisis anotado . El entrenamiento de un clasificador consiste en mostrar pares de pares de etiquetas de salida y de muestra correctos. Después del entrenamiento, el modelo SVM estructurado permite predecir para nuevas instancias de muestra la etiqueta de salida correspondiente; es decir, dada una oración en lenguaje natural, el clasificador puede producir el árbol de análisis más probable.

Capacitación

Para un conjunto de instancias de entrenamiento , de un espacio muestral y un espacio de etiquetas , el SVM estructurado minimiza la siguiente función de riesgo regularizada. ${\estilo de visualización n}$ $({\boldsymbol {x}}_{i},y_{i})\en {\mathcal {X}}\times {\mathcal {Y}}$ $i=1,\puntos ,n$ ${\mathcal {X}}$ ${\mathcal {Y}}$

{\underset {\boldsymbol {w}}{\min }}\quad \|{\boldsymbol {w}}\|^{2}+C\sum _{i=1}^{n}{\underset {y\in {\mathcal {Y}}}{\max }}\left(0,\Delta (y_{i},y)+\langle {\boldsymbol {w}},\Psi ({\boldsymbol {x}}_{i},y)\rangle -\langle {\boldsymbol {w}},\Psi ({\boldsymbol {x}}_{i},y_{i})\rangle \right)

La función es convexa en porque el máximo de un conjunto de funciones afines es convexo. La función mide una distancia en el espacio de etiquetas y es una función arbitraria (no necesariamente una métrica ) que satisface y . La función es una función característica, que extrae un vector de características de una muestra y una etiqueta dadas. El diseño de esta función depende en gran medida de la aplicación. ${\boldsymbol {w}}$ $\Delta :{\mathcal {Y}}\times {\mathcal {Y}}\to \mathbb {R} _{+}$ $\Delta (y,z)\geq 0$ $\Delta (y,y)=0\;\;\forall y,z\in {\mathcal {Y}}$ $\Psi :{\mathcal {X}}\times {\mathcal {Y}}\to \mathbb {R} ^{d}$

Debido a que la función de riesgo regularizada anterior no es diferenciable, a menudo se la reformula en términos de un programa cuadrático introduciendo una variable de holgura para cada muestra, cada una de las cuales representa el valor del máximo. La formulación primaria estándar de SVM estructurada se presenta a continuación. $\xi_{i}$

{\begin{array}{cl}{\underset {{\boldsymbol {w}},{\boldsymbol {\xi }}}{\min }}&\|{\boldsymbol {w}}\|^{2}+C\sum _{i=1}^{n}\xi _{i}\\{\textrm {st}}&\langle {\boldsymbol {w}},\Psi ({\boldsymbol {x}}_{i},y_{i})\rangle -\langle {\boldsymbol {w}},\Psi ({\boldsymbol {x}}_{i},y)\rangle +\xi _{i}\geq \Delta (y_{i},y),\qcuadrado i=1,\puntos ,n,\cuadrado \para todo y\en {\mathcal {Y}}\end{array}}

Inferencia

En el momento de la prueba, solo se conoce una muestra y una función de predicción la asigna a una etiqueta predicha del espacio de etiquetas . Para las SVM estructuradas, dado el vector obtenido del entrenamiento, la función de predicción es la siguiente. ${\boldsymbol {x}}\in {\mathcal {X}}$ $f:{\mathcal {X}}\to {\mathcal {Y}}$ ${\mathcal {Y}}$ ${\boldsymbol {w}}$

f({\boldsymbol {x}})={\underset {y\in {\mathcal {Y}}}{\textrm {argmax}}}\quad \langle {\boldsymbol {w}},\ Psi ({\boldsymbol {x}},y)\rangle

Por lo tanto, el maximizador sobre el espacio de etiquetas es la etiqueta predicha. La solución de este maximizador es el llamado problema de inferencia y es similar a hacer una predicción máxima a posteriori (MAP) en modelos probabilísticos. Dependiendo de la estructura de la función , la solución del maximizador puede ser un problema difícil. ${\estilo de visualización \Psi}$

Separación

El programa cuadrático anterior implica una cantidad muy grande, posiblemente infinita, de restricciones de desigualdad lineal. En general, la cantidad de desigualdades es demasiado grande para optimizarla explícitamente. En cambio, el problema se resuelve utilizando la generación de restricciones retrasadas, donde solo se utiliza un subconjunto finito y pequeño de las restricciones. La optimización sobre un subconjunto de las restricciones amplía el conjunto factible y producirá una solución que proporciona un límite inferior al objetivo. Para probar si la solución viola las restricciones de las desigualdades del conjunto completo, se debe resolver un problema de separación. A medida que las desigualdades se descomponen sobre las muestras, para cada muestra se debe resolver el siguiente problema. ${\boldsymbol {w}}$ $({\boldsymbol {x}}_{i},y_{i})$

y_{n}^{*}={\underset {y\in {\mathcal {Y}}}{\textrm {argmax}}}\left(\Delta (y_{i},y)+\langle {\boldsymbol {w}},\Psi ({\boldsymbol {x}}_{i},y)\rangle -\langle {\boldsymbol {w}},\Psi ({\boldsymbol {x}}_{i},y_{i})\rangle -\xi _{i}\right)

El objetivo del lado derecho que se debe maximizar se compone de la constante y un término dependiente de las variables optimizadas, es decir . Si el objetivo del lado derecho alcanzado es menor o igual a cero, no existen restricciones violadas para esta muestra. Si es estrictamente mayor que cero, se ha identificado la restricción más violada con respecto a esta muestra. El problema se amplía con esta restricción y se resuelve. El proceso continúa hasta que no se pueden identificar desigualdades violadas. $-\langle {\boldsymbol {w}},\Psi ({\boldsymbol {x}}_{i},y_{i})\rangle -\xi _{i}$ $\Delta (y_{i},y)+\langle {\boldsymbol {w}},\Psi ({\boldsymbol {x}}_{i},y)\rangle$

Si se eliminan las constantes del problema anterior, obtenemos el siguiente problema a resolver.

y_{i}^{*}={\underset {y\in {\mathcal {Y}}}{\textrm {argmax}}}\left(\Delta (y_{i},y)+\langle {\boldsymbol {w}},\Psi ({\boldsymbol {x}}_{i},y)\rangle \right)

Este problema es muy similar al problema de inferencia. La única diferencia es la adición del término . La mayoría de las veces, se elige de manera que tenga una descomposición natural en el espacio de etiquetas. En ese caso, la influencia de se puede codificar en el problema de inferencia y resolver la restricción que más la viola es equivalente a resolver el problema de inferencia. $\Delta (y_{i},y)$ ${\estilo de visualización \Delta}$

Referencias

Ioannis Tsochantaridis, Thorsten Joachims, Thomas Hofmann y Yasemin Altun (2005), Métodos de gran margen para variables de salida estructuradas e interdependientes, JMLR, Vol. 6, páginas 1453-1484.
Thomas Finley y Thorsten Joachims (2008), Entrenamiento de SVM estructurales cuando la inferencia exacta es intratable, ICML 2008.
Sunita Sarawagi y Rahul Gupta (2008), Entrenamiento preciso de margen máximo para espacios de salida estructurados, ICML 2008.
Gökhan BakIr, Ben Taskar, Thomas Hofmann, Bernhard Schölkopf, Alex Smola y SVN Vishwanathan (2007), Predicción de datos estructurados, MIT Press.
Vojtěch Franc y Bogdan Savchynskyy Aprendizaje discriminativo de clasificadores de suma máxima, Journal of Machine Learning Research, 9 (enero): 67—104, 2008, Microtome Publishing
Kevin Murphy [1] Aprendizaje automático, MIT Press