Pérdida de bisagra

En el aprendizaje automático , la pérdida de bisagra es una función de pérdida utilizada para entrenar clasificadores . La pérdida de bisagra se utiliza para la clasificación de "margen máximo", sobre todo para máquinas de vectores de soporte (SVM). ^[1]

Para una salida prevista $t = \pm1$ y una puntuación del clasificador $y$ , la pérdida bisagra de la predicción $y$ se define como

\ell (y)=\max(0,1-t\cdot y)

Tenga en cuenta que debería ser la salida "sin procesar" de la función de decisión del clasificador, no la etiqueta de clase prevista. Por ejemplo, en SVM lineales , donde están los parámetros del hiperplano y son las variables de entrada. $y$ $y=\mathbf {w} \cdot \mathbf {x} +b$ $(\mathbf {w},b)$ $\mathbf {x}$

Cuando $t$ e $y$ tienen el mismo signo (lo que significa que $y$ predice la clase correcta) y , la pérdida de bisagra . Cuando tienen signos opuestos, aumenta linealmente con $y$ , y lo mismo si , aunque tenga el mismo signo (predicción correcta, pero no por margen suficiente). $|y|\geq 1$ $\ell (y)=0$ $\ell (y)$ $|y|<1$

Extensiones

Si bien las SVM binarias se extienden comúnmente a la clasificación multiclase en forma uno contra todos o uno contra uno, ^[2] también es posible extender la pérdida de bisagra para tal fin. Se han propuesto varias variaciones diferentes de pérdida de bisagra multiclase. ^[3] Por ejemplo, Crammer y Singer ^[4] lo definieron para un clasificador lineal como ^[5]

\ell (y)=\max(0,1+\max _{y\neq t}\mathbf {w} _{y}\mathbf {x} -\mathbf {w} _{t}\ matemáticasbf {x} )

¿Dónde está la etiqueta de destino y son los parámetros del modelo? $t$ $\mathbf {w} _ {t}$ $\mathbf {w} _ {y}$

Weston y Watkins proporcionaron una definición similar, pero con una suma en lugar de un máximo: ^[6]^[3]

\ell (y)=\sum _{y\neq t}\max(0,1+\mathbf {w} _{y}\mathbf {x} -\mathbf {w} _{t}\ matemáticasbf {x} )

En la predicción estructurada , la pérdida de bisagra se puede extender aún más a espacios de salida estructurados. Las SVM estructuradas con reescalado de márgenes utilizan la siguiente variante, donde $w$ denota los parámetros de la SVM, $y$ las predicciones de la SVM, $φ$ la función de característica conjunta y $Δ$ la pérdida de Hamming :

{\begin{aligned}\ell (\mathbf {y} )&=\max(0,\Delta (\mathbf {y} ,\mathbf {t} )+\langle \mathbf {w} ,\ fi (\mathbf {x},\mathbf {y})\rangle -\langle \mathbf {w},\phi (\mathbf {x},\mathbf {t})\rangle)\\&=\max( 0,\max _{y\in {\mathcal {Y}}}\left(\Delta (\mathbf {y} ,\mathbf {t} )+\langle \mathbf {w} ,\phi (\mathbf { x} ,\mathbf {y} )\rangle \right)-\langle \mathbf {w} ,\phi (\mathbf {x} ,\mathbf {t} )\rangle )\end{aligned}}

Mejoramiento

La pérdida de bisagra es una función convexa , por lo que muchos de los optimizadores convexos habituales utilizados en el aprendizaje automático pueden funcionar con ella. No es diferenciable , pero tiene un subgradiente con respecto a los parámetros del modelo $w$ de una SVM lineal con función de puntuación que viene dada por $y=\mathbf {w} \cdot \mathbf {x}$

{\frac {\partial \ell }{\partial w_{i}}}={\begin{cases}-t\cdot x_{i}&{\text{if }}t\cdot y<1,\\0&{\text{otherwise}}.\end{cases}}

Sin embargo, dado que la derivada de la pérdida de bisagra en no está definida, se pueden preferir versiones suavizadas para la optimización, como la de Rennie y Srebro ^[7]. $ty=1$

\ell (y)={\begin{cases}{\frac {1}{2}}-ty&{\text{if}}~~ty\leq 0,\\{\frac {1}{2}}(1-ty)^{2}&{\text{if}}~~0<ty<1,\\0&{\text{if}}~~1\leq ty\end{cases}}

o el suavizado cuadráticamente

\ell _{\gamma }(y)={\begin{cases}{\frac {1}{2\gamma }}\max(0,1-ty)^{2}&{\text{if}}~~ty\geq 1-\gamma ,\\1-{\frac {\gamma }{2}}-ty&{\text{otherwise}}\end{cases}}

sugerido por Zhang. ^[8] La pérdida de Huber modificada es un caso especial de esta función de pérdida con , específicamente . $L$ $\gamma =2$ $L(t,y)=4\ell _{2}(y)$

Ver también

Spline de regresión adaptativa multivariante § Funciones de bisagra

Referencias

^ Rosasco, L.; De Vito, ED; Caponnetto, A.; Piana, M.; Verri, A. (2004). "¿Son todas las funciones de pérdida iguales?" (PDF) . Computación neuronal . 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786 . doi :10.1162/089976604773135104. PMID 15070510.
^ Duan, KB; Keerthi, SS (2005). "¿Cuál es el mejor método SVM multiclase? Un estudio empírico" (PDF) . Sistemas clasificadores múltiples . LNCS . vol. 3541, págs. 278–285. CiteSeerX 10.1.1.110.6789 . doi :10.1007/11494683_28. ISBN 978-3-540-26306-7.
^ ab Doğan, Ürün; Glasmachers, Tobías; Igel, cristiano (2016). "Una vista unificada sobre la clasificación de vectores de soporte multiclase" (PDF) . Revista de investigación sobre aprendizaje automático . 17 : 1–32.
^ Abarrotado, Koby; Cantante, Yoram (2001). "Sobre la implementación algorítmica de máquinas vectoriales basadas en kernel multiclase" (PDF) . Revista de investigación sobre aprendizaje automático . 2 : 265–292.
^ Moore, Robert C.; DeNero, John (2011). "Regularización L1 y L2 para modelos de pérdida de bisagra multiclase" (PDF) . Proc. Síntoma. sobre aprendizaje automático en el procesamiento del habla y el lenguaje .
^ Weston, Jason; Watkins, Chris (1999). "Máquinas vectoriales de soporte para el reconocimiento de patrones de clases múltiples" (PDF) . Simposio europeo sobre redes neuronales artificiales .
^ Rennie, JasonDM; Srebro, Nathan (2005). Funciones de pérdida para niveles de preferencia: regresión con etiquetas ordenadas discretas (PDF) . Proc. Taller Multidisciplinario IJCAI sobre Avances en el Manejo de Preferencias.
^ Zhang, Tong (2004). Resolución de problemas de predicción lineal a gran escala utilizando algoritmos de descenso de gradiente estocástico (PDF) . ICML.