Para una salida prevista t = ±1 y una puntuación del clasificador y , la pérdida bisagra de la predicción y se define como
Tenga en cuenta que debería ser la salida "sin procesar" de la función de decisión del clasificador, no la etiqueta de clase prevista. Por ejemplo, en SVM lineales , donde están los parámetros del hiperplano y son las variables de entrada.
Cuando t e y tienen el mismo signo (lo que significa que y predice la clase correcta) y , la pérdida de bisagra . Cuando tienen signos opuestos, aumenta linealmente con y , y lo mismo si , aunque tenga el mismo signo (predicción correcta, pero no por margen suficiente).
Extensiones
Si bien las SVM binarias se extienden comúnmente a la clasificación multiclase en forma uno contra todos o uno contra uno, [2]
también es posible extender la pérdida de bisagra para tal fin. Se han propuesto varias variaciones diferentes de pérdida de bisagra multiclase. [3] Por ejemplo, Crammer y Singer [4]
lo definieron para un clasificador lineal como [5]
,
¿Dónde está la etiqueta de destino y son los parámetros del modelo?
Weston y Watkins proporcionaron una definición similar, pero con una suma en lugar de un máximo: [6] [3]
.
En la predicción estructurada , la pérdida de bisagra se puede extender aún más a espacios de salida estructurados. Las SVM estructuradas con reescalado de márgenes utilizan la siguiente variante, donde w denota los parámetros de la SVM, y las predicciones de la SVM, φ la función de característica conjunta y Δ la pérdida de Hamming :
.
Mejoramiento
La pérdida de bisagra es una función convexa , por lo que muchos de los optimizadores convexos habituales utilizados en el aprendizaje automático pueden funcionar con ella. No es diferenciable , pero tiene un subgradiente con respecto a los parámetros del modelo w de una SVM lineal con función de puntuación que viene dada por
Sin embargo, dado que la derivada de la pérdida de bisagra en no está definida, se pueden preferir versiones suavizadas para la optimización, como la de Rennie y Srebro [7].
o el suavizado cuadráticamente
sugerido por Zhang. [8] La pérdida de Huber modificada es un caso especial de esta función de pérdida con , específicamente .
^ Rosasco, L.; De Vito, ED; Caponnetto, A.; Piana, M.; Verri, A. (2004). "¿Son todas las funciones de pérdida iguales?" (PDF) . Computación neuronal . 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786 . doi :10.1162/089976604773135104. PMID 15070510.
^ Duan, KB; Keerthi, SS (2005). "¿Cuál es el mejor método SVM multiclase? Un estudio empírico" (PDF) . Sistemas clasificadores múltiples . LNCS . vol. 3541, págs. 278–285. CiteSeerX 10.1.1.110.6789 . doi :10.1007/11494683_28. ISBN978-3-540-26306-7.
^ ab Doğan, Ürün; Glasmachers, Tobías; Igel, cristiano (2016). "Una vista unificada sobre la clasificación de vectores de soporte multiclase" (PDF) . Revista de investigación sobre aprendizaje automático . 17 : 1–32.
^ Moore, Robert C.; DeNero, John (2011). "Regularización L1 y L2 para modelos de pérdida de bisagra multiclase" (PDF) . Proc. Síntoma. sobre aprendizaje automático en el procesamiento del habla y el lenguaje .
^ Weston, Jason; Watkins, Chris (1999). "Máquinas vectoriales de soporte para el reconocimiento de patrones de clases múltiples" (PDF) . Simposio europeo sobre redes neuronales artificiales .
^ Rennie, JasonDM; Srebro, Nathan (2005). Funciones de pérdida para niveles de preferencia: regresión con etiquetas ordenadas discretas (PDF) . Proc. Taller Multidisciplinario IJCAI sobre Avances en el Manejo de Preferencias.
^ Zhang, Tong (2004). Resolución de problemas de predicción lineal a gran escala utilizando algoritmos de descenso de gradiente estocástico (PDF) . ICML.