Para una salida prevista t = ±1 y una puntuación de clasificador y , la pérdida de bisagra de la predicción y se define como
Tenga en cuenta que debe ser la salida "en bruto" de la función de decisión del clasificador, no la etiqueta de clase prevista. Por ejemplo, en las SVM lineales, , donde son los parámetros del hiperplano y son las variables de entrada.
Cuando t e y tienen el mismo signo (lo que significa que y predice la clase correcta) y , la pérdida de bisagra . Cuando tienen signos opuestos, aumenta linealmente con y , y de manera similar si , incluso si tiene el mismo signo (predicción correcta, pero no por un margen suficiente).
Extensiones
Si bien las SVM binarias se extienden comúnmente a la clasificación multiclase en un modo uno contra todos o uno contra uno, [2]
también es posible extender la pérdida de bisagra en sí misma para tal fin. Se han propuesto varias variaciones diferentes de la pérdida de bisagra multiclase. [3] Por ejemplo, Crammer y Singer [4]
la definieron para un clasificador lineal como [5]
,
donde es la etiqueta de destino y son los parámetros del modelo.
Weston y Watkins proporcionaron una definición similar, pero con una suma en lugar de un máximo: [6] [3]
.
En la predicción estructurada , la pérdida de bisagra se puede extender aún más a los espacios de salida estructurados. Las SVM estructuradas con reescalado de márgenes utilizan la siguiente variante, donde w denota los parámetros de la SVM, y las predicciones de la SVM, φ la función característica conjunta y Δ la pérdida de Hamming :
.
Mejoramiento
La pérdida de bisagra es una función convexa , por lo que muchos de los optimizadores convexos habituales que se utilizan en el aprendizaje automático pueden trabajar con ella. No es diferenciable , pero tiene un subgradiente con respecto a los parámetros del modelo w de un SVM lineal con una función de puntuación que viene dada por
Sin embargo, dado que la derivada de la pérdida de bisagra en no está definida, se pueden preferir versiones suavizadas para la optimización, como la de Rennie y Srebro [7].
o el suavizado cuadráticamente
sugerido por Zhang. [8] La pérdida de Huber modificada es un caso especial de esta función de pérdida con , específicamente .
^ Rosasco, L.; De Vito, ED; Caponnetto, A.; Piana, M.; Verri, A. (2004). "¿Son todas las funciones de pérdida iguales?" (PDF) . Computación neuronal . 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786 . doi :10.1162/089976604773135104. PMID 15070510.
^ Duan, KB; Keerthi, SS (2005). "¿Cuál es el mejor método SVM multiclase? Un estudio empírico" (PDF) . Sistemas de clasificación múltiple . LNCS . Vol. 3541. págs. 278–285. CiteSeerX 10.1.1.110.6789 . doi :10.1007/11494683_28. ISBN.978-3-540-26306-7.
^ ab Doğan, Ürün; Glasmachers, Tobias; Igel, Christian (2016). "Una visión unificada de la clasificación de vectores de soporte de múltiples clases" (PDF) . Revista de investigación en aprendizaje automático . 17 : 1–32.
^ Crammer, Koby; Singer, Yoram (2001). "Sobre la implementación algorítmica de máquinas vectoriales basadas en núcleo multiclase" (PDF) . Journal of Machine Learning Research . 2 : 265–292.
^ Moore, Robert C.; DeNero, John (2011). "Regularización L1 y L2 para modelos de pérdida de bisagra multiclase" (PDF) . Proc. Symp. on Machine Learning in Speech and Language Processing . Archivado desde el original (PDF) el 28 de agosto de 2017 . Consultado el 23 de octubre de 2013 .
^ Weston, Jason; Watkins, Chris (1999). "Máquinas de vectores de soporte para el reconocimiento de patrones multiclase" (PDF) . Simposio europeo sobre redes neuronales artificiales . Archivado desde el original (PDF) el 2018-05-05 . Consultado el 2017-03-01 .
^ Rennie, Jason DM; Srebro, Nathan (2005). Funciones de pérdida para niveles de preferencia: regresión con etiquetas ordenadas discretas (PDF) . Proc. Taller multidisciplinario del IJCAI sobre avances en el manejo de preferencias.
^ Zhang, Tong (2004). Solución de problemas de predicción lineal a gran escala utilizando algoritmos de descenso de gradiente estocástico (PDF) . ICML.