stringtranslate.com

Pérdida de bisagra

El eje vertical representa el valor de la pérdida de Hinge (en azul) y la pérdida cero-uno (en verde) para un valor fijo de t = 1 , mientras que el eje horizontal representa el valor de la predicción y . El gráfico muestra que la pérdida de Hinge penaliza las predicciones y < 1 , lo que corresponde a la noción de margen en una máquina de vectores de soporte.

En el aprendizaje automático , la pérdida de bisagra es una función de pérdida que se utiliza para entrenar clasificadores . La pérdida de bisagra se utiliza para la clasificación de "máximo margen", sobre todo para las máquinas de vectores de soporte (SVM). [1]

Para una salida prevista t = ±1 y una puntuación de clasificador y , la pérdida de bisagra de la predicción y se define como

Tenga en cuenta que debe ser la salida "en bruto" de la función de decisión del clasificador, no la etiqueta de clase prevista. Por ejemplo, en las SVM lineales, , donde son los parámetros del hiperplano y son las variables de entrada.

Cuando t e y tienen el mismo signo (lo que significa que y predice la clase correcta) y , la pérdida de bisagra . Cuando tienen signos opuestos, aumenta linealmente con y , y de manera similar si , incluso si tiene el mismo signo (predicción correcta, pero no por un margen suficiente).

Extensiones

Si bien las SVM binarias se extienden comúnmente a la clasificación multiclase en un modo uno contra todos o uno contra uno, [2] también es posible extender la pérdida de bisagra en sí misma para tal fin. Se han propuesto varias variaciones diferentes de la pérdida de bisagra multiclase. [3] Por ejemplo, Crammer y Singer [4] la definieron para un clasificador lineal como [5]

,

donde es la etiqueta de destino y son los parámetros del modelo.

Weston y Watkins proporcionaron una definición similar, pero con una suma en lugar de un máximo: [6] [3]

.

En la predicción estructurada , la pérdida de bisagra se puede extender aún más a los espacios de salida estructurados. Las SVM estructuradas con reescalado de márgenes utilizan la siguiente variante, donde w denota los parámetros de la SVM, y las predicciones de la SVM, φ la función característica conjunta y Δ la pérdida de Hamming :

.

Mejoramiento

La pérdida de bisagra es una función convexa , por lo que muchos de los optimizadores convexos habituales que se utilizan en el aprendizaje automático pueden trabajar con ella. No es diferenciable , pero tiene un subgradiente con respecto a los parámetros del modelo w de un SVM lineal con una función de puntuación que viene dada por

Gráfico de tres variantes de la pérdida de bisagra en función de z = ty : la variante "ordinaria" (azul), su versión cuadrada (verde) y la versión suavizada por partes de Rennie y Srebro (rojo). El eje y es la pérdida de bisagra l(y) y el eje x es el parámetro t

Sin embargo, dado que la derivada de la pérdida de bisagra en no está definida, se pueden preferir versiones suavizadas para la optimización, como la de Rennie y Srebro [7].

o el suavizado cuadráticamente

sugerido por Zhang. [8] La pérdida de Huber modificada es un caso especial de esta función de pérdida con , específicamente .

Véase también

Referencias

  1. ^ Rosasco, L.; De Vito, ED; Caponnetto, A.; Piana, M.; Verri, A. (2004). "¿Son todas las funciones de pérdida iguales?" (PDF) . Computación neuronal . 16 (5): 1063–1076. CiteSeerX  10.1.1.109.6786 . doi :10.1162/089976604773135104. PMID  15070510.
  2. ^ Duan, KB; Keerthi, SS (2005). "¿Cuál es el mejor método SVM multiclase? Un estudio empírico" (PDF) . Sistemas de clasificación múltiple . LNCS . Vol. 3541. págs. 278–285. CiteSeerX 10.1.1.110.6789 . doi :10.1007/11494683_28. ISBN.  978-3-540-26306-7.
  3. ^ ab Doğan, Ürün; Glasmachers, Tobias; Igel, Christian (2016). "Una visión unificada de la clasificación de vectores de soporte de múltiples clases" (PDF) . Revista de investigación en aprendizaje automático . 17 : 1–32.
  4. ^ Crammer, Koby; Singer, Yoram (2001). "Sobre la implementación algorítmica de máquinas vectoriales basadas en núcleo multiclase" (PDF) . Journal of Machine Learning Research . 2 : 265–292.
  5. ^ Moore, Robert C.; DeNero, John (2011). "Regularización L1 y L2 para modelos de pérdida de bisagra multiclase" (PDF) . Proc. Symp. on Machine Learning in Speech and Language Processing . Archivado desde el original (PDF) el 28 de agosto de 2017 . Consultado el 23 de octubre de 2013 .
  6. ^ Weston, Jason; Watkins, Chris (1999). "Máquinas de vectores de soporte para el reconocimiento de patrones multiclase" (PDF) . Simposio europeo sobre redes neuronales artificiales . Archivado desde el original (PDF) el 2018-05-05 . Consultado el 2017-03-01 .
  7. ^ Rennie, Jason DM; Srebro, Nathan (2005). Funciones de pérdida para niveles de preferencia: regresión con etiquetas ordenadas discretas (PDF) . Proc. Taller multidisciplinario del IJCAI sobre avances en el manejo de preferencias.
  8. ^ Zhang, Tong (2004). Solución de problemas de predicción lineal a gran escala utilizando algoritmos de descenso de gradiente estocástico (PDF) . ICML.