stringtranslate.com

Pérdida de bisagra

El eje vertical representa el valor de la pérdida de bisagra (en azul) y la pérdida cero-uno (en verde) para t fijo = 1 , mientras que el eje horizontal representa el valor de la predicción y . El gráfico muestra que la pérdida de bisagra penaliza las predicciones y < 1 , correspondiente a la noción de margen en una máquina de vectores de soporte.

En el aprendizaje automático , la pérdida de bisagra es una función de pérdida utilizada para entrenar clasificadores . La pérdida de bisagra se utiliza para la clasificación de "margen máximo", sobre todo para máquinas de vectores de soporte (SVM). [1]

Para una salida prevista t = ±1 y una puntuación del clasificador y , la pérdida bisagra de la predicción y se define como

Tenga en cuenta que debería ser la salida "sin procesar" de la función de decisión del clasificador, no la etiqueta de clase prevista. Por ejemplo, en SVM lineales , donde están los parámetros del hiperplano y son las variables de entrada.

Cuando t e y tienen el mismo signo (lo que significa que y predice la clase correcta) y , la pérdida de bisagra . Cuando tienen signos opuestos, aumenta linealmente con y , y lo mismo si , aunque tenga el mismo signo (predicción correcta, pero no por margen suficiente).

Extensiones

Si bien las SVM binarias se extienden comúnmente a la clasificación multiclase en forma uno contra todos o uno contra uno, [2] también es posible extender la pérdida de bisagra para tal fin. Se han propuesto varias variaciones diferentes de pérdida de bisagra multiclase. [3] Por ejemplo, Crammer y Singer [4] lo definieron para un clasificador lineal como [5]

,

¿Dónde está la etiqueta de destino y son los parámetros del modelo?

Weston y Watkins proporcionaron una definición similar, pero con una suma en lugar de un máximo: [6] [3]

.

En la predicción estructurada , la pérdida de bisagra se puede extender aún más a espacios de salida estructurados. Las SVM estructuradas con reescalado de márgenes utilizan la siguiente variante, donde w denota los parámetros de la SVM, y las predicciones de la SVM, φ la función de característica conjunta y Δ la pérdida de Hamming :

.

Mejoramiento

La pérdida de bisagra es una función convexa , por lo que muchos de los optimizadores convexos habituales utilizados en el aprendizaje automático pueden funcionar con ella. No es diferenciable , pero tiene un subgradiente con respecto a los parámetros del modelo w de una SVM lineal con función de puntuación que viene dada por

Gráfico de tres variantes de la pérdida de bisagra en función de z = ty : la variante "ordinaria" (azul), su cuadrado (verde) y la versión suave por partes de Rennie y Srebro (rojo). El eje y es la pérdida de bisagra l(y) , y el eje x es el parámetro t

Sin embargo, dado que la derivada de la pérdida de bisagra en no está definida, se pueden preferir versiones suavizadas para la optimización, como la de Rennie y Srebro [7].

o el suavizado cuadráticamente

sugerido por Zhang. [8] La pérdida de Huber modificada es un caso especial de esta función de pérdida con , específicamente .

Ver también

Referencias

  1. ^ Rosasco, L.; De Vito, ED; Caponnetto, A.; Piana, M.; Verri, A. (2004). "¿Son todas las funciones de pérdida iguales?" (PDF) . Computación neuronal . 16 (5): 1063–1076. CiteSeerX  10.1.1.109.6786 . doi :10.1162/089976604773135104. PMID  15070510.
  2. ^ Duan, KB; Keerthi, SS (2005). "¿Cuál es el mejor método SVM multiclase? Un estudio empírico" (PDF) . Sistemas clasificadores múltiples . LNCS . vol. 3541, págs. 278–285. CiteSeerX 10.1.1.110.6789 . doi :10.1007/11494683_28. ISBN  978-3-540-26306-7.
  3. ^ ab Doğan, Ürün; Glasmachers, Tobías; Igel, cristiano (2016). "Una vista unificada sobre la clasificación de vectores de soporte multiclase" (PDF) . Revista de investigación sobre aprendizaje automático . 17 : 1–32.
  4. ^ Abarrotado, Koby; Cantante, Yoram (2001). "Sobre la implementación algorítmica de máquinas vectoriales basadas en kernel multiclase" (PDF) . Revista de investigación sobre aprendizaje automático . 2 : 265–292.
  5. ^ Moore, Robert C.; DeNero, John (2011). "Regularización L1 y L2 para modelos de pérdida de bisagra multiclase" (PDF) . Proc. Síntoma. sobre aprendizaje automático en el procesamiento del habla y el lenguaje .
  6. ^ Weston, Jason; Watkins, Chris (1999). "Máquinas vectoriales de soporte para el reconocimiento de patrones de clases múltiples" (PDF) . Simposio europeo sobre redes neuronales artificiales .
  7. ^ Rennie, JasonDM; Srebro, Nathan (2005). Funciones de pérdida para niveles de preferencia: regresión con etiquetas ordenadas discretas (PDF) . Proc. Taller Multidisciplinario IJCAI sobre Avances en el Manejo de Preferencias.
  8. ^ Zhang, Tong (2004). Resolución de problemas de predicción lineal a gran escala utilizando algoritmos de descenso de gradiente estocástico (PDF) . ICML.