stringtranslate.com

Funciones de pérdida para clasificación.

Funciones de pérdida consistentes de Bayes: pérdida cero-uno (gris), pérdida salvaje (verde), pérdida logística (naranja), pérdida exponencial (púrpura), pérdida tangente (marrón), pérdida cuadrada (azul)

En el aprendizaje automático y la optimización matemática , las funciones de pérdida para clasificación son funciones de pérdida computacionalmente factibles que representan el precio pagado por la inexactitud de las predicciones en problemas de clasificación (problemas para identificar a qué categoría pertenece una observación en particular). [1] Dado como el espacio de todas las entradas posibles (generalmente ) y como el conjunto de etiquetas (posibles salidas), un objetivo típico de los algoritmos de clasificación es encontrar una función que prediga mejor una etiqueta para una entrada determinada . [2] Sin embargo, debido a información incompleta, ruido en la medición o componentes probabilísticos en el proceso subyacente, es posible que el mismo genere diferentes . [3] Como resultado, el objetivo del problema de aprendizaje es minimizar la pérdida esperada (también conocida como riesgo), definida como

donde es una función de pérdida dada y es la función de densidad de probabilidad del proceso que generó los datos, que puede escribirse de manera equivalente como

Dentro de la clasificación, varias funciones de pérdida de uso común se escriben únicamente en términos del producto de la etiqueta verdadera y la etiqueta predicha . Por tanto, se pueden definir como funciones de una sola variable , es decir, con una función adecuadamente elegida . Éstas se denominan funciones de pérdida basadas en márgenes . Elegir una función de pérdida basada en márgenes equivale a elegir . La selección de una función de pérdida dentro de este marco impacta el óptimo que minimiza el riesgo esperado, ver minimización de riesgo empírico .

En el caso de la clasificación binaria, es posible simplificar el cálculo del riesgo esperado a partir de la integral especificada anteriormente. Específicamente,

La segunda igualdad se deriva de las propiedades descritas anteriormente. La tercera igualdad se deriva del hecho de que 1 y −1 son los únicos valores posibles para , y la cuarta porque . El término entre paréntesis se conoce como riesgo condicional.

Se puede resolver el minimizador de tomando la derivada funcional de la última igualdad con respecto a y estableciendo la derivada igual a 0. Esto dará como resultado la siguiente ecuación

[ cita necesaria ] [ aclaración necesaria ]

lo que también equivale a igualar a cero la derivada del riesgo condicional.

Dada la naturaleza binaria de la clasificación, una selección natural para una función de pérdida (suponiendo el mismo costo para los falsos positivos y los falsos negativos ) sería la función de pérdida 0-1 ( función indicadora 0-1 ), que toma el valor de 0 si el valor predicho La clasificación es igual a la de la clase verdadera o un 1 si la clasificación prevista no coincide con la clase verdadera. Esta selección está modelada por

donde indica la función de paso de Heaviside . Sin embargo, esta función de pérdida no es convexa ni suave, y encontrar la solución óptima es un problema de optimización combinatoria NP-difícil . [4] Como resultado, es mejor sustituir los algoritmos de aprendizaje comúnmente utilizados por sustitutos de funciones de pérdida que sean manejables, ya que tienen propiedades convenientes como ser convexos y suaves. Además de su manejabilidad computacional, se puede demostrar que las soluciones al problema de aprendizaje utilizando estos sustitutos de pérdida permiten la recuperación de la solución real al problema de clasificación original. [5] Algunos de estos sustitutos se describen a continuación.

En la práctica, se desconoce la distribución de probabilidad . En consecuencia, utilizar un conjunto de entrenamiento de puntos de muestra distribuidos de forma independiente e idéntica

extraído del espacio muestral de datos , se busca minimizar el riesgo empírico

como indicador del riesgo esperado. [3] (Consulte la teoría del aprendizaje estadístico para obtener una descripción más detallada).

consistencia bayesiana

Utilizando el teorema de Bayes , se puede demostrar que el óptimo , es decir, el que minimiza el riesgo esperado asociado con la pérdida cero-uno, implementa la regla de decisión óptima de Bayes para un problema de clasificación binaria y tiene la forma de

.

Se dice que una función de pérdida está calibrada por clasificación o es consistente con Bayes si su óptimo es tal y, por lo tanto, es óptimo según la regla de decisión de Bayes. Una función de pérdida consistente de Bayes nos permite encontrar la función de decisión óptima de Bayes minimizando directamente el riesgo esperado y sin tener que modelar explícitamente las funciones de densidad de probabilidad.

Para la pérdida de margen convexo , se puede demostrar que es consistente con Bayes si y sólo si es diferenciable en 0 y . [6] [1] Sin embargo, este resultado no excluye la existencia de funciones de pérdida consistentes de Bayes no convexas. Un resultado más general establece que se pueden generar funciones de pérdida consistentes de Bayes utilizando la siguiente formulación [7]

,

donde es cualquier función invertible tal que y es cualquier función estrictamente cóncava diferenciable tal que . La Tabla I muestra las funciones de pérdida consistentes de Bayes generadas para algunas opciones de ejemplo de y . Tenga en cuenta que las pérdidas Savage y Tangent no son convexas. Se ha demostrado que estas funciones de pérdida no convexas son útiles para tratar valores atípicos en la clasificación. [7] [8] Para todas las funciones de pérdida generadas a partir de (2), la probabilidad posterior se puede encontrar utilizando la función de enlace invertible como . Estas funciones de pérdida en las que la probabilidad posterior se puede recuperar utilizando el enlace invertible se denominan funciones de pérdida propias .


El único minimizador del riesgo esperado, asociado con las funciones de pérdida generadas anteriormente, se puede encontrar directamente a partir de la ecuación (1) y se muestra que es igual al correspondiente . Esto es válido incluso para las funciones de pérdida no convexas, lo que significa que se pueden utilizar algoritmos basados ​​en descenso de gradiente, como el aumento de gradiente, para construir el minimizador.

Funciones de pérdida adecuadas, margen de pérdida y regularización.

(Rojo) Pérdida logística estándar ( ) y (Azul) Pérdida logística de margen aumentado ( ).

Para funciones de pérdida adecuadas, el margen de pérdida se puede definir y demostrar que está directamente relacionado con las propiedades de regularización del clasificador. [9] Específicamente, una función de pérdida de margen mayor aumenta la regularización y produce mejores estimaciones de la probabilidad posterior. Por ejemplo, el margen de pérdida se puede aumentar para la pérdida logística introduciendo un parámetro y escribiendo la pérdida logística donde menor aumenta el margen de pérdida. Se muestra que esto es directamente equivalente a disminuir la tasa de aprendizaje en el aumento de gradiente , donde la disminución mejora la regularización del clasificador potenciado. La teoría deja claro que cuando se utiliza una tasa de aprendizaje de, la fórmula correcta para recuperar la probabilidad posterior es ahora .

En conclusión, al elegir una función de pérdida con un margen mayor (menor ), aumentamos la regularización y mejoramos nuestras estimaciones de la probabilidad posterior, lo que a su vez mejora la curva ROC del clasificador final.

Pérdida cuadrada

Si bien se usa más comúnmente en regresión, la función de pérdida cuadrada se puede reescribir como una función y utilizar para clasificación. Se puede generar usando (2) y la Tabla I de la siguiente manera

La función de pérdida cuadrada es a la vez convexa y suave. Sin embargo, la función de pérdida cuadrada tiende a penalizar excesivamente los valores atípicos, lo que lleva a tasas de convergencia más lentas (con respecto a la complejidad de la muestra) que para las funciones de pérdida logística o pérdida bisagra. [1] Además, las funciones que producen valores altos de para algunos funcionarán mal con la función de pérdida de cuadrados, ya que los valores altos de serán penalizados severamente, independientemente de si los signos de y coinciden.

Un beneficio de la función de pérdida cuadrada es que su estructura se presta a una fácil validación cruzada de los parámetros de regularización. Específicamente para la regularización de Tikhonov , se puede resolver el parámetro de regularización utilizando una validación cruzada de dejar uno fuera en el mismo tiempo que llevaría resolver un solo problema. [10]

El minimizador de para la función de pérdida cuadrada se puede encontrar directamente a partir de la ecuación (1) como

Pérdida logística

La función de pérdida logística se puede generar usando (2) y la Tabla I de la siguiente manera

La pérdida logística es convexa y crece linealmente para valores negativos, lo que la hace menos sensible a los valores atípicos. La pérdida logística se utiliza en el algoritmo LogitBoost .

El minimizador de para la función de pérdida logística se puede encontrar directamente a partir de la ecuación (1) como

Esta función no está definida cuando o (tiende hacia ∞ y −∞ respectivamente), pero predice una curva suave que crece cuando aumenta y es igual a 0 cuando . [3]

Es fácil comprobar que la pérdida logística y la pérdida binaria de entropía cruzada (pérdida logarítmica) son de hecho las mismas (hasta una constante multiplicativa ). La pérdida de entropía cruzada está estrechamente relacionada con la divergencia de Kullback-Leibler entre la distribución empírica y la distribución predicha. La pérdida de entropía cruzada es omnipresente en las redes neuronales profundas modernas .

Pérdida exponencial

La función de pérdida exponencial se puede generar usando (2) y la Tabla I de la siguiente manera

La pérdida exponencial es convexa y crece exponencialmente para valores negativos, lo que la hace más sensible a los valores atípicos. La pérdida exponencial se utiliza en el algoritmo AdaBoost .

El minimizador de para la función de pérdida exponencial se puede encontrar directamente en la ecuación (1) como

Pérdida salvaje

La pérdida salvaje [7] se puede generar usando (2) y la Tabla I de la siguiente manera

La pérdida de Savage es casi convexa y está limitada a valores negativos grandes, lo que la hace menos sensible a los valores atípicos. La pérdida Savage se ha utilizado en el aumento de gradiente y el algoritmo SavageBoost.

El minimizador de para la función de pérdida Savage se puede encontrar directamente a partir de la ecuación (1) como

Pérdida tangente

La pérdida tangente [11] se puede generar usando (2) y la Tabla I de la siguiente manera

La pérdida tangente es casi convexa y está limitada a valores negativos grandes, lo que la hace menos sensible a los valores atípicos. Curiosamente, la pérdida tangente también asigna una penalización limitada a los puntos de datos que se han clasificado "demasiado correctamente". Esto puede ayudar a evitar el sobreentrenamiento en el conjunto de datos. La pérdida tangente se ha utilizado en el aumento de gradiente , el algoritmo TangentBoost y los bosques de decisión alterna. [12]

El minimizador de para la función de pérdida tangente se puede encontrar directamente en la ecuación (1) como

Pérdida de bisagra

La función de pérdida de bisagra se define con , donde es la función de parte positiva .

La pérdida de bisagra proporciona un límite superior convexo relativamente estrecho en la función del indicador 0-1 . Específicamente, la pérdida de bisagra es igual a la función del indicador 0-1 cuando y . Además, la minimización empírica del riesgo de esta pérdida es equivalente a la formulación clásica para máquinas de vectores de soporte (SVM). Los puntos correctamente clasificados que se encuentran fuera de los límites del margen de los vectores de soporte no se penalizan, mientras que los puntos dentro de los límites del margen o en el lado incorrecto del hiperplano se penalizan de forma lineal en comparación con su distancia desde el límite correcto. [4]

Si bien la función de pérdida de bisagra es convexa y continua, no es uniforme (no es diferenciable) en . En consecuencia, la función de pérdida de bisagra no se puede utilizar con métodos de descenso de gradiente o métodos de descenso de gradiente estocásticos que se basan en la diferenciabilidad en todo el dominio. Sin embargo, la pérdida de bisagra tiene un subgradiente , lo que permite la utilización de métodos de descenso subgradiente . [4] Las SVM que utilizan la función de pérdida de bisagra también se pueden resolver mediante programación cuadrática .

El minimizador de para la función de pérdida de bisagra es

cuando , que coincide con el de la función del indicador 0–1. Esta conclusión hace que la pérdida bisagra sea bastante atractiva, ya que se pueden establecer límites a la diferencia entre el riesgo esperado y el signo de la función de pérdida bisagra. [1] La pérdida de bisagra no se puede derivar de (2) ya que no es invertible.

Pérdida generalizada de bisagra suave

La función de pérdida de bisagra suave generalizada con parámetro se define como

dónde

Aumenta monótonamente y llega a 0 cuando .

Ver también

Referencias

  1. ^ abcd Rosasco, L.; De Vito, ED; Caponnetto, A.; Piana, M.; Verri, A. (2004). "¿Son todas las funciones de pérdida iguales?" (PDF) . Computación neuronal . 16 (5): 1063–1076. CiteSeerX  10.1.1.109.6786 . doi :10.1162/089976604773135104. PMID  15070510. S2CID  11845688.
  2. ^ Shen, Yi (2005), Funciones de pérdida para clasificación binaria y estimación de probabilidad de clase (PDF) , Universidad de Pensilvania , consultado el 6 de diciembre de 2014
  3. ^ abc Rosasco, Lorenzo; Poggio, Tomaso (2014), Un recorrido por la regularización del aprendizaje automático , MIT-9.520 Lectures Notes, vol. Manuscrito
  4. ^ abc Piyush, Rai (13 de septiembre de 2011), Máquinas de vectores de soporte (cont.), Regularizadores y funciones de pérdida de clasificación (PDF) , Utah CS5350/6350: aprendizaje automático , consultado el 4 de mayo de 2021
  5. ^ Ramanan, Deva (27 de febrero de 2008), Conferencia 14 (PDF) , UCI ICS273A: Aprendizaje automático , consultado el 6 de diciembre de 2014
  6. ^ Bartlett, Peter L.; Jordán, Michael I.; Mcauliffe, Jon D. (2006). "Convexidad, clasificación y límites de riesgo". Revista de la Asociación Estadounidense de Estadística . 101 (473): 138-156. doi :10.1198/016214505000000907. ISSN  0162-1459. JSTOR  30047445. S2CID  2833811.
  7. ^ abc Masnadi-Shirazi, Hamed; Vasconcelos, Nuño (2008). "Sobre el diseño de funciones de pérdida para la clasificación: teoría, robustez frente a valores atípicos y SavageBoost" (PDF) . Actas de la XXI Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural . NIPS'08. Estados Unidos: Curran Associates Inc.: 1049–1056. ISBN 9781605609492.
  8. ^ Leistner, C.; Saffari, A.; Roth, PM; Bischof, H. (septiembre de 2009). "Sobre la solidez del impulso en línea: un estudio competitivo". 2009 IEEE 12ª Conferencia Internacional sobre Talleres de Visión por Computadora, Talleres ICCV . págs. 1362-1369. doi :10.1109/ICCVW.2009.5457451. ISBN 978-1-4244-4442-7. S2CID  6032045.
  9. ^ Vasconcelos, Nuño; Masnadi-Shirazi, Hamed (2015). "Una visión de las pérdidas de márgenes como regularizadores de estimaciones de probabilidad". Revista de investigación sobre aprendizaje automático . 16 (85): 2751–2795. ISSN  1533-7928.
  10. ^ Rifkin, Ryan M.; Lippert, Ross A. (1 de mayo de 2007), Notas sobre mínimos cuadrados regularizados (PDF) , Laboratorio de Inteligencia Artificial y Ciencias de la Computación del MIT
  11. ^ Masnadi-Shirazi, H.; Mahadevan, V.; Vasconcelos, N. (junio de 2010). "Sobre el diseño de clasificadores robustos para visión por computadora". Conferencia de la IEEE Computer Society de 2010 sobre visión por computadora y reconocimiento de patrones . págs. 779–786. CiteSeerX 10.1.1.172.6416 . doi :10.1109/CVPR.2010.5540136. ISBN  978-1-4244-6984-0. S2CID  632758.
  12. ^ Schulter, S.; Wohlhart, P.; Leistner, C.; Saffari, A.; Roth, PM; Bischof, H. (junio de 2013). "Bosques de decisión alterna". Conferencia IEEE 2013 sobre visión por computadora y reconocimiento de patrones . págs. 508–515. CiteSeerX 10.1.1.301.1305 . doi :10.1109/CVPR.2013.72. ISBN  978-0-7695-4989-7. S2CID  6557162.