En el aprendizaje automático y la optimización matemática , las funciones de pérdida para la clasificación son funciones de pérdida computacionalmente factibles que representan el precio que se paga por la inexactitud de las predicciones en los problemas de clasificación (problemas de identificar a qué categoría pertenece una observación particular). [1] Dado como el espacio de todas las entradas posibles (generalmente ), y como el conjunto de etiquetas (salidas posibles), un objetivo típico de los algoritmos de clasificación es encontrar una función que prediga mejor una etiqueta para una entrada dada . [2] Sin embargo, debido a la información incompleta, el ruido en la medición o los componentes probabilísticos en el proceso subyacente, es posible que lo mismo genere diferentes . [3] Como resultado, el objetivo del problema de aprendizaje es minimizar la pérdida esperada (también conocida como riesgo), definida como
donde es una función de pérdida dada, y es la función de densidad de probabilidad del proceso que generó los datos, que puede escribirse de manera equivalente como
Dentro de la clasificación, varias funciones de pérdida de uso común se escriben únicamente en términos del producto de la etiqueta verdadera y la etiqueta predicha . Por lo tanto, se pueden definir como funciones de una sola variable , de modo que con una función elegida adecuadamente . Estas se denominan funciones de pérdida basadas en márgenes . Elegir una función de pérdida basada en márgenes equivale a elegir . La selección de una función de pérdida dentro de este marco afecta al óptimo que minimiza el riesgo esperado, consulte minimización de riesgo empírico .
En el caso de la clasificación binaria, es posible simplificar el cálculo del riesgo esperado a partir de la integral especificada anteriormente. En concreto,
La segunda igualdad se deriva de las propiedades descritas anteriormente. La tercera igualdad se deriva del hecho de que 1 y −1 son los únicos valores posibles para , y la cuarta porque . El término entre corchetes se conoce como riesgo condicional.
Se puede resolver el minimizador de tomando la derivada funcional de la última igualdad con respecto a y estableciendo la derivada igual a 0. Esto dará como resultado la siguiente ecuación
donde , lo que también equivale a establecer la derivada del riesgo condicional igual a cero.
Dada la naturaleza binaria de la clasificación, una selección natural para una función de pérdida (asumiendo un costo igual para los falsos positivos y los falsos negativos ) sería la función de pérdida 0-1 ( función indicadora 0–1 ), que toma el valor de 0 si la clasificación predicha es igual a la de la clase verdadera o 1 si la clasificación predicha no coincide con la clase verdadera. Esta selección está modelada por
donde indica la función de paso de Heaviside . Sin embargo, esta función de pérdida no es convexa ni suave, y la solución óptima es un problema de optimización combinatoria NP-hard . [4] Como resultado, es mejor sustituir los sustitutos de la función de pérdida que son manejables para los algoritmos de aprendizaje de uso común, ya que tienen propiedades convenientes como ser convexos y suaves. Además de su manejabilidad computacional, se puede demostrar que las soluciones al problema de aprendizaje utilizando estos sustitutos de pérdida permiten la recuperación de la solución real al problema de clasificación original. [5] Algunos de estos sustitutos se describen a continuación.
Utilizando el teorema de Bayes , se puede demostrar que el óptimo , es decir, el que minimiza el riesgo esperado asociado con la pérdida cero-uno, implementa la regla de decisión óptima de Bayes para un problema de clasificación binaria y tiene la forma de
.
Se dice que una función de pérdida está calibrada para la clasificación o es consistente con Bayes si su valor óptimo es tal que y, por lo tanto, es óptima según la regla de decisión de Bayes. Una función de pérdida consistente con Bayes nos permite encontrar la función de decisión óptima de Bayes al minimizar directamente el riesgo esperado y sin tener que modelar explícitamente las funciones de densidad de probabilidad.
Para la pérdida de margen convexa , se puede demostrar que es consistente con Bayes si y solo si es diferenciable en 0 y . [6] [1] Sin embargo, este resultado no excluye la existencia de funciones de pérdida consistentes con Bayes no convexas. Un resultado más general establece que las funciones de pérdida consistentes con Bayes se pueden generar utilizando la siguiente formulación [7]
,
donde es cualquier función invertible tal que y es cualquier función estrictamente cóncava diferenciable tal que . La Tabla I muestra las funciones de pérdida consistentes de Bayes generadas para algunas opciones de ejemplo de y . Tenga en cuenta que la pérdida de Savage y Tangent no son convexas. Se ha demostrado que tales funciones de pérdida no convexas son útiles para tratar con valores atípicos en la clasificación. [7] [8] Para todas las funciones de pérdida generadas a partir de (2), la probabilidad posterior se puede encontrar utilizando la función de enlace invertible como . Dichas funciones de pérdida donde la probabilidad posterior se puede recuperar utilizando el enlace invertible se denominan funciones de pérdida propias .
El único minimizador del riesgo esperado, , asociado con las funciones de pérdida generadas anteriormente se puede encontrar directamente a partir de la ecuación (1) y se puede demostrar que es igual al . Esto se aplica incluso a las funciones de pérdida no convexas, lo que significa que se pueden utilizar algoritmos basados en el descenso de gradiente, como el aumento de gradiente, para construir el minimizador.
Funciones de pérdida adecuadas, margen de pérdida y regularización
Para funciones de pérdida adecuadas, el margen de pérdida se puede definir como y se muestra que está directamente relacionado con las propiedades de regularización del clasificador. [9] Específicamente, una función de pérdida de margen mayor aumenta la regularización y produce mejores estimaciones de la probabilidad posterior. Por ejemplo, el margen de pérdida se puede aumentar para la pérdida logística introduciendo un parámetro y escribiendo la pérdida logística como donde menor aumenta el margen de la pérdida. Se muestra que esto es directamente equivalente a disminuir la tasa de aprendizaje en el refuerzo de gradiente donde la disminución mejora la regularización del clasificador reforzado. La teoría deja en claro que cuando se utiliza una tasa de aprendizaje de, la fórmula correcta para recuperar la probabilidad posterior es ahora .
En conclusión, al elegir una función de pérdida con mayor margen (menor ) aumentamos la regularización y mejoramos nuestras estimaciones de la probabilidad posterior, lo que a su vez mejora la curva ROC del clasificador final.
Pérdida cuadrada
Aunque se utiliza más comúnmente en regresión, la función de pérdida cuadrática se puede reescribir como una función y utilizarla para la clasificación. Se puede generar utilizando (2) y la Tabla I de la siguiente manera
La función de pérdida cuadrada es a la vez convexa y suave. Sin embargo, la función de pérdida cuadrada tiende a penalizar excesivamente los valores atípicos, lo que lleva a tasas de convergencia más lentas (con respecto a la complejidad de la muestra) que para las funciones de pérdida logística o de pérdida de bisagra. [1] Además, las funciones que arrojan valores altos de para algunos tendrán un rendimiento deficiente con la función de pérdida cuadrada, ya que los valores altos de serán penalizados severamente, independientemente de si los signos de y coinciden.
El minimizador de la función de pérdida cuadrada se puede encontrar directamente a partir de la ecuación (1) como
Pérdida logística
La función de pérdida logística se puede generar utilizando (2) y la Tabla I de la siguiente manera
La pérdida logística es convexa y crece linealmente para valores negativos, lo que la hace menos sensible a los valores atípicos. La pérdida logística se utiliza en el algoritmo LogitBoost .
El minimizador de la función de pérdida logística se puede encontrar directamente a partir de la ecuación (1) como
Esta función no está definida cuando o (tiende hacia ∞ y −∞ respectivamente), pero predice una curva suave que crece cuando aumenta y es igual a 0 cuando . [3]
Es fácil comprobar que la pérdida logística y la pérdida de entropía cruzada binaria (pérdida logarítmica) son, de hecho, las mismas (hasta una constante multiplicativa ). La pérdida de entropía cruzada está estrechamente relacionada con la divergencia de Kullback-Leibler entre la distribución empírica y la distribución predicha. La pérdida de entropía cruzada es omnipresente en las redes neuronales profundas modernas .
Pérdida exponencial
La función de pérdida exponencial se puede generar utilizando (2) y la Tabla I de la siguiente manera
La pérdida exponencial es convexa y crece exponencialmente para valores negativos, lo que la hace más sensible a los valores atípicos. La pérdida exponencial ponderada de 0 a 1 se utiliza en el algoritmo AdaBoost, lo que da lugar implícitamente a la pérdida exponencial.
El minimizador de la función de pérdida exponencial se puede encontrar directamente a partir de la ecuación (1) como
Pérdida salvaje
La pérdida de Savage [7] se puede generar utilizando (2) y la Tabla I de la siguiente manera
La pérdida de Savage es cuasi convexa y está limitada a valores negativos grandes, lo que la hace menos sensible a los valores atípicos. La pérdida de Savage se ha utilizado en el aumento de gradiente y en el algoritmo SavageBoost.
El minimizador de la función de pérdida de Savage se puede encontrar directamente a partir de la ecuación (1) como
Pérdida de tangente
La pérdida tangente [11] se puede generar utilizando (2) y la Tabla I de la siguiente manera
La pérdida tangente es cuasi convexa y está limitada para valores negativos grandes, lo que la hace menos sensible a los valores atípicos. Curiosamente, la pérdida tangente también asigna una penalización limitada a los puntos de datos que se han clasificado "demasiado correctamente". Esto puede ayudar a evitar el sobreentrenamiento en el conjunto de datos. La pérdida tangente se ha utilizado en el aumento de gradiente , el algoritmo TangentBoost y los bosques de decisión alternados. [12]
El minimizador de la función de pérdida tangente se puede encontrar directamente a partir de la ecuación (1) como
Pérdida de bisagra
La función de pérdida de bisagra se define con , donde es la función de la parte positiva .
La pérdida de bisagra proporciona un límite superior convexo relativamente ajustado en la función indicadora 0-1 . Específicamente, la pérdida de bisagra es igual a la función indicadora 0-1 cuando y . Además, la minimización del riesgo empírico de esta pérdida es equivalente a la formulación clásica para las máquinas de vectores de soporte (SVM). Los puntos clasificados correctamente que se encuentran fuera de los límites marginales de los vectores de soporte no son penalizados, mientras que los puntos dentro de los límites marginales o en el lado incorrecto del hiperplano son penalizados de manera lineal en comparación con su distancia desde el límite correcto. [4]
Si bien la función de pérdida de bisagra es convexa y continua, no es suave (no es diferenciable) en . En consecuencia, la función de pérdida de bisagra no se puede utilizar con métodos de descenso de gradiente o métodos de descenso de gradiente estocástico que se basan en la diferenciabilidad en todo el dominio. Sin embargo, la pérdida de bisagra tiene un subgradiente en , lo que permite la utilización de métodos de descenso de subgradiente . [4] Las SVM que utilizan la función de pérdida de bisagra también se pueden resolver utilizando programación cuadrática .
El minimizador de la función de pérdida de bisagra es
cuando , que coincide con el de la función indicadora 0–1. Esta conclusión hace que la pérdida de bisagra sea bastante atractiva, ya que se pueden establecer límites en la diferencia entre el riesgo esperado y el signo de la función de pérdida de bisagra. [1] La pérdida de bisagra no se puede derivar de (2) ya que no es invertible.
Pérdida generalizada de la bisagra lisa
La función de pérdida de bisagra suave generalizada con parámetro se define como
^ abcd Rosasco, L.; De Vito, ED; Caponnetto, A.; Piana, M.; Verri, A. (2004). "¿Son todas las funciones de pérdida iguales?" (PDF) . Computación neuronal . 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786 . doi :10.1162/089976604773135104. PMID 15070510. S2CID 11845688.
^ Shen, Yi (2005), Funciones de pérdida para la clasificación binaria y la estimación de probabilidad de clase (PDF) , Universidad de Pensilvania , consultado el 6 de diciembre de 2014
^ abc Rosasco, Lorenzo; Poggio, Tomaso (2014), Un recorrido de regularización del aprendizaje automático , MIT-9.520 Lectures Notes, vol. Manuscrito
^ abc Piyush, Rai (13 de septiembre de 2011), Support Vector Machines (Continuación), Classification Loss Functions and Regularizers (PDF) , Utah CS5350/6350: Machine Learning , consultado el 4 de mayo de 2021
^ Ramanan, Deva (27 de febrero de 2008), Conferencia 14 (PDF) , UCI ICS273A: Machine Learning , consultado el 6 de diciembre de 2014
^ Bartlett, Peter L.; Jordan, Michael I.; Mcauliffe, Jon D. (2006). "Convexidad, clasificación y límites de riesgo". Revista de la Asociación Estadounidense de Estadística . 101 (473): 138–156. doi :10.1198/016214505000000907. ISSN 0162-1459. JSTOR 30047445. S2CID 2833811.
^ abc Masnadi-Shirazi, Hamed; Vasconcelos, Nuno (2008). "Sobre el diseño de funciones de pérdida para la clasificación: teoría, robustez ante valores atípicos y SavageBoost" (PDF) . Actas de la 21.ª Conferencia internacional sobre sistemas de procesamiento de información neuronal . NIPS'08. EE. UU.: Curran Associates Inc.: 1049–1056. ISBN9781605609492.
^ Leistner, C.; Saffari, A.; Roth, PM; Bischof, H. (septiembre de 2009). "Sobre la solidez del boosting en línea: un estudio competitivo". Talleres de la 12.ª Conferencia Internacional sobre Visión por Computador del IEEE de 2009, Talleres del ICCV . págs. 1362–1369. doi :10.1109/ICCVW.2009.5457451. ISBN.978-1-4244-4442-7.S2CID6032045 .
^ Vasconcelos, Nuno; Masnadi-Shirazi, Hamed (2015). "Una visión de las pérdidas de margen como regularizadores de estimaciones de probabilidad". Revista de investigación en aprendizaje automático . 16 (85): 2751–2795. ISSN 1533-7928.
^ Rifkin, Ryan M.; Lippert, Ross A. (1 de mayo de 2007), Notas sobre mínimos cuadrados regularizados (PDF) , Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT
^ Masnadi-Shirazi, H.; Mahadevan, V.; Vasconcelos, N. (junio de 2010). "Sobre el diseño de clasificadores robustos para visión artificial". Conferencia de la IEEE Computer Society sobre visión artificial y reconocimiento de patrones de 2010. págs. 779–786. CiteSeerX 10.1.1.172.6416 . doi :10.1109/CVPR.2010.5540136. ISBN .978-1-4244-6984-0.S2CID632758 .
^ Schulter, S.; Wohlhart, P.; Leistner, C.; Saffari, A.; Roth, PM; Bischof, H. (junio de 2013). "Bosques de decisión alternados". Conferencia IEEE de 2013 sobre visión artificial y reconocimiento de patrones . págs. 508–515. CiteSeerX 10.1.1.301.1305 . doi :10.1109/CVPR.2013.72. ISBN .978-0-7695-4989-7.S2CID6557162 .