Pérdida de Huber

En estadística , la pérdida de Huber es una función de pérdida que se utiliza en la regresión robusta y que es menos sensible a los valores atípicos en los datos que la pérdida por error al cuadrado . A veces también se utiliza una variante para la clasificación.

Definición

La función de pérdida de Huber describe la penalización incurrida por un procedimiento de estimación $f$ . Huber (1964) define la función de pérdida por partes mediante ^[1]

L_{\delta }(a)={\begin{cases}{\frac {1}{2}}{a^{2}}&{\text{para }}|a|\leq \delta ,\\\delta \cdot \left(|a|-{\frac {1}{2}}\delta \right),&{\text{en caso contrario.}}\end{cases}}

Esta función es cuadrática para valores pequeños de $a$ , y lineal para valores grandes, con valores y pendientes iguales de las diferentes secciones en los dos puntos donde . La variable $a$ a menudo se refiere a los residuos, es decir, a la diferencia entre los valores observados y predichos , por lo que la primera se puede expandir a ^[2] $|a|=\delta$ $a=yf(x)$

L_{\delta }(y,f(x))={\begin{cases}{\frac {1}{2}}(yf(x))^{2}&{\text{para }}|yf(x)|\leq \delta ,\\\delta \ \cdot \left(|yf(x)|-{\frac {1}{2}}\delta \right),&{\text{en caso contrario.}}\end{cases}}

La pérdida de Huber es la convolución de la función de valor absoluto con la función rectangular , escalada y trasladada. Por lo tanto, "suaviza" el vértice de la primera en el origen.

Motivación

Dos funciones de pérdida muy utilizadas son la pérdida al cuadrado , , y la pérdida absoluta , . La función de pérdida al cuadrado da como resultado un estimador insesgado de media aritmética , y la función de pérdida de valor absoluto da como resultado un estimador insesgado de mediana (en el caso unidimensional, y un estimador insesgado de mediana geométrica para el caso multidimensional). La pérdida al cuadrado tiene la desventaja de que tiende a estar dominada por valores atípicos: cuando se suma sobre un conjunto de s (como en ), la media de la muestra está demasiado influenciada por unos pocos valores particularmente grandes cuando la distribución es de cola pesada: en términos de la teoría de la estimación , la eficiencia relativa asintótica de la media es pobre para distribuciones de cola pesada. $L(a)=a^{2}$ $L(a)=|a|$ ${\estilo de visualización a}$ ${\textstyle \sum _ {i=1}^{n}L(a_{i})}$ ${\estilo de visualización a}$

Como se definió anteriormente, la función de pérdida de Huber es fuertemente convexa en un entorno uniforme de su mínimo ; en el límite de este entorno uniforme, la función de pérdida de Huber tiene una extensión diferenciable a una función afín en los puntos y . Estas propiedades le permiten combinar gran parte de la sensibilidad del estimador de varianza mínima y sin sesgo de media (usando la función de pérdida cuadrática) y la robustez del estimador sin sesgo de mediana (usando la función de valor absoluto). ${\estilo de visualización a=0}$ $a=-\delta$ $a=\delta$

Función de pérdida pseudo-Huber

La función de pérdida pseudo-Huber se puede utilizar como una aproximación suave de la función de pérdida de Huber. Combina las mejores propiedades de la pérdida al cuadrado L2 y la pérdida absoluta L1 al ser fuertemente convexa cuando está cerca del objetivo/mínimo y menos pronunciada para valores extremos. La escala en la que la función de pérdida pseudo-Huber pasa de pérdida L2 para valores cercanos al mínimo a pérdida L1 para valores extremos y la pendiente en valores extremos se puede controlar mediante el valor. La función de pérdida pseudo-Huber garantiza que las derivadas sean continuas para todos los grados. Se define como ^[3]^[4] ${\estilo de visualización \delta}$

L_{\delta }(a)=\delta ^{2}\left({\sqrt {1+(a/\delta )^{2}}}-1\right).

Como tal, esta función se aproxima a valores pequeños de , y se aproxima a una línea recta con pendiente para valores grandes de . $estilo de visualización a^{2}/2$ ${\estilo de visualización a}$ ${\estilo de visualización \delta}$ ${\estilo de visualización a}$

Si bien la anterior es la forma más común, también existen otras aproximaciones suaves de la función de pérdida de Huber. ^[5]

Variante para clasificación

Para fines de clasificación , a veces se utiliza una variante de la pérdida de Huber denominada Huber modificado . Dada una predicción (una puntuación de clasificador de valor real) y una etiqueta de clase binaria verdadera , la pérdida de Huber modificada se define como ^[6] ${\estilo de visualización f(x)}$ $y\en \{+1,-1\}$

L(y,f(x))={\begin{cases}\max(0,1-y\,f(x))^{2}&{\textrm {para}}\,\,y\,f(x)>-1,\\-4y\,f(x)&{\textrm {en caso contrario.}}\end{cases}}

El término es pérdida de bisagra utilizada por las máquinas de vectores de soporte ; la pérdida de bisagra suavizada cuadráticamente es una generalización de . ^[6] $\max(0,1-y\,f(x))$ ${\estilo de visualización L}$

Aplicaciones

La función de pérdida de Huber se utiliza en estadísticas robustas , estimación M y modelado aditivo . ^[7]

Véase también

Referencias

^ Huber, Peter J. (1964). "Estimación robusta de un parámetro de ubicación". Anales de estadística . 53 (1): 73–101. doi : 10.1214/aoms/1177703732 . JSTOR 2238020.
^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). Los elementos del aprendizaje estadístico. p. 349. Archivado desde el original el 26 de enero de 2015.En comparación con Hastie et al. , la pérdida se escala por un factor de ⁠1/2⁠ , para ser coherente con la definición original de Huber dada anteriormente.
^ Charbonnier, P.; Blanc-Féraud, L .; Aubert, G.; Barlaud, M. (1997). "Regularización determinista que preserva los bordes en imágenes computarizadas". IEEE Trans. Image Process . 6 (2): 298–311. Bibcode :1997ITIP....6..298C. CiteSeerX 10.1.1.64.7521 . doi :10.1109/83.551699. PMID 18282924.
^ Hartley, R.; Zisserman, A. (2003). Geometría de vista múltiple en visión artificial (2.ª ed.). Cambridge University Press. pág. 619. ISBN 978-0-521-54051-3.
^ Lange, K. (1990). "Convergencia de algoritmos de reconstrucción de imágenes con suavizado de Gibbs". IEEE Trans. Med. Imaging . 9 (4): 439–446. doi :10.1109/42.61759. PMID 18222791.
^ ab Zhang, Tong (2004). Solución de problemas de predicción lineal a gran escala utilizando algoritmos de descenso de gradiente estocástico. ICML.
^ Friedman, JH (2001). "Aproximación de función voraz: una máquina de aumento de gradiente". Anales de estadística . 26 (5): 1189–1232. doi : 10.1214/aos/1013203451 . JSTOR 2699986.