stringtranslate.com

Pérdida de Huber

En estadística , la pérdida de Huber es una función de pérdida que se utiliza en la regresión robusta y que es menos sensible a los valores atípicos en los datos que la pérdida por error al cuadrado . A veces también se utiliza una variante para la clasificación.

Definición

Pérdida de Huber (verde, ) y pérdida de error al cuadrado (azul) en función de

La función de pérdida de Huber describe la penalización incurrida por un procedimiento de estimación f . Huber (1964) define la función de pérdida por partes mediante [1]

Esta función es cuadrática para valores pequeños de a , y lineal para valores grandes, con valores y pendientes iguales de las diferentes secciones en los dos puntos donde . La variable a a menudo se refiere a los residuos, es decir, a la diferencia entre los valores observados y predichos , por lo que la primera se puede expandir a [2]

La pérdida de Huber es la convolución de la función de valor absoluto con la función rectangular , escalada y trasladada. Por lo tanto, "suaviza" el vértice de la primera en el origen.

Comparación de la pérdida de Huber con otras funciones de pérdida utilizadas para regresión robusta.

Motivación

Dos funciones de pérdida muy utilizadas son la pérdida al cuadrado , , y la pérdida absoluta , . La función de pérdida al cuadrado da como resultado un estimador insesgado de media aritmética , y la función de pérdida de valor absoluto da como resultado un estimador insesgado de mediana (en el caso unidimensional, y un estimador insesgado de mediana geométrica para el caso multidimensional). La pérdida al cuadrado tiene la desventaja de que tiende a estar dominada por valores atípicos: cuando se suma sobre un conjunto de s (como en ), la media de la muestra está demasiado influenciada por unos pocos valores particularmente grandes cuando la distribución es de cola pesada: en términos de la teoría de la estimación , la eficiencia relativa asintótica de la media es pobre para distribuciones de cola pesada.

Como se definió anteriormente, la función de pérdida de Huber es fuertemente convexa en un entorno uniforme de su mínimo ; en el límite de este entorno uniforme, la función de pérdida de Huber tiene una extensión diferenciable a una función afín en los puntos y . Estas propiedades le permiten combinar gran parte de la sensibilidad del estimador de varianza mínima y sin sesgo de media (usando la función de pérdida cuadrática) y la robustez del estimador sin sesgo de mediana (usando la función de valor absoluto).

Función de pérdida pseudo-Huber

La función de pérdida pseudo-Huber se puede utilizar como una aproximación suave de la función de pérdida de Huber. Combina las mejores propiedades de la pérdida al cuadrado L2 y la pérdida absoluta L1 al ser fuertemente convexa cuando está cerca del objetivo/mínimo y menos pronunciada para valores extremos. La escala en la que la función de pérdida pseudo-Huber pasa de pérdida L2 para valores cercanos al mínimo a pérdida L1 para valores extremos y la pendiente en valores extremos se puede controlar mediante el valor. La función de pérdida pseudo-Huber garantiza que las derivadas sean continuas para todos los grados. Se define como [3] [4]

Como tal, esta función se aproxima a valores pequeños de , y se aproxima a una línea recta con pendiente para valores grandes de .

Si bien la anterior es la forma más común, también existen otras aproximaciones suaves de la función de pérdida de Huber. [5]

Variante para clasificación

Para fines de clasificación , a veces se utiliza una variante de la pérdida de Huber denominada Huber modificado . Dada una predicción (una puntuación de clasificador de valor real) y una etiqueta de clase binaria verdadera , la pérdida de Huber modificada se define como [6]

El término es pérdida de bisagra utilizada por las máquinas de vectores de soporte ; la pérdida de bisagra suavizada cuadráticamente es una generalización de . [6]

Aplicaciones

La función de pérdida de Huber se utiliza en estadísticas robustas , estimación M y modelado aditivo . [7]

Véase también

Referencias

  1. ^ Huber, Peter J. (1964). "Estimación robusta de un parámetro de ubicación". Anales de estadística . 53 (1): 73–101. doi : 10.1214/aoms/1177703732 . JSTOR  2238020.
  2. ^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). Los elementos del aprendizaje estadístico. p. 349. Archivado desde el original el 26 de enero de 2015.En comparación con Hastie et al. , la pérdida se escala por un factor de 1/2 , para ser coherente con la definición original de Huber dada anteriormente.
  3. ^ Charbonnier, P.; Blanc-Féraud, L .; Aubert, G.; Barlaud, M. (1997). "Regularización determinista que preserva los bordes en imágenes computarizadas". IEEE Trans. Image Process . 6 (2): 298–311. Bibcode :1997ITIP....6..298C. CiteSeerX 10.1.1.64.7521 . doi :10.1109/83.551699. PMID  18282924. 
  4. ^ Hartley, R.; Zisserman, A. (2003). Geometría de vista múltiple en visión artificial (2.ª ed.). Cambridge University Press. pág. 619. ISBN 978-0-521-54051-3.
  5. ^ Lange, K. (1990). "Convergencia de algoritmos de reconstrucción de imágenes con suavizado de Gibbs". IEEE Trans. Med. Imaging . 9 (4): 439–446. doi :10.1109/42.61759. PMID  18222791.
  6. ^ ab Zhang, Tong (2004). Solución de problemas de predicción lineal a gran escala utilizando algoritmos de descenso de gradiente estocástico. ICML.
  7. ^ Friedman, JH (2001). "Aproximación de función voraz: una máquina de aumento de gradiente". Anales de estadística . 26 (5): 1189–1232. doi : 10.1214/aos/1013203451 . JSTOR  2699986.