stringtranslate.com

Aumento de gradiente

El boosting de gradiente es una técnica de aprendizaje automático basada en el boosting en un espacio funcional, donde el objetivo son pseudo-residuales en lugar de los residuos típicos utilizados en el boosting tradicional. Proporciona un modelo de predicción en forma de un conjunto de modelos de predicción débiles, es decir, modelos que hacen muy pocas suposiciones sobre los datos, que normalmente son árboles de decisión simples . [1] [2] Cuando un árbol de decisión es el aprendiz débil, el algoritmo resultante se llama árboles potenciados por gradiente; normalmente supera al bosque aleatorio . [1] Un modelo de árboles potenciados por gradiente se construye de forma escalonada como en otros métodos de boosting , pero generaliza los otros métodos al permitir la optimización de una función de pérdida diferenciable arbitraria .

Historia

La idea del boosting de gradiente se originó en la observación de Leo Breiman de que el boosting puede interpretarse como un algoritmo de optimización en una función de costo adecuada. [3] Los algoritmos de boosting de gradiente de regresión explícita fueron desarrollados posteriormente, por Jerome H. Friedman , [4] [2] (en 1999 y más tarde en 2001) simultáneamente con la perspectiva de boosting de gradiente funcional más general de Llew Mason, Jonathan Baxter, Peter Bartlett y Marcus Frean. [5] [6] Los últimos dos artículos introdujeron la visión de los algoritmos de boosting como algoritmos iterativos de descenso de gradiente funcional . Es decir, algoritmos que optimizan una función de costo sobre el espacio de funciones eligiendo iterativamente una función (hipótesis débil) que apunta en la dirección del gradiente negativo. Esta visión de gradiente funcional del boosting ha llevado al desarrollo de algoritmos de boosting en muchas áreas del aprendizaje automático y las estadísticas más allá de la regresión y la clasificación.

Introducción informal

(Esta sección sigue la exposición del aumento de gradiente de Cheng Li. [7] )

Al igual que otros métodos de refuerzo, el refuerzo de gradiente combina "aprendices" débiles en un único aprendiz fuerte de manera iterativa. Es más fácil de explicar en el contexto de la regresión de mínimos cuadrados , donde el objetivo es "enseñar" a un modelo a predecir valores de la forma minimizando el error cuadrático medio , donde los índices sobre un conjunto de entrenamiento de tamaño de los valores reales de la variable de salida :

Ahora, consideremos un algoritmo de potenciación de gradiente con etapas. En cada etapa ( ) de potenciación de gradiente, supongamos un modelo imperfecto (para valores bajos , este modelo puede simplemente devolver , donde el lado derecho es la media de ). Para mejorar , nuestro algoritmo debería agregar un nuevo estimador, . Por lo tanto,

o, equivalentemente,

.

Por lo tanto, el aumento de gradiente se ajustará al residuo . Como en otras variantes de aumento, cada una intenta corregir los errores de su predecesora . Una generalización de esta idea a funciones de pérdida distintas del error cuadrático, y a problemas de clasificación y ranking , se desprende de la observación de que los residuos para un modelo dado son proporcionales a los gradientes negativos de la función de pérdida del error cuadrático medio (MSE) (con respecto a ):

.

Por lo tanto, el aumento de gradiente podría especializarse en un algoritmo de descenso de gradiente , y generalizarlo implica "incorporar" una pérdida diferente y su gradiente.

Algoritmo

En muchos problemas de aprendizaje supervisado hay una variable de salida y y un vector de variables de entrada x , relacionadas entre sí con alguna distribución probabilística. El objetivo es encontrar alguna función que se aproxime mejor a la variable de salida a partir de los valores de las variables de entrada. Esto se formaliza introduciendo una función de pérdida y minimizándola en la expectativa:

.

El método de potenciación de gradiente supone un valor real de y . Busca una aproximación en forma de una suma ponderada de funciones M de alguna clase , denominadas aprendices base (o débiles ):

.

Generalmente, se nos proporciona un conjunto de entrenamiento de valores de muestra conocidos de x y valores correspondientes de y . De acuerdo con el principio de minimización de riesgo empírico , el método intenta encontrar una aproximación que minimice el valor promedio de la función de pérdida en el conjunto de entrenamiento, es decir, minimice el riesgo empírico. Lo hace comenzando con un modelo, que consiste en una función constante , y lo expande de manera incremental de manera voraz :

,
,

para , donde es una función de aprendizaje base.

Lamentablemente, elegir la mejor función en cada paso para una función de pérdida arbitraria L es un problema de optimización computacionalmente inviable en general. Por lo tanto, limitamos nuestro enfoque a una versión simplificada del problema.

La idea es aplicar un paso de descenso más pronunciado a este problema de minimización (descenso de gradiente funcional).

La idea básica detrás del descenso más pronunciado es encontrar un mínimo local de la función de pérdida iterando sobre . De hecho, la dirección de descenso máximo local de la función de pérdida es el gradiente negativo. [8]

Por lo tanto, mover una pequeña cantidad de modo que la aproximación lineal siga siendo válida:

donde . Para , esto implica que .

Además, podemos optimizar encontrando el valor para el cual la función de pérdida tiene un mínimo:

Si consideramos el caso continuo, es decir, donde es el conjunto de funciones diferenciables arbitrarias en , actualizaríamos el modelo de acuerdo con las siguientes ecuaciones

donde es la longitud del paso, definida como Sin embargo, en el caso discreto, es decir, cuando el conjunto es finito [ aclaración necesaria ] , elegimos la función candidata h más cercana al gradiente de L para la cual el coeficiente γ puede calcularse con la ayuda de la búsqueda de línea en las ecuaciones anteriores. Tenga en cuenta que este enfoque es una heurística y, por lo tanto, no produce una solución exacta al problema dado, sino más bien una aproximación. En pseudocódigo, el método genérico de aumento de gradiente es: [4] [1]

Entrada: conjunto de entrenamiento una función de pérdida diferenciable número de iteraciones M.

Algoritmo:

  1. Inicializar el modelo con un valor constante:
  2. Para m = 1 a M :
    1. Calcular los denominados pseudo-residuales :
    2. Ajustar un aprendiz base (o aprendiz débil, por ejemplo, un árbol) cerrado bajo escalamiento a pseudo-residuales, es decir, entrenarlo utilizando el conjunto de entrenamiento .
    3. Calcule el multiplicador resolviendo el siguiente problema de optimización unidimensional:
    4. Actualizar el modelo:
  3. Producción

Impulso del árbol de gradiente

El aumento de gradiente se utiliza normalmente con árboles de decisión (especialmente CART ) de un tamaño fijo como aprendices base. Para este caso especial, Friedman propone una modificación del método de aumento de gradiente que mejora la calidad del ajuste de cada aprendiz base.

El aumento de gradiente genérico en el paso m -ésimo ajustaría un árbol de decisión a los pseudorresiduos. Sea el número de sus hojas. El árbol divide el espacio de entrada en regiones disjuntas y predice un valor constante en cada región. Usando la notación de indicador , la salida de para la entrada x se puede escribir como la suma:

donde es el valor predicho en la región . [9]

Luego, los coeficientes se multiplican por algún valor , elegido mediante búsqueda lineal para minimizar la función de pérdida, y el modelo se actualiza de la siguiente manera:

Friedman propone modificar este algoritmo para que elija un valor óptimo independiente para cada una de las regiones del árbol, en lugar de uno único para todo el árbol. Denomina al algoritmo modificado "TreeBoost". Los coeficientes del procedimiento de ajuste del árbol se pueden descartar y la regla de actualización del modelo se convierte en:

Tamaño de los árboles

, el número de nodos terminales en los árboles, es el parámetro del método que se puede ajustar para un conjunto de datos en cuestión. Controla el nivel máximo permitido de interacción entre las variables en el modelo. Con ( tocones de decisión ), no se permite interacción entre variables. Con el modelo se pueden incluir efectos de la interacción entre hasta dos variables, y así sucesivamente.

Hastie et al. [1] comentan que normalmente funcionan bien para potenciar y los resultados son bastante insensibles a la elección de este rango, es insuficiente para muchas aplicaciones y es poco probable que sea necesario.

Regularización

Ajustar demasiado el conjunto de entrenamiento puede provocar la degradación de la capacidad de generalización del modelo. Varias técnicas de regularización reducen este efecto de sobreajuste al limitar el procedimiento de ajuste.

Un parámetro de regularización natural es el número de iteraciones de aumento de gradiente M (es decir, el número de árboles en el modelo cuando el aprendiz base es un árbol de decisión). Aumentar M reduce el error en el conjunto de entrenamiento, pero establecerlo demasiado alto puede provocar un sobreajuste. A menudo se selecciona un valor óptimo de M monitoreando el error de predicción en un conjunto de datos de validación separado. Además de controlar M , se utilizan varias otras técnicas de regularización.

Otro parámetro de regularización es la profundidad de los árboles. Cuanto mayor sea este valor, mayor será la probabilidad de que el modelo se ajuste en exceso a los datos de entrenamiento.

Contracción

Una parte importante del método de aumento de gradiente es la regularización por contracción, que consiste en modificar la regla de actualización de la siguiente manera:

donde el parámetro se llama "tasa de aprendizaje".

Empíricamente, se ha descubierto que el uso de tasas de aprendizaje pequeñas (como ) produce mejoras espectaculares en la capacidad de generalización de los modelos en comparación con el aumento de gradiente sin contracción ( ). [1] Sin embargo, esto tiene el precio de aumentar el tiempo computacional tanto durante el entrenamiento como durante la consulta : una tasa de aprendizaje más baja requiere más iteraciones.

Aumento del gradiente estocástico

Poco después de la introducción del aumento de gradiente, Friedman propuso una modificación menor al algoritmo, motivada por el método de agregación bootstrap ("bagging") de Breiman . [2] Específicamente, propuso que en cada iteración del algoritmo, un aprendiz base debería ajustarse a una submuestra del conjunto de entrenamiento extraído al azar sin reemplazo. [10] Friedman observó una mejora sustancial en la precisión del aumento de gradiente con esta modificación.

El tamaño de la submuestra es una fracción constante del tamaño del conjunto de entrenamiento. Cuando , el algoritmo es determinista e idéntico al descrito anteriormente. Los valores más pequeños de introducen aleatoriedad en el algoritmo y ayudan a prevenir el sobreajuste , actuando como una especie de regularización . El algoritmo también se vuelve más rápido, porque los árboles de regresión deben ajustarse a conjuntos de datos más pequeños en cada iteración. Friedman [2] obtuvo que conduce a buenos resultados para conjuntos de entrenamiento de tamaño pequeño y moderado. Por lo tanto, normalmente se establece en 0,5, lo que significa que se utiliza la mitad del conjunto de entrenamiento para construir cada aprendiz base.

Además, al igual que en el bagging, el submuestreo permite definir un error out-of-bag de la mejora del rendimiento de la predicción mediante la evaluación de las predicciones en aquellas observaciones que no se utilizaron en la construcción del siguiente aprendiz base. Las estimaciones out-of-bag ayudan a evitar la necesidad de un conjunto de datos de validación independiente, pero a menudo subestiman la mejora real del rendimiento y el número óptimo de iteraciones. [11] [12]

Número de observaciones en hojas

Las implementaciones de potenciación de árboles de gradiente también suelen utilizar la regularización al limitar la cantidad mínima de observaciones en los nodos terminales de los árboles. Se utiliza en el proceso de creación de árboles al ignorar cualquier división que genere nodos que contengan menos que esta cantidad de instancias del conjunto de entrenamiento.

Imponer este límite ayuda a reducir la variación en las predicciones en las hojas.

Penalizar la complejidad del árbol

Otra técnica de regularización útil para árboles potenciados por gradiente es penalizar la complejidad del modelo aprendido. [13] La complejidad del modelo se puede definir como el número proporcional de hojas en los árboles aprendidos. La optimización conjunta de la pérdida y la complejidad del modelo corresponde a un algoritmo de pospoda para eliminar las ramas que no logran reducir la pérdida en un umbral. También se pueden agregar otros tipos de regularización, como una penalización en los valores de las hojas, para evitar el sobreajuste .

Uso

El aumento de gradiente se puede utilizar en el campo del aprendizaje para clasificar . Los motores de búsqueda web comerciales Yahoo [14] y Yandex [15] utilizan variantes del aumento de gradiente en sus motores de clasificación de aprendizaje automático. El aumento de gradiente también se utiliza en la física de alta energía en el análisis de datos. En el Gran Colisionador de Hadrones (LHC), las variantes de las redes neuronales profundas (DNN) con aumento de gradiente tuvieron éxito en la reproducción de los resultados de los métodos de análisis sin aprendizaje automático en los conjuntos de datos utilizados para descubrir el bosón de Higgs . [16] El árbol de decisiones con aumento de gradiente también se aplicó en estudios terrestres y geológicos, por ejemplo, la evaluación de la calidad de los yacimientos de arenisca. [17]

Nombres

El método tiene varios nombres. Friedman introdujo su técnica de regresión como una "máquina de refuerzo de gradiente" (GBM). [4] Mason, Baxter et al. describieron la clase abstracta generalizada de algoritmos como "reforzamiento de gradiente funcional". [5] [6] Friedman et al. describen un avance de los modelos reforzados por gradiente como árboles de regresión aditiva múltiple (MART); [18] Elith et al. describen ese enfoque como "árboles de regresión reforzados" (BRT). [19]

Una implementación popular de código abierto para R lo llama "Modelo de Impulso Generalizado", [11] sin embargo los paquetes que expanden este trabajo usan BRT. [20] Otro nombre es TreeNet, en honor a una implementación comercial temprana de Dan Steinberg de Salford System, uno de los investigadores que fueron pioneros en el uso de métodos basados ​​en árboles. [21]

Clasificación de importancia de las características

El aumento de gradiente se puede utilizar para la clasificación de importancia de las características, que generalmente se basa en la agregación de la función de importancia de los aprendices base. [22] Por ejemplo, si se desarrolla un algoritmo de árboles potenciados por gradiente utilizando árboles de decisión basados ​​en la entropía , el algoritmo de conjunto clasifica la importancia de las características también en función de la entropía con la salvedad de que se promedia sobre todos los aprendices base. [22] [1]

Desventajas

Si bien el boosting puede aumentar la precisión de un aprendiz base, como un árbol de decisión o una regresión lineal, sacrifica la inteligibilidad y la interpretabilidad . [22] [23] Por ejemplo, seguir el camino que toma un árbol de decisión para tomar su decisión es trivial y se explica por sí solo, pero seguir los caminos de cientos o miles de árboles es mucho más difícil. Para lograr tanto rendimiento como interpretabilidad, algunas técnicas de compresión de modelos permiten transformar un XGBoost en un solo árbol de decisión "nacido de nuevo" que se aproxima a la misma función de decisión. [24] Además, su implementación puede ser más difícil debido a la mayor demanda computacional.

Véase también

Referencias

  1. ^ abcdefHastie , T.; Tibshirani, R.; Friedman, JH (2009). "10. Árboles potenciadores y aditivos". Los elementos del aprendizaje estadístico (2ª ed.). Nueva York: Springer. págs. 337–384. ISBN 978-0-387-84857-0. Archivado desde el original el 10 de noviembre de 2009.
  2. ^ abcd Friedman, JH (marzo de 1999). "Stochastic Gradient Boosting" (PDF) . Archivado desde el original (PDF) el 2014-08-01 . Consultado el 2013-11-13 .
  3. ^ Breiman, L. (junio de 1997). "Arcing The Edge" (PDF) . Informe técnico 486. Departamento de Estadística, Universidad de California, Berkeley.
  4. ^ abc Friedman, JH (febrero de 1999). "Greedy Function Approximation: A Gradient Boosting Machine" (PDF) . Archivado desde el original (PDF) el 2019-11-01 . Consultado el 2018-08-27 .
  5. ^ ab Mason, L.; Baxter, J.; Bartlett, PL; Frean, Marcus (1999). "Algoritmos de refuerzo como descenso de gradiente" (PDF) . En SA Solla y TK Leen y K. Müller (ed.). Avances en sistemas de procesamiento de información neuronal 12 . MIT Press. págs. 512–518.
  6. ^ ab Mason, L.; Baxter, J.; Bartlett, PL; Frean, Marcus (mayo de 1999). "Algoritmos de refuerzo como descenso de gradiente en el espacio de funciones" (PDF) . Archivado desde el original (PDF) el 22 de diciembre de 2018.
  7. ^ Cheng Li. "Una introducción suave al aumento de gradiente" (PDF) .
  8. ^ Lambers, Jim (2011–2012). "El método del descenso más pronunciado" (PDF) .
  9. ^ Nota: en el caso de los árboles CART habituales, los árboles se ajustan utilizando pérdida de mínimos cuadrados y, por lo tanto, el coeficiente para la región es igual solo al valor de la variable de salida, promediado en todas las instancias de entrenamiento en .
  10. ^ Tenga en cuenta que esto es diferente del embolsado, que muestrea con reemplazo porque utiliza muestras del mismo tamaño que el conjunto de entrenamiento.
  11. ^ ab Ridgeway, Greg (2007). Modelos potenciados generalizados: una guía para el paquete gbm.
  12. ^ Aprenda el algoritmo de potenciación de gradiente para obtener mejores predicciones (con códigos en R)
  13. ^ Tianqi Chen. Introducción a los árboles potenciados
  14. ^ Cossock, David y Zhang, Tong (2008). Análisis estadístico de la clasificación óptima de subconjuntos de Bayes Archivado el 7 de agosto de 2010 en Wayback Machine , página 14.
  15. ^ Entrada del blog corporativo de Yandex sobre el nuevo modelo de clasificación "Snezhinsk" Archivado el 1 de marzo de 2012 en Wayback Machine (en ruso)
  16. ^ Lalchand, Vidhi (2020). "Extracción de más de árboles de decisión potenciados: un estudio de caso de física de alta energía". arXiv : 2001.06033 [stat.ML].
  17. ^ Ma, Longfei; Xiao, Hanmin; Tao, Jingwei; Zheng, Taiyi; Zhang, Haiqin (1 de enero de 2022). "Un enfoque inteligente para la evaluación de la calidad del yacimiento en un yacimiento de arenisca compacta utilizando un algoritmo de árbol de decisión de impulso de gradiente". Geociencias abiertas . 14 (1): 629–645. Bibcode :2022OGeo...14..354M. doi : 10.1515/geo-2022-0354 . ISSN  2391-5447.
  18. ^ Friedman, Jerome (2003). "Árboles de regresión aditiva múltiple con aplicación en epidemiología". Estadística en medicina . 22 (9): 1365–1381. doi :10.1002/sim.1501. PMID  12704603. S2CID  41965832.
  19. ^ Elith, Jane (2008). "Una guía práctica para árboles de regresión potenciados". Journal of Animal Ecology . 77 (4): 802–813. Bibcode :2008JAnEc..77..802E. doi : 10.1111/j.1365-2656.2008.01390.x . PMID  18397250.
  20. ^ Elith, Jane. «Boosted Regression Trees for ecological modeling» ( PDF) . Archivado desde el original (PDF) el 25 de julio de 2020. Consultado el 31 de agosto de 2018 .
  21. ^ "Exclusiva: Entrevista con Dan Steinberg, presidente de Salford Systems, pionero en minería de datos".
  22. ^ abc Piryonesi, S. Madeh; El-Diraby, Tamer E. (1 de marzo de 2020). "Análisis de datos en la gestión de activos: predicción rentable del índice de condición del pavimento". Revista de sistemas de infraestructura . 26 (1): 04019036. doi :10.1061/(ASCE)IS.1943-555X.0000512. ISSN  1943-555X. S2CID  213782055.
  23. ^ Wu, Xindong; Kumar, Vipin; Ross Quinlan, J.; Ghosh, Joydeep; Yang, Qiang; Motoda, Hiroshi; McLachlan, Geoffrey J.; Ng, Angus; Liu, Bing; Yu, Philip S.; Zhou, Zhi-Hua (1 de enero de 2008). "Los 10 mejores algoritmos en minería de datos". Conocimiento y sistemas de información . 14 (1): 1–37. doi :10.1007/s10115-007-0114-2. hdl : 10983/15329 . ISSN  0219-3116. S2CID  2367747.
  24. ^ Sagi, Omer; Rokach, Lior (2021). "Aproximación de XGBoost con un árbol de decisión interpretable". Ciencias de la información . 572 (2021): 522–542. doi :10.1016/j.ins.2021.05.055.

Lectura adicional

Enlaces externos