Luz GBM

LightGBM , abreviatura de máquina de impulso de gradiente ligero, es un marco de impulso de gradiente distribuido gratuito y de código abierto para el aprendizaje automático , desarrollado originalmente por Microsoft . ^[4]^[5] Se basa en algoritmos de árboles de decisión y se utiliza para clasificar , clasificar y otras tareas de aprendizaje automático. El desarrollo se centra en el rendimiento y la escalabilidad.

Descripción general

El marco LightGBM admite diferentes algoritmos, incluidos GBT, GBDT , GBRT , GBM , MART ^[6]^[7] y RF . ^[8] LightGBM tiene muchas de las ventajas de XGBoost , incluida la optimización escasa, el entrenamiento paralelo, múltiples funciones de pérdida, la regularización, el embolsado y la detención temprana. Una diferencia importante entre los dos radica en la construcción de los árboles. LightGBM no crece en un árbol nivelado (fila por fila) como lo hacen la mayoría de las otras implementaciones. ^[9] En cambio, crece árboles en forma de hojas. Elige la hoja que cree que producirá la mayor disminución de pérdidas. ^[10] Además, LightGBM no utiliza el ampliamente utilizado algoritmo de aprendizaje de árbol de decisión basado en clasificación, que busca el mejor punto de división en valores de características ordenados, ^[11] como lo hacen XGBoost u otras implementaciones. En cambio, LightGBM implementa un algoritmo de aprendizaje de árbol de decisión basado en histogramas altamente optimizado, que produce grandes ventajas tanto en eficiencia como en consumo de memoria. ^[12] El algoritmo LightGBM utiliza dos técnicas novedosas llamadas muestreo unilateral basado en gradientes (GOSS) y agrupación de funciones exclusivas (EFB), que permiten que el algoritmo se ejecute más rápido manteniendo un alto nivel de precisión. ^[13]

LightGBM funciona en Linux , Windows y macOS y es compatible con C++ , Python , ^[14] R y C# . ^[15] El código fuente tiene la licencia MIT y está disponible en GitHub . ^[dieciséis]

Muestreo unilateral basado en gradientes

El muestreo unilateral basado en gradientes (GOSS) es un método que aprovecha el hecho de que no existe un peso nativo para la instancia de datos en GBDT. Dado que las instancias de datos con diferentes gradientes desempeñan diferentes roles en el cálculo de la ganancia de información, las instancias con gradientes más grandes contribuirán más a la ganancia de información. Entonces, para conservar la precisión de la información, GOSS mantiene las instancias con gradientes grandes y elimina aleatoriamente las instancias con gradientes pequeños. ^[13]

Paquete de funciones exclusivas

La agrupación de funciones exclusivas (EFB) es un método casi sin pérdidas para reducir la cantidad de funciones efectivas. En un espacio de características escaso, muchas características son casi exclusivas, lo que implica que rara vez toman valores distintos de cero simultáneamente. Las funciones codificadas one-hot son un ejemplo perfecto de funciones exclusivas. EFB agrupa estas características, reduciendo la dimensionalidad para mejorar la eficiencia y al mismo tiempo mantener un alto nivel de precisión. El conjunto de funciones exclusivas en una sola función se denomina paquete de funciones exclusivas. ^[13]

Ver también

Referencias

^ "Guolin Ke". GitHub .
^ "microsoft/LightGBM". GitHub . 7 de julio de 2022.
^ "Lanzamientos · microsoft/LightGBM". GitHub .
^ Brownlee, Jason (31 de marzo de 2020). "Impulso de gradiente con Scikit-Learn, XGBoost, LightGBM y CatBoost".
^ Kopitar, León; Kocbek, Primoz; Cilar, Leona; Jeque, Aziz; Stiglic, Gregor (20 de julio de 2020). "Detección temprana de diabetes mellitus tipo 2 mediante modelos de predicción basados en aprendizaje automático". Informes científicos . 10 (1): 11981. Código bibliográfico : 2020NatSR..1011981K. doi :10.1038/s41598-020-68771-z. PMC 7371679 . PMID 32686721 - a través de www.nature.com.
^ "Comprensión de los parámetros de LightGBM (y cómo ajustarlos)". neptuno.ai . 6 de mayo de 2020.
^ "Una descripción general de LightGBM". avanwyk . 16 de mayo de 2018.
^ "Parámetros: documentación de LightGBM 3.0.0.99". lightgbm.readthedocs.io .
^ The Gradient Boosters IV: LightGBM - Profundo y superficial
^ XGBoost, LightGBM y otros favoritos de la competencia de Kaggle | de André Ye | septiembre, 2020 | Hacia la ciencia de datos
^ Manish, Mehta; Rakesh, Agrawal; Jorma, Rissanen (24 de noviembre de 2020). "SLIQ: un clasificador rápido y escalable para minería de datos". Conferencia internacional sobre ampliación de la tecnología de bases de datos : 18–32. CiteSeerX 10.1.1.89.7734 .
^ "Características: documentación de LightGBM 3.1.0.99". lightgbm.readthedocs.io .
^ abc Ke, Guolin; Meng, Qi; Finley, Thomas; Wang, Taifeng; Chen, Wei; Mamá, Weidong; Sí, Qiwei; Liu, Tie-Yan (2017). "LightGBM: un árbol de decisión de impulso de gradiente altamente eficiente". Avances en los sistemas de procesamiento de información neuronal . 30 .
^ "lightgbm: paquete LightGBM Python". 7 de julio de 2022 – vía PyPI.
^ "Espacio de nombres Microsoft.ML.Trainers.LightGbm". docs.microsoft.com .
^ "microsoft/LightGBM". 6 de octubre de 2020 – vía GitHub.

Otras lecturas

Guolin Ke; Qi Meng; Tomás Finamente; Taifeng Wang; Wei Chen; Wei Dong Ma; Qiwei Ye; Tie-Yan Liu (2017). "LightGBM: un árbol de decisiones de impulso de gradiente altamente eficiente" (PDF) . Sistema de procesamiento de información neuronal .
Quinto, Butch (2020). Aprendizaje automático de próxima generación con Spark: cubre XGBoost, LightGBM, Spark NLP, aprendizaje profundo distribuido con Keras y más. Presione . ISBN 978-1-4842-5668-8.
van Wyk, Andrich (2023). Aprendizaje automático con LightGBM y Python . Publicación de paquetes . ISBN 978-1800564749.

enlaces externos

GitHub - microsoft/LightGBM
LightGBM - Investigación de Microsoft