LightGBM - Enciclopedia

LightGBM, abreviado como Light Gradient-Boosting Machine, es un framework de boosting de gradientes distribuido y de código abierto para aprendizaje automático, originalmente desarrollado por Microsoft. Se basa en algoritmos de árboles de decisión y se utiliza para tareas de clasificación, ranking y otros en aprendizaje automático. El enfoque de desarrollo se centra en el rendimiento y la escalabilidad.

Resumen
El framework LightGBM admite diferentes algoritmos, incluyendo GBT, GBDT, GBRT, GBM, MART y RF. LightGBM tiene muchas de las ventajas de XGBoost, como optimización esparsa, entrenamiento paralelo, múltiples funciones de pérdida, regularización, bagging y detención temprana. Una de las principales diferencias entre ambos radica en la construcción de árboles. LightGBM no crece un árbol de manera nivelada, fila por fila, como hacen la mayoría de las otras implementaciones. En su lugar, crece los árboles hoja por hoja. Elegirá la hoja con la mayor pérdida delta para crecer. Además, LightGBM no utiliza el algoritmo de aprendizaje de árboles de decisión basado en la clasificación ordenada, que busca el mejor punto de división en los valores de características ordenados, como XGBoost o otras implementaciones. En su lugar, LightGBM implementa un algoritmo de aprendizaje de árboles de decisión basado en histogramas altamente optimizado, lo que ofrece grandes ventajas en términos de eficiencia y consumo de memoria. El algoritmo LightGBM utiliza dos técnicas novedosas denominadas Gradient-Based One-Side Sampling (GOSS) y Exclusive Feature Bundling (EFB), que permiten que el algoritmo se ejecute más rápido mientras se mantiene un alto nivel de precisión.

LightGBM funciona en Linux, Windows y macOS y admite C++, Python, R y C#. El código fuente está licenciado bajo la Licencia MIT y está disponible en GitHub.

Muestreo unidireccional basado en gradientes
Cuando se utiliza el descenso de gradiente, se piensa en el espacio de configuraciones posibles del modelo como un valle, en el que la parte más baja del valle es el modelo que se ajusta mejor a los datos. En esta metáfora, se camina en diferentes direcciones para aprender cuánto más bajo se hace el valle.
típicamente, en el descenso de gradiente, se utiliza el conjunto completo de datos para calcular las pendientes del valle. Sin embargo, este método comúnmente utilizado asume que cada punto de datos es igualmente informativo.
Por el contrario, el Muestreo Unidireccional Basado en Gradientes (GOSS), un método desarrollado por primera vez para árboles de decisión de boosting de gradientes, no se basa en la suposición de que todos los datos son igualmente informativos. En su lugar, trata a los puntos de datos con gradientes más pequeños (pendientes más suaves) como menos informativos al eliminarlos aleatoriamente. Esto tiene por objeto filtrar los datos que podrían haber sido influenciados por el ruido, permitiendo que el modelo modele con mayor precisión las relaciones subyacentes en los datos.

Empaquetado de características exclusivas
El empaquetado de características exclusivas (EFB) es un método prácticamente sin pérdida para reducir el número de características efectivas. En un espacio de características esparsas, muchas características son prácticamente exclusivas, lo que implica que raramente toman valores no nulos simultáneamente. Las características codificadas en un solo valor (one-hot encoded) son un ejemplo perfecto de características exclusivas. EFB agrupa estas características, reduciendo la dimensionalidad para mejorar la eficiencia mientras se mantiene un alto nivel de precisión. El grupo de características exclusivas en una sola característica se llama paquete de características exclusivas.

Véase también
TabPFN
ML.NET
Binado de datos
CatBoost
scikit-learn

Referencias

Leer más
Guolin Ke; Qi Meng; Thomas Finely; Taifeng Wang; Wei Chen; Weidong Ma; Qiwei Ye; Tie-Yan Liu (2017). "LightGBM: A Highly Efficient Gradient Boosting Decision Tree" (PDF). Neural Information Processing System.
Quinto, Butch (2020). Next-Generation Machine Learning with Spark – Covers XGBoost, LightGBM, Spark NLP, Distributed Deep Learning with Keras, and More. Apress. ISBN 978-1-4842-5668-8.
van Wyk, Andrich (2023). Machine Learning with LightGBM and Python. Packt Publishing. ISBN 978-1800564749.

Enlaces externos
GitHub - microsoft/LightGBM
LightGBM - Microsoft Research