XGBoost

Informations
Dernière version	3.0.0 (15 mars 2025)
Dépôt	github.com/dmlc/xgboost
Assurance qualité	Intégration continue
Écrit en	R, Python, Julia, C++, Java, Ruby, C et Swift
Système d'exploitation	Linux
Type	Bibliothèque logicielle
Licence	Licence Apache 2.0
Site web	xgboost.ai

Cet article est une ébauche concernant l’informatique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

XGBoost (eXtreme Gradient Boosting) est une bibliothèque logicielle open source permettant de mettre en œuvre des méthodes d’amplification de gradient (Gradient boosting), de régularisation en C++, Java, R, Python et Julia^[2]. XGBoost fonctionne aussi bien sur Linux que sur Microsoft Windows ou MacOS^[3].

D'après sa description, le projet vise à offrir une bibliothèque de gradient boosting "conçue pour être évolutive, portable et distribuée. (GBM, GBRT, GBDT)"^[2].

Au milieu des années 2010, XGBoost s’est imposé comme l’algorithme privilégié par de nombreux lauréats de concours de machine learning^[4].

Fonctionnement de l'algorithme

XGBoost applique la méthode de Newton-Raphson dans l’espace des fonctions, contrairement au gradient boosting classique qui utilise la descente de gradient dans ce même espace. Une approximation de Taylor d’ordre deux est intégrée à la fonction de coût pour établir le lien avec la méthode de Newton-Raphson^[5].

Entrée :

${(x_{i},y_{i})}_{i=1}^{N}$ avec une fonction de perte différentiable $L(y,F(x))$ , un nombre d’apprenants faibles (weak learners) $M$ et un taux d’apprentissage $\alpha$ ^[5].

Algorithme :

Initialisation du modèle avec une constante :

${\hat {f}}^{(0)}(x)={\underset {\theta }{\arg \min }}\sum _{i=1}^{N}L(y_{i},\theta )$

Cette étape consiste à choisir la valeur constante ( $\theta$ ) qui minimise la perte globale sur l’entrée. Par exemple, pour une perte quadratique $(L(y,\theta )=(y-\theta )^{2})$ , $\theta$ est la moyenne des $y_{i}$ ^[6].

Pour $m=1$ à $M$ :

a. Calcul des gradients et hessiens :

${\hat {g}}_{m}(x_{i})=\left.{\frac {\partial L(y_{i},f(x_{i}))}{\partial f(x_{i})}}\right|{f(x)={\hat {f}}^{(m-1)}(x)}$

${\hat {h}}_{m}(x_{i})=\left.{\frac {\partial ^{2}L(y_{i},f(x_{i}))}{\partial f(x_{i})^{2}}}\right|{f(x)={\hat {f}}^{(m-1)}(x)}$

Le gradient $({\hat {g}}_{m})$ indique la direction de correction. L'hessien $({\hat {h}}_{m})$ mesure la courbure de la perte, ce qui permet d’ajuster plus finement la mise à jour (méthode de Newton-Raphson)^[7].

b. Ajustement d’un apprenant faible : On ajuste un modèle de base (par exemple, un arbre) pour prédire la cible suivante pour chaque $x_{i}$ ^[6]:

${\tilde {y}}_{i}=-{\frac {{\hat {g}}_{m}(x_{i})}{{\hat {h}}_{m}(x_{i})}}$

On cherche la fonction $\phi _{m}$ qui minimise :

${\hat {\phi }}_{m}={\underset {\phi \in \Phi }{\arg \min }}\sum _{i=1}^{N}{\frac {1}{2}}{\hat {h}}_{m}(x_{i})\left[\phi (x_{i})+{\frac {{\hat {g}}_{m}(x_{i})}{{\hat {h}}_{m}(x_{i})}}\right]^{2}$

où $\Phi$ est l’ensemble des fonctions possibles (par exemple, tous les arbres de décision d’une certaine profondeur)^[5].

c. Mise à jour du modèle :

${\hat {f}}^{(m)}(x)={\hat {f}}^{(m-1)}(x)+\alpha {\hat {\phi }}_{m}(x)$

où $\alpha$ est le taux d’apprentissage^[5].

Sortie finale :

${\hat {f}}(x)={\hat {f}}^{(M)}(x)={\hat {f}}^{(0)}(x)+\sum _{m=1}^{M}\alpha {\hat {\phi }}_{m}(x)$

La prédiction finale est la somme de la constante initiale et des corrections successives apportées par chaque apprenant faibles^[6].

Notes et références

↑ « Release 3.0.0 stable », 15 mars 2025 (consulté le 4 mai 2025)
↑ ^{a et b} « XGBoost Documentation — xgboost 2.0.3 documentation », sur xgboost.readthedocs.io (consulté le 10 juillet 2025)
↑ « Installation Guide — xgboost 3.0.2 documentation », sur xgboost.readthedocs.io (consulté le 10 juillet 2025)
↑ (en) « xgboost/demo at master · dmlc/xgboost », sur GitHub (consulté le 10 juillet 2025)
↑ ^{a b c et d} (en) Tianqi Chen et Carlos Guestrin, « XGBoost: A Scalable Tree Boosting System », CrossRef, ACM,‎ 13 août 2016, p. 785–794 (ISBN 978-1-4503-4232-2, DOI 10.1145/2939672.2939785, lire en ligne, consulté le 10 juillet 2025)
↑ ^{a b et c} (en) Hastie, T., Tibshirani, R., & Friedman, J., The Elements of Statistical Learning., Springer, 2009, 764 p. (lire en ligne), Section 10.13.
↑ Jerome H. Friedman, « Greedy function approximation: A gradient boosting machine. », The Annals of Statistics, vol. 29, n^o 5,‎ 1^er octobre 2001 (ISSN 0090-5364, DOI 10.1214/aos/1013203451, lire en ligne, consulté le 10 juillet 2025)

[wikidata-0cca6e5ba8892bad5c7f663127ce779d29f3e989-1] « Release 3.0.0 stable », 15 mars 2025 (consulté le 4 mai 2025)

[:0-2] {a et b} « XGBoost Documentation — xgboost 2.0.3 documentation », sur xgboost.readthedocs.io (consulté le 10 juillet 2025)

[3] « Installation Guide — xgboost 3.0.2 documentation », sur xgboost.readthedocs.io (consulté le 10 juillet 2025)

[4] (en) « xgboost/demo at master · dmlc/xgboost », sur GitHub (consulté le 10 juillet 2025)

[:1-5] {a b c et d} (en) Tianqi Chen et Carlos Guestrin, « XGBoost: A Scalable Tree Boosting System », CrossRef, ACM,‎ 13 août 2016, p. 785–794 (ISBN 978-1-4503-4232-2, DOI 10.1145/2939672.2939785, lire en ligne, consulté le 10 juillet 2025)

[:2-6] {a b et c} (en) Hastie, T., Tibshirani, R., & Friedman, J., The Elements of Statistical Learning., Springer, 2009, 764 p. (lire en ligne), Section 10.13.

[7] Jerome H. Friedman, « Greedy function approximation: A gradient boosting machine. », The Annals of Statistics, vol. 29, n^o 5,‎ 1^er octobre 2001 (ISSN 0090-5364, DOI 10.1214/aos/1013203451, lire en ligne, consulté le 10 juillet 2025)

[1]

[2]

[3]

[4]

[5]

[6]

[7]