Résumé - Méthodes stochastiques BFGS efficaces inspirées des principes bayésiens

Titre
Méthodes stochastiques BFGS efficaces inspirées des principes bayésiens

Temps
2025-07-10 13:08:55

Auteur
{"André Carlon","Luis Espath","Raúl Tempone"}

Catégorie
{math.OC}

Lien
http://arxiv.org/abs/2507.07729v1

PDF Lien
http://arxiv.org/pdf/2507.07729v1

Résumé

Ce document propose une nouvelle approche pour développer des méthodes quasi-Newton pour l'optimisation stochastique, particulièrement utile dans les applications d'apprentissage automatique. L'optimisation stochastique implique l'optimisation d'une fonction avec des estimations de gradient bruitées, ce qui peut rendre la computation des dérivées de second ordre (comme la matrice de Hessian) difficile. La méthode proposée, inspirée de l'inférence bayésienne, vise à surmonter ce défi en intégrant des informations de gradient bruitées dans l'approximation de la matrice inverse de Hessian. Les auteurs se concentrent sur deux méthodes quasi-Newton spécifiques : stochastic BFGS (S-BFGS) et stochastic L-BFGS (L-S-BFGS). Ces méthodes peuvent apprendre une approximation de l'inverse de la matrice de Hessian, même avec de petites tailles de lot, et sont efficaces en termes de calcul. La méthode S-BFGS a une complexité de O(d^2) pour un problème d'espace de dimension d, tandis que la méthode L-S-BFGS a une complexité de O(d). L'approche proposée est basée sur l'inférence bayésienne, où une distribution préalable pour l'inverse de la matrice de Hessian est construite et les probabilités de l'observation de paires de courbure sont modélisées. Cela permet à la méthode d'apprendre efficacement l'approximation de l'inverse de la matrice de Hessian même en présence de bruit. Les auteurs proposent également une condition de courbure pour éviter l'amplification du bruit, ce qui peut entraîner une divergence du processus d'optimisation. Le document inclut des expériences numériques qui démontrent l'efficacité et la robustesse des méthodes proposées. Dans un problème quadratique, le S-BFGS a surpassé SGD et BFGS, tandis que dans des expériences d'analyse logistique, le L-S-BFGS a montré une performance supérieure par rapport aux méthodes de base telles que SdLBFGS et oLBFGS. Les résultats indiquent que les méthodes proposées sont bien adaptées aux problèmes d'optimisation stochastique à grande échelle. En résumé, le document présente une nouvelle classe de méthodes quasi-Newton pour l'optimisation stochastique, inspirée de l'inférence bayésienne. Les méthodes proposées, S-BFGS et L-S-BFGS, sont efficaces et résistantes au bruit, ce qui les rend appropriées pour des problèmes à grande échelle dans l'apprentissage automatique. Les auteurs fournissent une analyse de convergence et démontrent les performances de ces méthodes par le biais d'expériences numériques.


Articles Recommandés

Rubriques comme récompenses : Apprentissage par renforcement au-delà des domaines vérifiables

Nature hyperélastique du critère de Hoek-Brown

Pression Topologique Induite pour les Systèmes Dynamiques

Météromètre magnétique de cellule de vapeur à échelle micrométrique amélioré par compression au vide

Exploration des neutrinos d'énergie ultra-haute avec l'array radio in-ice IceCube-Gen2

Une étude complète sur les signaux de vitesse radiale utilisant ESPRESSO : Amélioration de la précision jusqu'au niveau de 10 cm/s

Chaine-de-descriptions : Amélioration des LLM de code pour la génération et la résumé de code VHDL

L'Impact du Melange des Langues sur la Raisonnement des Modèles de Langue Multilingues

CXR-CML : Amélioration de la classification à partir de zéro des maladies à longues queues à étiquettes multiples sur les radiographies thoraciques

Heure de réveil améliorée pour le problème du tagage à gel euclidien