Résumé - Cadre hiérarchique d'apprentissage profond par renforcement pour la gestion d'actifs sur plusieurs années sous contraintes budgétaires

Titre
Cadre hiérarchique d'apprentissage profond par renforcement pour la gestion d'actifs sur plusieurs années sous contraintes budgétaires

Temps
2025-07-25 17:42:34

Auteur
{"Amir Fard","Arnold X. -X. Yuan"}

Catégorie
{cs.AI,cs.LG,cs.SY,eess.SY,math.OC}

Lien
http://arxiv.org/abs/2507.19458v1

PDF Lien
http://arxiv.org/pdf/2507.19458v1

Résumé

Le papier propose un cadre de Réinforcement Learning Hiérarchique Profond (HDRL) pour la gestion des actifs d'infrastructure sur plusieurs années sous contraintes budgétaires. L'idée clé consiste à décomposer le problème en deux niveaux hiérarchiques : 1. **Planificateur de Budget (Acteur 1)** : Cet acteur détermine l'allocation budgétaire annuelle dans des limites viables. Il produit une valeur scalaire représentant la fraction du budget restant à allouer à l'année en cours. 2. **Planificateur de Maintenance (Acteur 2)** : Cet acteur reçoit la fraction budgétaire annuelle du Planificateur de Budget et assigne des priorités de maintenance aux actifs. Il produit un vecteur de coefficients de priorité pour chaque actif, qui sont ensuite utilisés pour déterminer les actions de maintenance par une projection locale de programmation linéaire (LP). Cette décomposition hiérarchique réduit considérablement la complexité du problème par rapport aux méthodes RL traditionnelles avec des espaces d'action combinatoires. Les principaux avantages du cadre HDRL proposé sont : * **Échelle** : En décomposant le problème en deux niveaux, le cadre HDRL évite l'explosion exponentielle des actions fréquemment rencontrée par les méthodes RL monolithiques. Cela permet au cadre de s'échelonner vers des réseaux plus grands avec un plus grand nombre d'actifs. * **Conformité au Budget** : La projection locale de programmation linéaire assure que le coût annuel reste dans le budget choisi, assurant ainsi une stricte conformité aux contraintes budgétaires. * **Apprentissage Stable** : La structure hiérarchique et l'utilisation d'un cadre Soft Actor-Critic (SAC) permettent un apprentissage stable même lorsque la taille du réseau augmente. Le papier présente une étude de cas utilisant un réseau d'égouts avec des complexités variables (10, 15 et 20 bassins d'égouts) pour évaluer l'efficacité du cadre HDRL proposé. Les résultats montrent que l'HDRL surperforme constamment une base de ligne de Q-Profonde (DQL) en termes de vitesse de convergence, de stabilité et de qualité de solution. Dans l'ensemble, le cadre HDRL proposé offre une approche prometteuse pour la gestion de la planification de maintenance des infrastructures sur plusieurs années sous contraintes budgétaires. Il offre plusieurs avantages par rapport aux méthodes existantes, notamment en termes d'échelle, de conformité au budget et d'apprentissage stable. Des travaux futurs pourraient étendre le cadre pour intégrer des fonctionnalités supplémentaires telles que l'observabilité partielle, des scénarios dynamiques et différentes formes de décomposition hiérarchique.


Articles Recommandés

TrinityDNA : Un modèle fondamental bio-inspiré pour la modélisation efficace des séquences longues d'ADN

Cadre d'analyse instrumentale basé sur la stratification pour l'analyse des effets non linéaires

Construire des représentations réseau matérielles pour la conception intelligente des alliages amorphes

Décomposition en domaine temporel basée sur la dissipativité pour le contrôle optimal des EDP hyperboliques

Grands taux d'apprentissage atteignent simultanément une robustesse aux corrélations spurielles et une compressibilité.

Encodeurs de magnitude de signe explicites permettent des multiplicateurs à faible consommation d'énergie

Un modèle semi-analytique pour les effets des perturbations granulaires de matière noire floue sur le mouvement orbital

Superlubrissité du Borophène : Propriétés tribologiques par comparaison à l'hBN

CXR-CML : Amélioration de la classification à partir de zéro des maladies à longues queues à étiquettes multiples sur les radiographies thoraciques

pilotage politique latent avec des modèles mondiaux prédéfinis agnostiques à l'égard de l'incarnation