Zusammenfassung - Hierarchisches tiefes Reinforcement-Learning-Framework für Multi-Jahres-Asset-Management unter Budgetbeschränkungen

Titel
Hierarchisches tiefes Reinforcement-Learning-Framework für Multi-Jahres-Asset-Management unter Budgetbeschränkungen

Zeit
2025-07-25 17:42:34

Autor
{"Amir Fard","Arnold X. -X. Yuan"}

Kategorie
{cs.AI,cs.LG,cs.SY,eess.SY,math.OC}

Link
http://arxiv.org/abs/2507.19458v1

PDF Link
http://arxiv.org/pdf/2507.19458v1

Zusammenfassung

Das Papier schlägt ein Hierarchisches Tiefes Reinforcement Learning (HDRL)-Framework für die mehrjährige Infrastruktur资产管理 unter Budgetbeschränkungen vor. Die zentrale Idee ist, das Problem in zwei hierarchische Ebenen zu zerlegen: 1. **Budget-Planer (Aktor 1)**: Dieser Aktor bestimmt die jährliche Budgetverteilung innerhalb möglicher Grenzen. Er gibt einen Skalarwert aus, der den Anteil des verbleibenden Budgets darstellt, der für das aktuelle Jahr zugewiesen werden soll. 2. **Wartungsplaner (Aktor 2)**: Dieser Aktor erhält die jährliche Budgetquote vom Budget-Planer und weist Wartungsprioritäten für Vermögenswerte zu. Er gibt einen Vektor von Prioritätskoeffizienten für jeden Vermögenswert aus, die dann zur Bestimmung der Wartungsmaßnahmen durch eine lokale lineare Programmierung (LP)-Projektion verwendet werden. Diese hierarchische Zerlegung reduziert die Komplexität des Problems erheblich im Vergleich zu traditionellen RL-Methoden mit kombinatorischen Aktionsräumen. Die wichtigsten Vorteile des vorgeschlagenen HDRL-Frameworks sind: * **Skalierbarkeit**: Durch die Zerlegung des Problems in zwei Ebenen vermeidet das HDRL-Framework das exponentielle Aktionswachstum, das häufig von monolithischen RL-Methoden beobachtet wird. Dies ermöglicht es dem Framework, auf größere Netzwerke mit mehr Vermögenswerten zu skalieren. * **Budgetkonformität**: Die lokale LP-Projektion stellt sicher, dass die jährlichen Kosten innerhalb des gewählten Budgets bleiben, was eine strenge Einhaltung der Budgetbeschränkungen gewährleistet. * **Stabiles Lernen**: Die hierarchische Struktur und die Verwendung eines Soft Actor-Critic (SAC)-Frameworks ermöglichen stabiles Lernen, selbst wenn die Netzwerkgröße wächst. Das Papier präsentiert eine Fallstudie mit einem Kanalisationsnetzwerk mit variabler Komplexität (10, 15 und 20 Kanalisationsgebieten), um die Effektivität des vorgeschlagenen HDRL-Frameworks zu bewerten. Die Ergebnisse zeigen, dass das HDRL konstant eine bessere Leistung als eine Deep Q-Learning (DQL)-Basislinie in Bezug auf Konvergenzgeschwindigkeit, Stabilität und Lösungskvalität zeigt. Insgesamt bietet das vorgeschlagene HDRL-Framework eine vielversprechende Herangehensweise zur Verwaltung der mehrjährigen Infrastrukturwartungsplanung unter Budgetbeschränkungen. Es bietet mehrere Vorteile gegenüber bestehenden Methoden, einschließlich Skalierbarkeit, Budgetkonformität und stabiles Lernen. Zukunftsvorhaben könnten die Framework erweitern, um zusätzliche Funktionen wie teilweisen Sichtbarkeitsbereich, dynamische Szenarien und verschiedene Formen der hierarchischen Zerlegung zu integrieren.


Empfohlene Papiere

Starke Sparsifikation für 1-in-3-SAT durch Polynom-Freiman-Ruzsa

Monophone aus Skalar-Portal-Dunkler Materie bei Neutrino-Experimenten

Verbesserte Aufwachzeit für das Euclidische Freezing-Tag-Problem

Der JWST-Wetterbericht: Temperaturänderungen, Aurora-Heizung und ständige Wolkenbedeckung auf SIMP-0136 abrufen

Detecting Galactic Rings in the DESI Legacy Imaging Surveys with Semi-Supervised Deep Learning Erkennung von galaktischen Ringen in den DESI Legacy Imaging Surveys mit semiautonomen tiefem Lernen

Ausgewählte Messtechnik der Quantum-Hall-Dispersions in Randzuständen

MCM: Mamba-basiertes Cardiokinetik-Tracking mit sequenziellen Bildern in der MRT

Eine kosmische Amplifikation für die Muon-zu-Positron-Conversion in Nukeln

ThermoRL: Struktur-bewusstes Reinforcement Learning zur Proteinfunktionsmutation für die Verbesserung der Thermostabilität

In welchem Umfang können öffentliche Aktienindizes statistisch den Verlust des realen Kaufkraftes in komplexen strukturellen Krisen in aufstrebenden Märkten absichern? Eine auf Explainable Machine Learning basierende Bewertung