概要 - 予算制約下での長期資産管理のための階層的ディープレインforcement learningフレームワーク
タイトル
予算制約下での長期資産管理のための階層的ディープレインforcement learningフレームワーク
時間
2025-07-25 17:42:34
著者
{"Amir Fard","Arnold X. -X. Yuan"}
カテゴリ
{cs.AI,cs.LG,cs.SY,eess.SY,math.OC}
リンク
http://arxiv.org/abs/2507.19458v1
PDF リンク
http://arxiv.org/pdf/2507.19458v1
概要
この論文は、予算制約下での多年間インフラ資産管理のための階層的ディープ強化学習(HDRL)フレームワークを提案しています。主要なアイデアは、問題を二つの階層に分解することです: 1. **予算計画者(アクター1)**:このアクターは、可能な範囲内で年次予算の割り当てを決定します。現在の年に割り当てる残りの予算の割合を表すスカラー値を出力します。 2. **保守計画者(アクター2)**:このアクターは予算計画者から年次予算の割合を受け取り、資産の保守優先順位を割り当てます。各資産に対する優先係数のベクトルを出力し、それを用いてローカル線形計画(LP)投影を通じて保守行動を決定します。 この階層的分解は、組み合わせ動作空間を持つ従来のRL手法と比較して、問題の複雑さを大幅に低減します。提案されたHDRLフレームワークの主要な利点は以下の通りです: * **拡張性**:問題を二つのレベルに分解することで、HDRLフレームワークは単一のRL手法でよく見られる指数的行動の増加を避けます。これにより、より大きなネットワークや多くの資産を持つネットワークにフレームワークを拡張することができます。 * **予算遵守**:ローカルLP投影により、年次コストが選択された予算の範囲内に保持され、予算制約の厳格な遵守を確保します。 * **安定した学習**:階層的な構造とSoft Actor-Critic(SAC)フレームワークの使用により、ネットワークのサイズが増えても安定した学習が可能です。 論文では、複雑さが異なる下水道ネットワーク(10、15、および20の下水区)を使用したケーススタディを提示し、提案されたHDRLフレームワークの効果を評価しています。結果は、HDRLが収束速度、安定性、解の品質の面でDeep Q-Learning(DQL)のベースラインを常に上回ると示しています。 全体として、提案されたHDRLフレームワークは、予算制約下での多年間インフラ保守計画管理のための有望なアプローチを提供します。拡張性、予算遵守、安定した学習などの多くの利点を提供しており、既存の方法に比べて優れています。今後の研究では、部分的な観察可能性、動的シナリオ、異なる形式の階層的分解などの追加機能をフレームワークに組み込むことが検討されるかもしれません。
推奨論文
ICモジュールレベルの検証自動化のためのマルチエージェント生成AIフレームワーク
非構造データからのパーソナライズされた治療効果推定
DENSE: 病院訪問を横断する多様な臨床記録の時系列モデリングを用いた長期的な進捗ノート生成
関連する多属性データの局所差分プライバシー下での周波数推定
シロフの境界におけるリース評価と積分拡張
MC$^2$A: 高効率なマルコフ連鎖モンテカルロ加速のためのアルゴリズム・ハードウェア共設計を可能にする
相関と動的因果順序を持つ量子回路
ReXGroundingCT:自由テキストレポートからの所見のセグメンテーションのための3D胸部CTデータセット
F&O満期対初日SIPs:インドのNifty 50における時期の利点の22年分析
ノイズのあるラベル学習のための対称非対称損失の連結