Resumen - Marco de Aprendizaje Profundo de Refuerzo Hierárquico para la Gestión de Activos a Multi-Año con Restricciones de Presupuesto
Título
Marco de Aprendizaje Profundo de Refuerzo Hierárquico para la Gestión de Activos a Multi-Año con Restricciones de Presupuesto
Tiempo
2025-07-25 17:42:34
Autor
{"Amir Fard","Arnold X. -X. Yuan"}
Categoría
{cs.AI,cs.LG,cs.SY,eess.SY,math.OC}
Enlace
http://arxiv.org/abs/2507.19458v1
PDF Enlace
http://arxiv.org/pdf/2507.19458v1
Resumen
El documento propone un marco de Aprendizaje Profundo por Refuerzo Hierárquico (HDRL, por sus siglas en inglés) para la gestión de activos de infraestructura a largo plazo bajo restricciones presupuestarias. La idea clave es descomponer el problema en dos niveles jerárquicos:
1. **Planificador de Presupuesto (Actor 1)**: Este actor determina la asignación del presupuesto anual dentro de los límites factibles. Produce un valor escalar que representa la fracción del presupuesto restante que se asignará al año actual.
2. **Planificador de Mantenimiento (Actor 2)**: Este actor recibe la fracción del presupuesto anual del Planificador de Presupuesto y asigna prioridades de mantenimiento a los activos. Produce un vector de coeficientes de prioridad para cada activo, que luego se utilizan para determinar las acciones de mantenimiento mediante una proyección local de programación lineal (LP).
Esta descomposición jerárquica reduce significativamente la complejidad del problema en comparación con los métodos tradicionales de RL con espacios de acción combinatorios. Las principales ventajas del marco HDRL propuesto son:
* **Escalabilidad**: Al descomponer el problema en dos niveles, el marco HDRL evita el aumento exponencial de las acciones que comúnmente se encuentra en métodos RL monolíticos. Esto permite que el marco se escalé a redes más grandes con más activos.
* **Conformidad con el Presupuesto**: La proyección local de programación lineal asegura que el costo anual se mantenga dentro del presupuesto elegido, garantizando así una estricta conformidad con las restricciones presupuestarias.
* **Aprendizaje Estable**: La estructura jerárquica y el uso de un marco Soft Actor-Critic (SAC) permiten un aprendizaje estable incluso a medida que aumenta el tamaño de la red.
El documento presenta un estudio de caso utilizando una red de alcantarillado con complejidades variables (10, 15 y 20 cuencas de alcantarillado) para evaluar la efectividad del marco HDRL propuesto. Los resultados demuestran que el HDRL supera consistentemente a un punto de partida basado en Aprendizaje por Refuerzo Profundo (DQL, por sus siglas en inglés) en términos de velocidad de convergencia, estabilidad y calidad de la solución.
En resumen, el marco HDRL propuesto ofrece un enfoque prometedor para la gestión de la planificación del mantenimiento de infraestructura a largo plazo bajo restricciones presupuestarias. Ofrece varias ventajas sobre los métodos existentes, incluyendo escalabilidad, conformidad con el presupuesto y aprendizaje estable. El trabajo futuro podría extender el marco para incluir características adicionales como observabilidad parcial, escenarios dinámicos y diferentes formas de descomposición jerárquica.
Artículos Recomendados
Caos confinado y desconfinado en sistemas de spin clásicos
TrinityDNA: Un modelo fundamental bioinspirado para modelado eficiente de longas secuencias de ADN
Expansión de subconjuntos normales de elementos de orden impar en grupos finitos
Emergencia de QED$_3$ en la transición del estado de Laughlin bosónico a superfluido
La Relación de Excentricidad Orbital-Radio para Planetas Orbitando en Anillos de M Dwarfs
Interpretación de Sustitutos de CFD mediante Autoencoders Esparsos
Transiciones de fase y rompimiento espontáneo de simetría en la teoría renormalizada de Ginzburg-Landau
Marco de física estadística para el aprendizaje óptimo
En la Extracción de Malla Cuádratica desde Mapeos de Mallas Desordenadas
Dinámica McKean-Vlasov multi-especie en paisajes no convexos