Résumé - CUDA-L1 : Amélioration de l'optimisation CUDA via l'apprentissage par renforcement contrastif

Titre
CUDA-L1 : Amélioration de l'optimisation CUDA via l'apprentissage par renforcement contrastif

Temps
2025-07-18 17:43:56

Auteur
{"Xiaoya Li","Xiaofei Sun","Albert Wang","Jiwei Li","Chris Shum"}

Catégorie
{cs.AI,cs.DC,cs.LG}

Lien
http://arxiv.org/abs/2507.14111v1

PDF Lien
http://arxiv.org/pdf/2507.14111v1

Résumé

CUDA-L1 est un cadre de renforcement apprenant (RL) innovant conçu pour optimiser le code CUDA pour le calcul sur GPU. Il répond à la demande croissante de stratégies d'optimisation CUDA automatisées, en particulier dans le contexte des modèles de langage grands (LLM) qui nécessitent des ressources de calcul importantes. Le cœur de CUDA-L1 est un modèle de RL contrastif, qui se distingue des modèles de RL traditionnels par une analyse comparative des variantes CUDA générées précédemment et de leur performance d'exécution. Cela permet au modèle de distinguer entre les stratégies d'optimisation efficaces et inefficaces, conduisant à une amélioration des performances. Les caractéristiques clés et les réalisations de CUDA-L1 incluent : * **Améliorations de performance significatives** : Sur NVIDIA A100, CUDA-L1 atteint une accélération moyenne de ×17.7 sur tous les 250 noyaux CUDA de KernelBench, avec des accélérations maximales atteignant ×449. * **Excellent portabilité** : Les codes CUDA optimisés montrent une excellente portabilité sur différentes architectures GPU, atteignant une accélération moyenne de ×17.8 sur H100, ×19.0 sur RTX 3090, ×16.5 sur L40, ×14.7 sur H800 et ×13.9 sur H20. * **Découverte automatique des techniques d'optimisation** : CUDA-L1 découvre automatiquement diverses techniques d'optimisation CUDA, telles que l'optimisation de l'agencement de la mémoire, la fusion d'opérations, le déroulement des boucles et la coalescence de la mémoire. * **Sélection optimale des techniques** : Le modèle identifie la combinaison optimale des techniques pour atteindre l'accélération maximale pour différentes tâches CUDA. * **Révélation des principes fondamentaux** : CUDA-L1 révèle les principes fondamentaux de l'optimisation CUDA, tels que la nature multiplicative des optimisations et l'importance des techniques de "gardien". * **Identification des goulets d'étranglement cachés** : Le modèle identifie les goulets d'étranglement de performance non évidents et rejette des optimisations apparemment bénéfiques qui sont en réalité néfastes pour les performances. Les auteurs mettent en avant la remarquable capacité de l'apprentissage par renforcement pour l'optimisation autonome du CUDA. Même avec un modèle de base présentant une mauvaise capacité d'optimisation CUDA, CUDA-L1 peut être entraîné pour générer des codes d'optimisation CUDA avec des accélérations significatives. Cela permet au modèle de découvrir et de combiner indépendamment des techniques d'optimisation, et d'étendre ses capacités de raisonnement à de nouveaux noyaux. En résumé, CUDA-L1 démontre le potentiel de l'apprentissage par renforcement pour automatiser l'optimisation CUDA et améliorer l'efficacité des GPU. Il offre une solution prometteuse pour répondre à la pression croissante sur les ressources de calcul GPU et améliorer l'efficacité du calcul GPU.


Articles Recommandés

Interactions non locales anisotropes de Riesz avec une confinement physique

Présentations exactes et approximatives des fonctions booléennes dans la base de De Morgan

Tolérance aux pannes personnalisée basée sur un algorithme pour les couches d'attention dans les Transformers

Adhésion dépendante de la géométrie dans les élastomères de cristaux liquides monodomaines transparents

Diffusion bat les modèles autoregressifs dans des contextes contraints par les données.

Une CGRA ultra-basse consommation pour l'accélération des Transformers au bord de l'infrastructure

Modèle de Mumford-Shah régularisé par la variation totale généralisée relaxée et piecewise smooth pour la segmentation de surfaces triangulées

Ingénierie locale de contraintes réversibles de $\mathrm{WS}_2$ à l'aide d'un ressort micromécanique

Réfléchir à la sécurité des HSM et TPM dans le cloud : attaques réelles et défenses de nouvelle génération

Construire des arrangements optimaux de triangles Kobon via l'encodage en table, la résolution par SAT et l'alignement heuristique