Résumé - Elk : Exploration de l'efficacité des puces AI inter-cœur connectées avec des techniques de compilateur de deep learning

Titre
Elk : Exploration de l'efficacité des puces AI inter-cœur connectées avec des techniques de compilateur de deep learning

Temps
2025-07-15 17:21:31

Auteur
{"Yiqi Liu","Yuqi Xue","Noelle Crawford","Jilong Xue","Jian Huang"}

Catégorie
{cs.AR,cs.DC,cs.LG}

Lien
http://arxiv.org/abs/2507.11506v1

PDF Lien
http://arxiv.org/pdf/2507.11506v1

Résumé

Le document "Elk: Explorant l'efficacité des puces IA inter-cœur connectées avec des techniques de compilateur de deep learning" par Yiqi Liu, Yuqi Xue, Noelle Crawford, Jilong Xue et Jian Huang, investigate l'efficacité des puces IA inter-cœur connectées (ICCA), conçues pour répondre à la demande croissante des modèles de deep learning (DL). ### Défis Clés : Le document met en avant les défis d'optimisation des puces ICCA en raison des demandes concurrentes de calcul, de communication et d'E/S. Plus spécifiquement : 1. **Concurrence d'espace mémoire sur le chip** : L'équilibre entre l'espace d'exécution et l'espace de préchargement est crucial. Un espace d'exécution plus grand améliore la performance d'exécution par cœur, mais réduit l'espace de préchargement, ce qui peut conduire à une sous-optimisation de la HBM. 2. **Concurrence de bande passante des interconnexions** : La connexion sur le chip partagée doit gérer à la fois l'échange de données inter-cœur et le chargement de données HBM vers le cœur, ce qui peut entraîner une congestion. 3. **Concurrence d'accès à la mémoire** : Les accès concurrents à la SRAM par différents cœurs peuvent entraîner une concurrence et une réduction des performances. ### Cadre Elk : Pour répondre à ces défis, le document propose le cadre Elk, un compilateur de deep learning qui optimise l'efficacité des puces ICCA. Elk y parvient en : 1. **Planification de l'opérateur à deux niveaux** : - Premièrement, Elk détermine le nombre optimal d'opérateurs à précharger pour chaque opérateur, en équilibrant entre les accès au calcul et à la HBM. - Deuxièmement, Elk allocate les espaces d'exécution et de préchargement en fonction du nombre de préchargements sélectionnés, en tenant compte du compromis entre la performance d'exécution et l'utilisation de la bande passante de la HBM. 2. **Allocation de mémoire on-chip consciente des coûts** : Elk utilise un modèle de coût pour estimer le temps d'exécution et les exigences en mémoire de chaque opérateur, guidant ainsi l'allocation des espaces d'exécution et de préchargement. 3. **Permutation de l'ordre de préchargement** : Elk explore différents ordres de préchargement pour minimiser la contention des interconnexions et maximiser l'utilisation de la bande passante de la HBM. ### Évaluation : Le document démontre l'efficacité d'Elk à travers un émulateur et un simulateur. Les résultats montrent que Elk atteint : - 94% de la performance idéale de la ligne de toit pour les puces ICCA. - 89,52% d'utilisation de la bande passante inter-cœur. - Une haute utilisation de la HBM et des FLOPS. ### Contributions : Le document apporte les contributions suivantes : - Identifie les défis de performance pour utiliser les propriétés matérielles des puces ICCA. - Développe un cadre de compilateur de deep learning (Elk) qui optimise les trois facteurs de performance. - Met en œuvre une nouvelle politique de planification d'opérateurs inductive et un algorithme d'allocation de mémoire on-chip conscient des coûts. - Construit une interface générique pour mapper les plans d'exécution optimisés vers des architectures de puces ICCA populaires. - Démonstre l'efficacité d'Elk pour divers modèles de DL et explore les compromis de conception dans les puces ICCA. ### Conclusion : Elk fournit un outil précieux pour optimiser l'efficacité des puces ICCA, en répondant aux compromis complexes entre calcul, communication et E/S. En explorant l'espace de conception des puces ICCA, Elk permet le développement de matériel IA plus efficace et plus élastique.


Articles Recommandés

Invariants des algèbres de courants tordues et sous-algèbres de Poisson-commutatives associées

Classer les anneaux d'entiers de Grothendieck jusqu'au rang 5 et au-delà

Réseaux d'Arnold Kolmogorov (AKNs) pour les données déséquilibrées -- Une perspective empirique

Apprentissage des champs électromagnétiques basé sur les fonctions de base des éléments finis

Quantification de la formation de biofilm grâce à l'espace latent assisté par microfluidique à goutte résolue temporellement

Régression krigeage sans fonction de的特征

PRACtical : Mise à jour du compteur au niveau des sous-tableaux et isolation de la récupération au niveau des banques pour la mitigation efficace du Rowhammer PRAC

Surrogats de PDE neuronaux à multiples échelles pour la prévision et la réduction de l'échelle : Application aux courants océaniques

Problèmes de consensus des chaînes avec des échanges et des substitutions

RealBench : Comparaison de modèles de génération de Verilog avec des conceptions de puces IP du monde réel