Résumé - Une CGRA ultra-basse consommation pour l'accélération des Transformers au bord de l'infrastructure
Titre
Une CGRA ultra-basse consommation pour l'accélération des Transformers au bord de l'infrastructure
Temps
2025-07-17 08:43:14
Auteur
{"Rohit Prasad"}
Catégorie
{cs.AR,cs.AI}
Lien
http://arxiv.org/abs/2507.12904v1
PDF Lien
http://arxiv.org/pdf/2507.12904v1
Résumé
Ce document propose une architecture de Grille de Grains Grossiers (CGRA) à ultra-basse consommation spécifiquement conçue pour accélérer les modèles de transformateurs dans des environnements de calcul aux bords. Les transformateurs, essentiels pour des tâches telles que le traitement du langage naturel et la vision par ordinateur, font appel à des exigences de calcul élevées qui sont difficiles à satisfaire sur des appareils à faible consommation d'énergie. La CGRA proposée répond à ce défi en offrant une solution très efficace et adaptable.
L'architecture comporte une grille de 4x4 d'Éléments de Traitement (PE) optimisée pour la computation parallèle des opérations de Multiplication de Matrices Générales (GEMM), qui sont fondamentales pour les modèles de transformateurs. De plus, elle intègre une grille dédiée de 4x2 de Blocs d'Opérations de Mémoire (MOB) pour des opérations de chargement/déchargement optimisées, ce qui réduit considérablement les besoins en bande passante mémoire et améliore l'utilisation des données.
Les caractéristiques clés et les avantages de l'architecture CGRA proposée incluent :
1. Conception d'Array Hétérogène : La combinaison d'une grille de 4x4 de PE avec une grille de 4x2 de MOB permet une forte parallélisation dans les calculs GEMM tout en réduisant le mouvement de données et la latence d'accès à la mémoire.
2. Interconnexion de Torseur sans Commutateurs : Cette caractéristique unique élimine la nécessité de commutation centralisée, permettant une communication directe entre les PE et les MOB. Cela réduit la consommation d'énergie et la latence, ce qui est crucial pour les appareils aux bords à faible consommation d'énergie.
3. Éfficient en Énergie : La CGRA proposée atteint une consommation d'énergie ultra-basse (plus de 1mW) et une haute efficacité de calcul, ce qui la rend adaptée aux appareils aux bords alimentés par batterie exécutant des modèles de transformateurs.
4. Charges de Travail de Transformateurs Optimisées : L'architecture est spécifiquement conçue pour accélérer les charges de travail des transformateurs, y compris le mécanisme d'attention et les couches feedforward, par la parallélisation et la gestion efficace de la mémoire.
5. Échelle : L'architecture CGRA est élastique et peut être adaptée à d'autres tâches de machine learning, en devenant une solution polyvalente pour les applications aux bords d'intelligence artificielle futures.
Dans l'ensemble, l'architecture CGRA à ultra-basse consommation proposée offre une solution prometteuse pour accélérer les modèles de transformateurs dans les environnements de calcul aux bords. En combinant une haute efficacité de calcul avec une faible consommation d'énergie et une adaptabilité, l'architecture répond aux défis computationnels des modèles de transformateurs et permet le déploiement de capacités avancées de machine learning sur des appareils aux bords à faible consommation d'énergie. Ce travail pose les bases pour une exploration plus approfondie des conceptions CGRA à ultra-basse consommation et soutient l'évolution des appareils aux bords intelligents et autonomes capables de traitement avancé d'intelligence artificielle.
Articles Recommandés
Classer les anneaux d'entiers de Grothendieck jusqu'au rang 5 et au-delà
Étude des flux non linéaires et des bandes de cisaillement dans les micelles vermiformes sous des conditions variables d'élasticité, de courbure du flux et de chimie des tensio-actifs
Amélioration de l'architecture de von Neumann pour un futur intelligent
Prédiction de rétro-synthèse impulsée par la raison avec des modèles de grande langue via l'apprentissage par renforcement
La loi forte des grands nombres pour les semi-groupes aléatoires sur les espaces Banach uniformément lisses
CASCADE : Déboucheur JavaScript déobfusqué alimenté par un LLM chez Google
Leçons issues de la piste TREC Plain Language Adaptation of Biomedical Abstracts (PLABA)
ThinkAct : Raisonnement par Vision-Langage-Action via la Planification Latente Visuelle Renforcée
L'Impact du Melange des Langues sur la Raisonnement des Modèles de Langue Multilingues
La recherche de clauses faussées dans les (log n)-CNFs aléatoires est difficile pour les communications aléatoires