Résumé - Tolérance aux pannes personnalisée basée sur un algorithme pour les couches d'attention dans les Transformers

Titre

Tolérance aux pannes personnalisée basée sur un algorithme pour les couches d'attention dans les Transformers

Temps

2025-07-22 15:11:13

Auteur

{"Vasileios Titopoulos","Kosmas Alexandridis","Giorgos Dimitrakopoulos"}

Catégorie

{cs.LG,cs.AR}

Lien
http://arxiv.org/abs/2507.16676v1

PDF Lien
http://arxiv.org/pdf/2507.16676v1

Résumé

L'article discute d'une méthode innovante appelée Flash-ABFT, conçue pour améliorer la tolérance aux pannes des couches d'attention dans les modèles de deep learning basés sur les transformers. Cette méthode répond à un défi significatif des accélérateurs matériels actuels qui utilisent des mécanismes d'attention : la détection efficace des erreurs causées par des pannes matérielles aléatoires. Les transformers et les grands modèles de langage (LLM), alimentés par le mécanisme d'attention, ont révolutionné de nombreuses applications d'IA, entraînant la nécessité d'accélérateurs matériels spécialisés. Cependant, ces accélérateurs se heurtent à des défis pour détecter efficacement les erreurs en raison de pannes matérielles aléatoires. Les techniques traditionnelles de tolérance aux pannes basées sur des algorithmes (ABFT) vérifient des multiplications matricielles individuelles, mais elles ne parviennent pas à gérer l'ensemble du mécanisme d'attention, en particulier en raison de la normalisation softmax intermédiaire. Cette recherche propose Flash-ABFT, une méthode nouvelle qui calcule un checksum en ligne sur l'ensemble du produit de trois matrices (requête, clé et valeur) d'une couche d'attention, y compris l'opération softmax, avec une seule vérification. Cette approche réduit considérablement les surcoûts en éliminant les vérifications redondantes tout en maintenant une haute précision de détection des pannes. Flash-ABFT atteint les contributions suivantes : 1. Il propose une méthode qui fusionne la vérification des erreurs en une seule étape en calculant un checksum prédit pour l'opération d'attention complète, y compris la normalisation softmax. Contrairement aux techniques ABFT traditionnelles qui vérifient chaque multiplication matricielle séparément, cette approche unifiée permet une détection des erreurs plus complète et plus efficace. 2. Il intègre cette computation de checksum fusionné de manière fluide dans les accélérateurs matériels optimisés pour l'attention existants, ajoutant une détection des erreurs en ligne avec un overhead minimal. Cela améliore la tolérance aux pannes tout en engendrant moins de 1,9% de coût énergétique supplémentaire, le rendant une amélioration hautement efficace et pratique. 3. Il démontre une haute précision de détection des pannes avec un nombre minimal d'alarms fausses, grâce à la petite taille de l'état de vérification par rapport au chemin de données de l'accélérateur. Les résultats d'évaluation montrent que Flash-ABFT engendre seulement un overhead matériel de 5,3% et un overhead énergétique inférieur à 1,9%, le rendant une solution économique et robuste pour la détection des erreurs dans les accélérateurs d'attention. En résumé, Flash-ABFT fournit une solution efficace et précise pour la détection des erreurs dans les couches d'attention, améliorant la fiabilité et les performances des accélérateurs matériels utilisés pour les transformers et les LLM.

Articles Recommandés

Solutions fortement périodiques dans un problème d'interaction fluide-structure à plusieurs couches

Moving Out : Collaboration humain-AI ancrée dans la réalité physique

Observation de tension non locale macroscopique et de flux hydrodynamique d'électrons à température ambiante

Nature hyperélastique du critère de Hoek-Brown

Sur les frontières de Shilov, les évaluations de Rees et les extensions intégrales

TRPrompt : Amorçage de l'optimisation des prompts-aware aux requêtes à partir des récompenses textuelles

Présentations exactes et approximatives des fonctions booléennes dans la base de De Morgan

Taux fort de conversion pour le test d'hypothèses asymptotiques de type III

Simuler plusieurs perspectives humaines dans les systèmes socio-écologiques à l'aide de grands modèles de langage

Étape-3 : Grand mais abordable : Co-conception du modèle-système pour un décodage efficace en termes de coût