Zusammenfassung - Individueller, auf Algorithmen basierter Fehler-Toleranzmechanismus für Aufmerksamkeits-Schichten in Transformern
Titel
Individueller, auf Algorithmen basierter Fehler-Toleranzmechanismus für Aufmerksamkeits-Schichten in Transformern
Zeit
2025-07-22 15:11:13
Autor
{"Vasileios Titopoulos","Kosmas Alexandridis","Giorgos Dimitrakopoulos"}
Kategorie
{cs.LG,cs.AR}
Link
http://arxiv.org/abs/2507.16676v1
PDF Link
http://arxiv.org/pdf/2507.16676v1
Zusammenfassung
Der Artikel diskutiert eine neue Methode namens Flash-ABFT, die entwickelt wurde, um die Fehlerver容忍fähigkeit von Aufmerksamkeitslagen in auf Transformer basierenden tiefen Lernmodellen zu verbessern. Diese Methode adressiert eine erhebliche Herausforderung in aktuellen Hardwarebeschleunigern, die Aufmerksamkeitsmechanismen verwenden: die effiziente Erkennung von Fehlern durch zufällige Hardwarefehler.
Transformers und große Sprachmodelle (LLMs), angetrieben durch das Aufmerksamkeitsmechanismus, haben zahlreiche AI-Anwendungen revolutioniert, was die Notwendigkeit spezieller Hardwarebeschleuniger erfordert. Allerdings stehen diese Beschleuniger vor Herausforderungen, wenn es darum geht, Fehler durch zufällige Hardwarefehler effizient zu erkennen.
Traditionelle auf Algorithmen basierende Fehlerver容忍 (ABFT)-Techniken überprüfen individuelle Matrixmultiplikationen, aber sie reichen nicht aus, um die gesamte Aufmerksamkeitsmechanik zu handhaben, insbesondere aufgrund der intermediären Softmax-Normalisierung. Diese Arbeit schlägt Flash-ABFT vor, eine neue Methode, die eine Online-Prüfsumme über das gesamte dreifache Produkt aus den Matrixmultiplikationen der Query-, Key- und Value-Matrizen einer Aufmerksamkeitslage berechnet, einschließlich der Softmax-Operation, mit nur einer Überprüfung. Dieser Ansatz reduziert den Overhead erheblich, indem er redundante Überprüfungen eliminiert, während gleichzeitig eine hohe Fehlererkennungsgenauigkeit beibehalten wird.
Flash-ABFT erreicht die folgenden Beiträge:
1. Es schlägt eine Methode vor, die Fehlerprüfung in einen Schritt integriert, indem es eine vorausgesagte Prüfsumme für die gesamte Aufmerksamkeitsoperation berechnet, einschließlich der Softmax-Normalisierung. Im Gegensatz zu traditionellen ABFT-Techniken, die jede Matrixmultiplikation separat überprüfen, ermöglicht dieser einheitliche Ansatz eine umfassendere und effizientere Fehlererkennung.
2. Es integriert diese gefügte Prüfsummenberechnung nahtlos in bestehende optimierte Hardwarebeschleuniger für Aufmerksamkeit, fügt online Fehlererkennung mit minimalen Overhead hinzu. Dies verbessert die Fehlerver容忍fähigkeit, während weniger als 1,9 % zusätzlicher Energiekosten verursacht werden, was es zu einer hoch effizienten und praktischen Erweiterung macht.
3. Es zeigt eine hohe Fehlererkennungsgenauigkeit mit minimalen Fehlalarmen, da der Überwachungsstatus im Vergleich zum Datapath der Beschleuniger klein ist.
Die Bewertungsergebnisse zeigen, dass Flash-ABFT nur einen Overhead von 5,3 % im Hardwarebereich und weniger als 1,9 % im Energiebereich verursacht, was es zu einer kosteneffektiven und robusten Lösung für die Fehlererkennung in Aufmerksamkeitsbeschleunigern macht.
Zusammenfassend lässt sich sagen, dass Flash-ABFT eine effiziente und genaue Lösung für die Fehlererkennung in Aufmerksamkeitslagen bietet und die Zuverlässigkeit und Leistung der Hardwarebeschleuniger, die für Transformers und LLMs verwendet werden, verbessert.
Empfohlene Papiere
TOI-1259Ab: Ein warmer Jupiter umkreist ein K-Kleiner Weisses-Doppelstern-System auf einer gut ausgerichteten Umlaufbahn.
Ein ultra-niedrigstromverbrauchendes CGRA zur Beschleunigung von Transformers am Rande
Der Einfluss der Sprachmischung auf das Reasoning von mehrsprachigen LLMs
Instabilität im Ostwald-Reifungsprozess
Geometrie des Phasenraums eines Vierflügel chaotischen Attractors
Vortrainieren auf dem Testset ist nicht mehr alles, was Sie benötigen: Ein diskussionsgeleitetes Ansatz zur Erstellung von QA-Benchmarks
GENIAL: Generative Design Space Exploration durch Netzwerkumkehr für niedrigenergie-algorithmische Logik-Unit
Ein Stiftungsmodell für massive MIMO-Precoding mit einem anpassungsfähigen pro-Benutzer-Raten-Leistungsaustausch
Bei der Extraktion von Quad-Meshes aus verworrenen Gitter-Preservierungskarten
Eine Studie über nichtlineare Strömungen und Scherbandbildung in Wurmförmigen Mikellen unter variabler Elastizität, Strömungskrümmung und Surfactant-Chemie