Zusammenfassung - Ein ultra-niedrigstromverbrauchendes CGRA zur Beschleunigung von Transformers am Rande

Titel
Ein ultra-niedrigstromverbrauchendes CGRA zur Beschleunigung von Transformers am Rande

Zeit
2025-07-17 08:43:14

Autor
{"Rohit Prasad"}

Kategorie
{cs.AR,cs.AI}

Link
http://arxiv.org/abs/2507.12904v1

PDF Link
http://arxiv.org/pdf/2507.12904v1

Zusammenfassung

Dieses Papier schlägt eine ultra-niedrigstromverbrauchende coarse-grained rekonfigurierbare Array (CGRA)-Architektur vor, die speziell zur Beschleunigung von Transformationsmodellen in Randrechenumgebungen entwickelt wurde. Transformers sind entscheidend für Aufgaben wie natürliche Sprachverarbeitung und Computer vision und erfordern eine hohe Rechenleistung, die auf niedrigstromverbrauchenden Geräten schwer zu erfüllen ist. Die vorgeschlagene CGRA löst diese Herausforderung durch die Bereitstellung einer hoch effizienten und anpassungsfähigen Lösung. Die Architektur zeichnet sich durch ein 4x4-Array von Prozessoren (PEs) aus, das für die parallele Berechnung allgemeiner Matrixmultiplikation (GEMM)-Operationen optimiert ist, die für Transformationsmodelle grundlegend sind. Darüber hinaus integriert sie ein dediziertes 4x2-Memory Operation Block (MOB)-Array für optimierte Lade-/Speicheroperationen, was die Anforderungen an die Speicherbandbreite erheblich reduziert und die Datenwiederverwendung verbessert. Key features and benefits of the proposed CGRA architecture include: 1. Heterogeneous Array Design: Die Kombination eines 4x4-PE-Arrays mit einem 4x2-MOB-Array ermöglicht eine hohe Parallelität in der GEMM-Berechnung und reduziert den Datenverkehr und die Latenz bei Speicherzugriffen. 2. Switchless Mesh Torus Interconnect: Diese einzigartige Funktion beseitigt die Notwendigkeit zentraler Schalter und ermöglicht eine direkte Kommunikation zwischen PEs und MOBs. Dies reduziert den Energieverbrauch und die Latenz, was für niedrigstromverbrauchende Edge-Geräte entscheidend ist. 3. Energieeffizienz: Die vorgeschlagene CGRA erreicht ultra-niedrigen Energieverbrauch (über 1mW) und hohe Rechenleistung, was sie für batteriebetriebene Edge-Geräte mit Transformationsmodellen geeignet macht. 4. Optimierte Transformationslasten: Die Architektur ist speziell darauf zugeschnitten, Transformationslasten, einschließlich des Aufmerksamkeitsmechanismus und der feedforward-Schichten, durch Parallelisierung und effiziente Speicherverwaltung zu beschleunigen. 5. Skalierbarkeit: Die CGRA-Architektur ist skalierbar und kann an andere Maschinelles Lernen-Aufgaben angepasst werden, was sie zu einer vielseitigen Lösung für zukünftige Edge-AI-Anwendungen macht. Insgesamt bietet die vorgeschlagene ultra-niedrigstromverbrauchende CGRA-Architektur eine vielversprechende Lösung für die Beschleunigung von Transformationsmodellen in Randrechenumgebungen. Durch die Kombination von hoher Rechenleistung mit niedrigem Energieverbrauch und Anpassungsfähigkeit löst die Architektur die rechenintensiven Herausforderungen von Transformationsmodellen und ermöglicht die Implementierung fortgeschrittener Maschinelles Lernen-Fähigkeiten auf niedrigstromverbrauchenden Edge-Geräten. Diese Arbeit legt den Grundstein für weitere Erkundungen in ultra-niedrigstromverbrauchenden CGRA-Designs und unterstützt die Entwicklung intelligenter, autonomer Edge-Geräte, die fortgeschrittene AI-Verarbeitung durchführen können.


Empfohlene Papiere

Dynamik interagierender Kavitätssolitonen

Zwischenlöschen des vestigialen Ordnungs in einem chiralen Atomischen Suprakristall in einem doppelten Tal-Optischen Gitter

Chirale Cherenkov-Strahlung bei zeitabhängigem chiralen chemischen Potential

Echtzeit-Objekterkennung und -klassifikation mit YOLO für Edge-FPGAs

Rubriken als Belohnungen: Verstärkungslernen jenseits überprüfbarer Domänen

Instabilität im Ostwald-Reifungsprozess

Schätzung einer unendlich dimensionalen Übergangswahrscheinlichkeitsmatrix mittels eines allgemeinen hierarchischen Stick-Breaking-Prozesses

Effekte der Optimierung der Einpartikel-Verminderten Dichtematrix in Variationalen Quanten-Eigenlösungsstrategien

Bei der Extraktion von Quad-Meshes aus verworrenen Gitter-Preservierungskarten

Hyperelastische Natur des Hoek-Brown-Kriteriums