Zusammenfassung - Clo-HDnn: Ein kontinuierlicher On-Device-Learning-Accelerator mit energiesparendem Hyperdimensional Computing über progressive Suche, der 4,66 TFLOPS/W und 3,78 TOPS/W erreicht
Titel
Clo-HDnn: Ein kontinuierlicher On-Device-Learning-Accelerator mit energiesparendem Hyperdimensional Computing über progressive Suche, der 4,66 TFLOPS/W und 3,78 TOPS/W erreicht
Zeit
2025-07-23 21:50:28
Autor
{"Chang Eun Song","Weihong Xu","Keming Fan","Soumil Jain","Gopabandhu Hota","Haichao Yang","Leo Liu","Kerem Akarvardar","Meng-Fan Chang","Carlos H. Diaz","Gert Cauwenberghs","Tajana Rosing","Mingu Kang"}
Kategorie
{cs.AR,cs.LG}
Link
http://arxiv.org/abs/2507.17953v1
PDF Link
http://arxiv.org/pdf/2507.17953v1
Zusammenfassung
Clo-HDnn ist ein auf dem Gerät lernender (ODL) Beschleuniger, der speziell für kontinuierliche Lernaufgaben (CL) entwickelt wurde. Er nutzt Hyperdimensional Computing (HDC)-Techniken, um Genauigkeit und Effizienz zu optimieren, während gleichzeitig Energieeffizienz gewährleistet wird.
### Hauptfunktionen:
1. **Integration von Hyperdimensional Computing (HDC)**: Clo-HDnn integriert HDC mit einem kostengünstigen Kronecker HD Encoder und einer Weight Clustering Feature Extraction (WCFE), um Leistung und Effizienz zu verbessern.
2. **Gradientenfreies Training**: Er verwendet gradientenfreie CL-Methoden, um gelerntes Wissen effizient zu aktualisieren und zu speichern, in Form von Klassen-Hypervektoren, was eine nahtlose Anpassung an neue Aufgaben ermöglicht.
3. **Dualmodus-Betrieb**: Diese Funktion ermöglicht das Umgehen kostspieliger Feature-Extraktion für einfachere Datensätze, während ein progressives Suchen die Komplexität durch Kodierung und Vergleich nurpartialer Query-Hypervektoren reduziert.
4. **Progressives Suchen**: Diese Technik kodiert Eingabefunktionen in einen Teilabschnitt des Query-Hypervektors und vergleicht ihn mit assoziativen partiellen CHVs, reduziert die Komplexität um bis zu 61% bei geringfügigem Genauigkeitsverlust.
5. **Benutzerdefinierte Anweisungssatzarchitektur (ISA)**: Clo-HDnn integriert eine angepasste ISA, um Programmierbarkeit zu verbessern und die Leistung zu steigern.
### Vorgeschlagene Design:
Die Clo-HDnn-Architektur besteht aus zwei Hauptkomponenten:
1. **Gewichtskluster-Feature-Extraktor (WCFE)**: Dieser Komponente extrahiert Funktionen mit Hilfe von Gewichtsklustering, was den Berechnungsaufwand und den Speicherbedarf reduziert.
2. **Hyperdimensional-Modul**: Dieses Modul führt Kodierung, Training und Inferenz mit HDC-Techniken durch. Es nutzt einen Kronecker HD Encoder, um Eingabefunktionen effizient zu kodieren, und ein progressives Suchmechanismus, um die Komplexität während der Inferenz zu reduzieren.
### Leistungsergebnisse:
Clo-HDnn zeigt erhebliche Leistungverbesserungen im Vergleich zu bestehenden ODL-Beschleunigern. Er erreicht:
- **Energieeffizienz**: 4,66 TFLOPS/W (FE) und 3,78 TOPS/W (Klassifikator), was eine 7,77× und 4,85× höhere Energieeffizienz als die besten beschleuniger bietet.
- **Genauigkeit**: Erreicht einen geringfügigen Genauigkeitsverlust im Vergleich zum Gleitkommabaseline.
- **Latenz**: Reduziert die Latenz durch effektives Nutzen der WCFE-Bypass-Funktion für einfache Datensätze.
### Schlussfolgerung:
Clo-HDnn ist ein hoch effizienter und präziser ODL-Beschleuniger für CL-Aufgaben. Durch die Integration von HDC-Techniken und die Nutzung einer angepassten ISA erreicht er erhebliche Leistungverbesserungen, während gleichzeitig Energieeffizienz gewährleistet wird. Sein dualmodischer Betrieb und das progressive Suchen machen ihn für verschiedene CL-Anwendungen geeignet und bieten eine wertvolle Lösung für Edge-Geräte und dynamische Umgebungen.
Empfohlene Papiere
Beschreibung der p-Simulation zwischen Theorien
In Richtung konservativer Inferenz in Glaubwürdigkeitsnetzwerken mittels Glaubwürdigkeitsfunktionen: der Fall von Glaubwürdigkeitsketten
SVAgent: KI-Agent für die Verifikation von Hardware-SicherheitsAssertion
Korrelationen und Quantenkreise mit dynamischer kausaler Ordnung
Das merkwürdige Mini-Halo im Shapley-Supernova-Cluster-Mitglied Abell 3558
Interpretation von CFD-Surrogaten durch dünne Autoencoders
Auf Shilow-Grenzen, Rees-Bewertungen und integrale Erweiterungen
Konsensprobleme mit Swaps und Substitutionen für Strings
Baryonifikation II: Begrenzung von Rückkopplungen mit Röntgen- und kinematischen Sunyaev-Zel'dovich-Beobachtungen
Überhitzungs- und Schmelzphänomene einer vibrierten Granulatschicht aus kubischen Teilchen