Zusammenfassung - Clo-HDnn: Ein kontinuierlicher On-Device-Learning-Accelerator mit energiesparendem Hyperdimensional Computing über progressive Suche, der 4,66 TFLOPS/W und 3,78 TOPS/W erreicht

Titel

Clo-HDnn: Ein kontinuierlicher On-Device-Learning-Accelerator mit energiesparendem Hyperdimensional Computing über progressive Suche, der 4,66 TFLOPS/W und 3,78 TOPS/W erreicht

Zeit

2025-07-23 21:50:28

Autor

{"Chang Eun Song","Weihong Xu","Keming Fan","Soumil Jain","Gopabandhu Hota","Haichao Yang","Leo Liu","Kerem Akarvardar","Meng-Fan Chang","Carlos H. Diaz","Gert Cauwenberghs","Tajana Rosing","Mingu Kang"}

Kategorie

{cs.AR,cs.LG}

Link
http://arxiv.org/abs/2507.17953v1

PDF Link
http://arxiv.org/pdf/2507.17953v1

Zusammenfassung

Clo-HDnn ist ein auf dem Gerät lernender (ODL) Beschleuniger, der speziell für kontinuierliche Lernaufgaben (CL) entwickelt wurde. Er nutzt Hyperdimensional Computing (HDC)-Techniken, um Genauigkeit und Effizienz zu optimieren, während gleichzeitig Energieeffizienz gewährleistet wird. ### Hauptfunktionen: 1. **Integration von Hyperdimensional Computing (HDC)**: Clo-HDnn integriert HDC mit einem kostengünstigen Kronecker HD Encoder und einer Weight Clustering Feature Extraction (WCFE), um Leistung und Effizienz zu verbessern. 2. **Gradientenfreies Training**: Er verwendet gradientenfreie CL-Methoden, um gelerntes Wissen effizient zu aktualisieren und zu speichern, in Form von Klassen-Hypervektoren, was eine nahtlose Anpassung an neue Aufgaben ermöglicht. 3. **Dualmodus-Betrieb**: Diese Funktion ermöglicht das Umgehen kostspieliger Feature-Extraktion für einfachere Datensätze, während ein progressives Suchen die Komplexität durch Kodierung und Vergleich nurpartialer Query-Hypervektoren reduziert. 4. **Progressives Suchen**: Diese Technik kodiert Eingabefunktionen in einen Teilabschnitt des Query-Hypervektors und vergleicht ihn mit assoziativen partiellen CHVs, reduziert die Komplexität um bis zu 61% bei geringfügigem Genauigkeitsverlust. 5. **Benutzerdefinierte Anweisungssatzarchitektur (ISA)**: Clo-HDnn integriert eine angepasste ISA, um Programmierbarkeit zu verbessern und die Leistung zu steigern. ### Vorgeschlagene Design: Die Clo-HDnn-Architektur besteht aus zwei Hauptkomponenten: 1. **Gewichtskluster-Feature-Extraktor (WCFE)**: Dieser Komponente extrahiert Funktionen mit Hilfe von Gewichtsklustering, was den Berechnungsaufwand und den Speicherbedarf reduziert. 2. **Hyperdimensional-Modul**: Dieses Modul führt Kodierung, Training und Inferenz mit HDC-Techniken durch. Es nutzt einen Kronecker HD Encoder, um Eingabefunktionen effizient zu kodieren, und ein progressives Suchmechanismus, um die Komplexität während der Inferenz zu reduzieren. ### Leistungsergebnisse: Clo-HDnn zeigt erhebliche Leistungverbesserungen im Vergleich zu bestehenden ODL-Beschleunigern. Er erreicht: - **Energieeffizienz**: 4,66 TFLOPS/W (FE) und 3,78 TOPS/W (Klassifikator), was eine 7,77× und 4,85× höhere Energieeffizienz als die besten beschleuniger bietet. - **Genauigkeit**: Erreicht einen geringfügigen Genauigkeitsverlust im Vergleich zum Gleitkommabaseline. - **Latenz**: Reduziert die Latenz durch effektives Nutzen der WCFE-Bypass-Funktion für einfache Datensätze. ### Schlussfolgerung: Clo-HDnn ist ein hoch effizienter und präziser ODL-Beschleuniger für CL-Aufgaben. Durch die Integration von HDC-Techniken und die Nutzung einer angepassten ISA erreicht er erhebliche Leistungverbesserungen, während gleichzeitig Energieeffizienz gewährleistet wird. Sein dualmodischer Betrieb und das progressive Suchen machen ihn für verschiedene CL-Anwendungen geeignet und bieten eine wertvolle Lösung für Edge-Geräte und dynamische Umgebungen.

Empfohlene Papiere

Beschreibung der p-Simulation zwischen Theorien

In Richtung konservativer Inferenz in Glaubwürdigkeitsnetzwerken mittels Glaubwürdigkeitsfunktionen: der Fall von Glaubwürdigkeitsketten

SVAgent: KI-Agent für die Verifikation von Hardware-SicherheitsAssertion

Korrelationen und Quantenkreise mit dynamischer kausaler Ordnung

Das merkwürdige Mini-Halo im Shapley-Supernova-Cluster-Mitglied Abell 3558

Interpretation von CFD-Surrogaten durch dünne Autoencoders

Auf Shilow-Grenzen, Rees-Bewertungen und integrale Erweiterungen

Konsensprobleme mit Swaps und Substitutionen für Strings

Baryonifikation II: Begrenzung von Rückkopplungen mit Röntgen- und kinematischen Sunyaev-Zel'dovich-Beobachtungen

Überhitzungs- und Schmelzphänomene einer vibrierten Granulatschicht aus kubischen Teilchen