概要 - Clo-HDnn: 進行的な検索を通じてエネルギー効率の高い超次元計算による、4.66 TFLOPS/Wと3.78 TOPS/Wの持続可能なデバイス内学習アクセラレーター

タイトル
Clo-HDnn: 進行的な検索を通じてエネルギー効率の高い超次元計算による、4.66 TFLOPS/Wと3.78 TOPS/Wの持続可能なデバイス内学習アクセラレーター

時間
2025-07-23 21:50:28

著者
{"Chang Eun Song","Weihong Xu","Keming Fan","Soumil Jain","Gopabandhu Hota","Haichao Yang","Leo Liu","Kerem Akarvardar","Meng-Fan Chang","Carlos H. Diaz","Gert Cauwenberghs","Tajana Rosing","Mingu Kang"}

カテゴリ
{cs.AR,cs.LG}

リンク
http://arxiv.org/abs/2507.17953v1

PDF リンク
http://arxiv.org/pdf/2507.17953v1

概要

Clo-HDnnは、継続的な学習(CL)タスク用に特別に設計されたデバイス上の学習(ODL)アクセラレータです。それは、エネルギー効率を確保しつつ、精度と効率を最適化するために、超次元計算(HDC)技術を利用します。 ### 主要な機能: 1. **超次元計算(HDC)統合**:Clo-HDnnは、低コストのKronecker HDエンコーダと重みクラスタリング特徴抽出(WCFE)を統合し、パフォーマンスと効率を向上させます。 2. **勾配なしトレーニング**:それは、クラスの超次元ベクトルとして学習した知識を効率的に更新および保存するために、勾配なしのCLメソッドを使用し、新しいタスクへの無缝な適応を可能にします。 3. **デュアルモード動作**:この機能は、シンプルなデータセットに対して高コストな特徴抽出をバイパスし、進捗的な検索によって部分クエリ超次元ベクトルをエンコードおよび比較することで複雑さを減少させます。 4. **進捗的な検索**:この技術は、入力特徴をクエリ超次元ベクトルの部分セグメントにエンコードし、関連する部分CHVsと比較することで、複雑さを最大61%まで減少させながら、精度の低下はほとんど見られません。 5. **カスタムインストラクションセットアーキテクチャ(ISA)**:Clo-HDnnは、プログラム性を向上させ、パフォーマンスを改善するためにカスタマイズされたISAを統合します。 ### 提案された設計: Clo-HDnnのアーキテクチャは、主に2つの主要なコンポーネントで構成されています: 1. **重みクラスタリング特徴抽出(WCFE)**:このコンポーネントは、計算オーバーヘッドとメモリ要件を減少させるために重みクラスタリングを使用して特徴を抽出します。 2. **超次元モジュール**:このモジュールは、HDC技術を使用してエンコード、トレーニング、推論を行います。Kronecker HDエンコーダを使用して入力特徴を効率的にエンコードし、推論中の複雑さを減少させるための進捗的な検索メカニズムを利用します。 ### パフォーマンス結果: Clo-HDnnは、既存のODLアクセラレータに対して顕著なパフォーマンス向上を示しています。以下のような成果を達成しています: - **エネルギー効率**:4.66 TFLOPS/W(FE)と3.78 TOPS/W(クラス分類器)、最も優れたアクセラレータに対して7.77倍と4.85倍のエネルギー効率を提供します。 - **精度**:浮動小数点ベースの基準に対してわずかな精度低下を達成します。 - **遅延**:シンプルなデータセットに対してWCFEバイパス機能を効果的に利用することで遅延を減少させます。 ### 結論: Clo-HDnnは、CLタスク用の非常に効率的で正確なODLアクセラレータです。HDC技術の統合とカスタマイズされたISAの利用により、パフォーマンスの大幅な向上を達成しつつ、エネルギー効率を維持しています。デュアルモード動作と進捗的な検索メカニズムにより、さまざまなCLアプリケーションに適しており、エッジデバイスや動的な環境用の価値あるソリューションを提供します。


推奨論文

無条件の擬似乱数に対する浅い量子回路に対する無条件の擬似乱数

バランスの乱れ:生成モデルにおけるオンライン概念バランス

有限領域における可変 Min-Cut Max-Flow 界とアルゴリズム

SpeechIQ:音声理解の大規模言語モデルにおける認知レベルにわたる音声知能指数

MODA: マルチタスクターゲット意識型分子生成のための統一化3D拡散フレームワーク

ドブズ対ジャクソン事件後のGoogle検索広告

DT4PCP: 2型糖尿病管理に適用されたパーソナライズドケア計画のためのデジタルツインフレームワーク

半環環Turing機のFaginの定理

「手を放つ?」ほどではない:コンテンツベースの初期化を使用した連続的な推薦におけるアイテムの冷始末問題の解決策を探る

非曲がり可能なガラス中間基板によって実現される高性能かつ熱的にも可能なマルチチップレットアーキテクチャの設計