概要 - 異なるCPUとGPUアーキテクチャにおける行列乗算のエネルギー効率:アイドルへの競走

タイトル
異なるCPUとGPUアーキテクチャにおける行列乗算のエネルギー効率:アイドルへの競走

時間
2025-07-26 21:15:05

著者
{"Mufakir Qamar Ansari","Mudabir Qamar Ansari"}

カテゴリ
{cs.DC,cs.CC,"Primary 68W10, Secondary 65Y05, 68M20","C.4; D.1.3"}

リンク
http://arxiv.org/abs/2507.20063v1

PDF リンク
http://arxiv.org/pdf/2507.20063v1

概要

この論文は、消費者レベルのラップトップ内で異なる計算アーキテクチャ上で行列乗算のエネルギー効率を調査しています。この研究は、4096x4096の行列乗算ワークロードを使用して、マルチコアCPU、ディスクリートGPU、統合GPUの性能とエネルギー消費を比較しています。 主要な発見事項: * ディスクリートGPUは最も高い性能を達成し、タスクをCPUよりも93.5倍、統合GPUよりも27.3倍早く完了しました。 * ディスクリートGPUは最も少ないエネルギーを消費し、CPUの使用するエネルギーのわずか2%に過ぎず、CPUよりも約50分の1のエネルギーを消費しました。 * 統合GPUはCPUよりもエネルギー効率が高かったものの、長い実行時間のためにディスクリートGPUよりもわずかに多くのエネルギーを消費しました。 * この研究は、「待機状態への競争」原則を示しており、ワークロードが迅速に完了すると、高い性能が低いエネルギー消費につながる可能性があります。 影響: * この発見は、特定のワークロードにおけるアーキテクチャの専門化によるエネルギー効率の利点を強調しています。 * この研究は、ソフトウェア開発者が性能とエネルギー効率の要望に基づいて適切なハードウェアを選択するための実際のガイドラインを提供しています。 * 「待機状態への競争」原則は、データ並列アプリケーションにおけるエネルギー効率を達成するための主要な戦略として性能の最大化を提案しています。 限界: * この研究は単一の計算制約ワークロードに焦点を当てており、すべてのアプリケーションタイプに一般化できない可能性があります。 * 統合GPUの測定プロトコルは、ディスクリートGPUの直接ポーリングに比べて精度が低いです。 今後の研究: * 研究を拡張し、より幅広い計算コアとワークロードを含める。 * 複数の計算ユニットを同時に利用するハイブリッド実行モデルを探求する。 * ソフトウェア定義のパワーメータを使用したより細かい分析を行うことで、システムレベルの測定を向上させる。


推奨論文

「真空圧縮強化微メートル尺度蒸気セル磁力計」

感情記憶リンク:記憶性アノテーションがインテリジェントシステムにとって重要か?

NoHumansRequired: 自動化高品質画像編集トリプルミニング

HTTPを介したバーチャルローカルエリアネットワークによる内部攻撃の起動

ハードラベル攻撃におけるトランスファーベースの事前知識を用いたレイサーチ手順の強化

音韻分類認識のためのオーディオ・ビジョン対比学習

光子暗黒物質検出のための非伝統的素材

無絡みの光子によるベール不平等の違反

禁止パターンと植えられた色を持つエッジ色付け問題

VideoITG: 指示的な時空基盤を用いた多模様ビデオ理解