概要 - YOLOを使用したエッジFPGAのためのリアルタイム物体検出と分類

タイトル
YOLOを使用したエッジFPGAのためのリアルタイム物体検出と分類

時間
2025-07-24 08:17:37

著者
{"Rashed Al Amin","Roman Obermaisser"}

カテゴリ
{cs.CV,cs.AR}

リンク
http://arxiv.org/abs/2507.18174v1

PDF リンク
http://arxiv.org/pdf/2507.18174v1

概要

この論文では、YOLOv5アーキテクチャに基づいたリソース効率的なリアルタイム物体検出および分類システムを提案し、エッジ FPGAプラットフォームにデプロイするために最適化されています。提案されたシステムは、一般用途の物体検出にはCOCOデータセットを、専門的な交通信号検出および分類にはGTSRBデータセットを使用しています。システムはXilinx Kria KV260 FPGAボードに実装され、3.5Wの消費電力と1秒間に9フレームの処理速度(FPS)で99%の分類精度を達成しています。 論文では、エッジ FPGAに物体検出および分類システムをデプロイする際のリソース効率を達成し、高いパフォーマンスを維持する困難性について議論しています。FPGAを使用して深層学習の推論タスクを加速する利点を強調しており、それらの再プログラム性、高い並列性、およびエネルギー効率を挙げています。 論文では、データセットの準備、モデルのトレーニング、量化和コンパイルを含む提案されたシステムの詳細な実装を示しています。YOLOv5モデルはPyTorchフレームワークを使用してトレーニングされ、Vitis AI開発環境を使用してXilinx Kria KV260 FPGAボードにデプロイ用に最適化されています。量化プロセスでは、モデルの32ビット浮動小数点重みと活性化を8ビット整数(INT8)表現に変換し、モデルのメモリフットプリントを大幅に削減し、データ転送効率を向上させます。 提案されたシステムは、一般的な物体検出および分類にはCOCO、交通標識検出および分類にはGTSRBを使用する標準のベンチマークデータセットで評価されています。評価結果は、提案されたシステムが3.5Wの低消費電力と9 FPSの処理速度で98.6%の高い分類精度を達成していることを示しています。システムのパフォーマンスは、異なるYOLOモデルバリアントを使用する既存のFPGAベースの物体検出システムと比較されています。提案されたシステムは、既存の研究に比べて精度とエネルギー効率が向上しており、リソース制約のあるエッジデバイス向けの実際の解決策となります。 論文は、提案されたシステムの主要な貢献を議論し、FPGA用にYOLO v5を使用したリソース効率的な物体検出および分類システムの開発、YOLOモデルのエッジ FPGAプラットフォームとの互換性最適化、および提案されたシステムの最先端のFPGAベースの物体検出および分類システムに対する評価を含みます。また、システムの推論速度を向上させつつ精度とリソース効率を維持し、モデルを多クラス検出タスクに拡張し、より多様な現実世界のデプロイメントシナリオで評価するという将来の研究を概説しています。


推奨論文

MCP4EDA: バックエンド認識合成最適化付きのLLM駆動モデルコンテキストプロトコルRTL-to-GDSII自動化

チェックリストは、言語モデルの一致を促進するための報酬モデルよりも優れている

「型IIIのアスペクトの仮説検定における強い逆の対数率」

「長文文脈長で状態空間モデル(SSM)とSSM-トランスフォーマーハイブリッド言語モデルの性能を特徴化」

構成機能ネットワーク:深層神経ネットワークに代わる高性能かつ内蔵解釈性を持つ選択肢

VideoITG: 指示的な時空基盤を用いた多模様ビデオ理解

圧縮性と敵対的耐性の相互作用

「高階Busy Beaver関数」という言葉を日本語に翻訳すると、「高次元ベジー関数」となります。ただし、この用語は日本語の技術文献や論文ではあまり使用されていないため、専門的な文献や論文のタイトルや抽象で見られるかもしれません。以下は一般的な翻訳例です: 高次元ベジー関数 あるいは、より詳細に説明する場合は: 高階の忙しいバーバー関数 「高次元」とは、関数の次数を指し、数学や計算機科学の分野で「次数」という言葉はよく使用されます。一方、「ベジー関数」は、テオレム・ベジーの名前をとって命名された関数で、特定の計算機の動作を表す関数です。

監督量子画像処理

無条件の擬似乱数に対する浅い量子回路に対する無条件の擬似乱数