概要 - RoadBench:道路損傷理解のためのビジョン言語基盤モデルとベンチマーク

タイトル
RoadBench:道路損傷理解のためのビジョン言語基盤モデルとベンチマーク

時間
2025-07-23 09:34:35

著者
{"Xi Xiao","Yunbei Zhang","Janet Wang","Lin Zhao","Yuxiang Wei","Hengjia Li","Yanshu Li","Xiao Wang","Swalpa Kumar Roy","Hao Xu","Tianyang Wang"}

カテゴリ
{cs.CE}

リンク
http://arxiv.org/abs/2507.17353v1

PDF リンク
http://arxiv.org/pdf/2507.17353v1

概要

この論文では、道路損傷理解のための最初の多様なモードのベンチマークであるRoadBenchと、この分野に特化した新しいビジョン・言語モデルであるRoadCLIPを紹介しています。RoadBenchは、路面状態の詳細なテキスト記述とともに10万枚の高解像度の道路画像で構成されており、モデルのトレーニングに豊かな文脈を提供します。RoadCLIPは、道路損傷認識タスクにおいて最先端の性能を達成し、既存の視覚のみまたは多様なモードの方法を大幅に上回っています。 主要な貢献点: * **RoadBench**: このデータセットは、道路損傷の高解像度画像と路面状態の詳細なテキスト記述を組み合わせており、モデルのトレーニングに豊かな文脈を提供します。この種のデータセットでは最大規模で、10万の画像-テキストペアを持ち、多様な道路損傷シナリオと環境条件をカバーしています。 * **RoadCLIP**: このビジョン・言語モデルはCLIPフレームワークに基づいており、道路画像とその記述から効果的に学習するための分野特別な強化を取り入れています。以下の2つの主要なモジュールを含んでいます: * **病気認識ポジショナルエンコーディング(DaPE)**: このモジュールは道路欠陥の空間パターンとその位置を捉え、損傷領域の位置決定能力を向上させます。 * **分野特別な事前情報注入**: このメカニズムは道路損傷カテゴリとその特徴に関する専門知識を注入し、モデルの道路状況の理解を強化します。 * **実験**: 複数の実験が示すように、RoadCLIPは既存のモデルと比較して道路損傷認識タスクにおいて優れた性能を発揮し、最も優れた視覚モデルを19.2%の検出精度と20.9%の分類F1スコアで上回っています。 RoadBenchとRoadCLIPは、多様なモードの学習を通じてより効果的なインフラ監視を可能にし、分野における新しいベンチマークを設定し、より正確で信頼性の高い道路損傷検出システムの開発を促進します。


推奨論文

脊椎側弯診断のための深層学習モデルの多施設認証

ホーク・ブラウン基準の超弾性性質

非構造データからのパーソナライズされた治療効果推定

ChemDFM-R: アトミズド化学知識で強化された化学推論エンジン LLM

TyDi QA-WANA: 西アと北アフリカの言語における情報探索型質問応答のための基準

CCL25-Evalタスク10用システムレポート:微細な中国語のヘイトスピーチ認識のためのSRAG-MAV

ユークリッドフリーズタグ問題における向上した目覚め時間

禁止パターンと植えられた色を持つエッジ色付け問題

「高階Datalogにおける否定の力」

変形体との接触を検出するための十分かつ必要な接触検出のためのグラフ神経网络的サローグエート