概要 - VisionThink:強化学習を通じてスマートで効率的な視覚言語モデル
タイトル
VisionThink:強化学習を通じてスマートで効率的な視覚言語モデル
時間
2025-07-17 17:59:55
著者
{"Senqiao Yang","Junyi Li","Xin Lai","Bei Yu","Hengshuang Zhao","Jiaya Jia"}
カテゴリ
{cs.CV,cs.AI,cs.CL,cs.LG}
リンク
http://arxiv.org/abs/2507.13348v1
PDF リンク
http://arxiv.org/pdf/2507.13348v1
概要
この論文では、VisionThinkという新しいアプローチを紹介します。これは、各サンプルの内容に基づいて高解像度画像が必要かどうかを動的に決定する効率的なビジュアル言語モデル(VLM)です。前の方法とは異なり、固定されたカットオフ比率や閾値に依存するのではなく、VisionThinkはケースバイケースでトークンを圧縮するかどうかを自律的に決定します。このアプローチは、OCR関連のタスクにおいて強力な詳細な視覚理解を提供しつつ、シンプルなタスクにおいては視覚トークンの大幅な節約を達成します。 ### VisionThinkの主要な機能: * **動的解像度処理**:VisionThinkはダウンサンプリングされた画像から始め、問題解決に十分かどうかを判断します。必要でない場合は、より高い解像度の画像を要求するための特別なトークンを出力します。 * **強化学習**:モデルは強化学習とLLM-as-Judge戦略を使用して、効率と性能のバランスを取る方法を学習します。適切に設計された報酬関数とペナルティメカニズムを通じて、高解像度の入力が必要な時期を決定します。 * **詳細な視覚理解**:VisionThinkは必要に応じて高解像度の画像を要求する能力により、OCR関連のタスクにおいて優れた性能を示します。 * **効率**:VisionThinkは視覚トークンの数を大幅に減らし、推論時間の短縮と計算コストの削減をもたらします。 ### 方法論: 1. **ダウンサンプリング画像処理**:VisionThinkは低解像度の画像を処理し、計算コストを最小限に抑えます。 2. **LLM-as-Judge**:外部の大規模な言語モデル(LLM)が、テキストベースの比較のみを使用してモデルの答えを評価します。これにより、モデルは人間に基づいた柔軟な評価から学習できます。 3. **多段階GRPO**:モデルは多段階グループ相対ポリシー最適化(GRPO)を使用して、効率と性能のバランスを取る方法を学習します。 4. **報酬設計**:報酬関数には精度、フォーマット、およびペナルティの要素が含まれ、最適な解像度決定を促進します。 5. **データ準備**:モデルは高解像度画像が必要なサンプルと、ダウンサンプリング画像で回答できるサンプルを含む多様なVQAサンプルセットで訓練されます。 ### 実験: 著者らは、ChartQA、OCRBench、MathVista、MMVet、RealWorldQA、およびMathVerseなどのいくつかの一般的なVQAバンチマークでVisionThinkを評価しました。結果は、VisionThinkが効率的なVLM方法の中で、性能と効率の両方において優れていることを示しました。 ### 結論: VisionThinkは効率的なVLM分野における大きな進歩を表しています。高解像度画像が必要かどうかを動的に決定し、強化学習を使用して性能を最適化することで、VisionThinkはより効率的で効果的なVLMの構築のための有望な解決策を提供します。
推奨論文
多様な分子埋め込みの表現と統合のためのプラットフォーム
自回归時間序列のための効率的な因果発見
F&O満期対初日SIPs:インドのNifty 50における時期の利点の22年分析
ステップ-3は、大きなものながら安価です:低コストなデコードのためのモデルシステム共同設計
深層脳ネット:エッフェクティブネットB0とResNet50を使用した、移行学習を通じてMRI画像における脳腫瘍検出のための最適化された深層学習モデル
RoadBench:道路損傷理解のためのビジョン言語基盤モデルとベンチマーク
NoHumansRequired: 自動化高品質画像編集トリプルミニング
リラックスした総合拡散変分正則化のパーツごとに滑らかなMumford-Shahモデルによる三角化表面分断
公開量子コンピュータ上での非侵襲的測定による時間の順序とLeggett-Garg不平等の検証
神経形态計算:時間、空間、エネルギースケーリングのための理論的枠組み