概要 - SeC: 渐進的な概念構築を通じて複雑なビデオオブジェクトセグメンテーションを推進する

タイトル

SeC: 渐進的な概念構築を通じて複雑なビデオオブジェクトセグメンテーションを推進する

時間

2025-07-21 17:59:02

著者

{"Zhixiong Zhang","Shuangrui Ding","Xiaoyi Dong","Songxin He","Jianfan Lin","Junsong Tang","Yuhang Zang","Yuhang Cao","Dahua Lin","Jiaqi Wang"}

カテゴリ

{cs.CV,cs.AI}

リンク
http://arxiv.org/abs/2507.15852v1

PDF リンク
http://arxiv.org/pdf/2507.15852v1

概要

この論文では、セグメントコンセプト（SeC）という、高次のオブジェクト中心の推論を活用して、従来の外観に基づくマッチングを超越する新しいビデオオブジェクトセグメントフレームワークを紹介しています。SeCは、複雑なシチュエーションで急激な視覚的変化、隠蔽、およびシーンの変化を扱う既存の方法の限界を克服することを目指しています。 ### 主要な貢献 1. **概念駆動型セグメント化**: SeCは従来の特徴マッチングから、高次のオブジェクト中心の表現の進化的な構築と利用に移行します。SeCは大規模な視覚・言語モデル（LVLM）を活用して、多様なフレーム間の視覚的ヒントを統合し、堅牢な概念的事前情報を構築します。 2. **LVLMに基づく概念ガイドランス**: 推論中にSeCは、処理されたフレームに基づいてターゲットの包括的なセマnt的な表現を形成し、後続フレームの堅牢なセグメント化を実現します。SeCはLVLMに基づくセマnt的な推論と強化された特徴マッチングを適応的にバランス取りながら、シーンの複雑さに応じて計算的な努力を動的に調整します。 3. **セマnt的複雑シチュエーションビデオオブジェクトセグメントベンチマーク（SeCVOS）**: 高次の概念的な推論と堅牢なセマnt的な理解を求めるシチュエーションでVOS方法を厳しく評価するために、論文ではSeCVOSを導入しています。SeCVOSは160の手動で注釈された多シチュエーションビデオを含むベンチマークで、モデルに対して大きな外観の変化と動的なシーン変換を挑戦するように設計されています。 ### 方法論 SeCは以下の2つの主要なコンポーネントで構成されています： 1. **LVLMを用いた概念ガイドンス**: 動画全体を通して稀疏なキーフレームバンクを維持し、LVLMに対して多様な視点からのターゲットの概念を提供します。LVLMはオブジェクトの概念を特別なトークンに要約し、それをオブジェクトレベルの概念ガイドンスベクトルとして抽出します。 2. **シーン適応型活性化戦略**: SeCは効率と精度のバランスを取るためのシーン適応型活性化戦略を使用します。ほとんどのフレームでは軽量なピクセルレベルのマッチングに依存し、重大なシーンの変化が検出された場合にLVLMに基づく概念推論を活性化します。 ### 実験論文では、SeCをSA-V、LVOS、MOSE、DAVIS、YouTube-VOS、提案されたSeCVOSを含むいくつかの標準的なVOSベンチマークで評価しています。結果は、SeCがSAM 2およびそのバリアントを含む既存の最上位のモデルを全てのベンチマークで顕著に上回ることを示しています。特に、SeCはSeCVOSでSAM 2.1に対して11.8ポイントの改善を達成し、概念意識型ビデオオブジェクトセグメント化における新しい記録を樹立しました。 ### 結論 SeCは高次のオブジェクト中心の推論を活用してビデオオブジェクトセグメント化に有望なアプローチを提供します。SeCVOSの導入により、概念駆動型VOS方法の評価と開発がさらに促進されます。著者は、SeCとSeCVOSが長期的でセマnt的に基づくビデオ理解のための概念レベルのモデリングのさらなる探求を促進することを願っています。

推奨論文

テストセットでの事前学習はもはや全てではありません：QAベンチマークに対する議論駆動のアプローチ

ベイズ的な異方分散ガウスプロセスのVecchia近似

TrajLens: 複数サンプル探索における細胞発達経路構築のための視覚解析

夢：インタラクティブな世界生成モデル

F&O満期対初日SIPs：インドのNifty 50における時期の利点の22年分析

GenoMAS：コード駆動型遺伝子発現解析を通じて科学発見のためのマルチエージェントフレームワーク

「高階Datalogにおける否定の力」

CRAFT: エッジ-フォグ環境におけるノード配置のための遺伝子ベースの遅延とコスト意識フレームワーク

ランク5までおよびそれ以上の積分Grothendieck環を分類する

ツイートを用いた混合専門家による説明可能な株価予測の学習