概要 - DINO-SLAM:神経学的な暗黙的および明示的な表現のためのDINO情報を利用したRGB-D SLAM
タイトル
DINO-SLAM:神経学的な暗黙的および明示的な表現のためのDINO情報を利用したRGB-D SLAM
時間
2025-07-25 17:57:37
著者
{"Ziren Gong","Xiaohan Li","Fabio Tosi","Youmin Zhang","Stefano Mattoccia","Jun Wu","Matteo Poggi"}
カテゴリ
{cs.CV}
リンク
http://arxiv.org/abs/2507.19474v1
PDF リンク
http://arxiv.org/pdf/2507.19474v1
概要
DINO-SLAMは、自己学習の視覚モデル(DINO)から抽出された特徴にエンコードされた高レベルのシーン理解をSLAMシステムにスムーズに統合する革新的で一般的なフレームワークです。以下の3つの主要な利点があります: 1. 層階的なシーン理解:既存のSLAM方法に比べて、DINO-SLAMは包括的なシーン特徴の層階を捉えます(幾何学的詳細、部分レベル、シーンレベルのレイアウト)。 2. 持続的な特徴と構造的関係の捉え:セマntic SLAMで离散ラベルに基づいて動作するのとは異なり、連続的な特徴空間がDINO-SLAMにシーン内のコンポーネント間および部分全体の関係を捉えることを可能にします。 3. セマntic SLAMのための事前に定義されたカテゴリやアノテーションラベルが必要な自己監督モデルなしで動作します。 DINO-SLAMの基盤は、シーン構造エンコーダ(SSE)と呼ばれるカスタムモデルで、元のDINO特徴から文脈理解と構造的関係をエンコードした高レベルの特徴の層階を抽出します。このエクストラクタを基に、NeRFベースおよび3DGSベースのSLAM方法の両方に対して専門的なパラダイムが確立されています。 シーン構造エンコーダ(SSE)は、層階的なシーン特徴と構造的関係をシーン表現に豊かにします。DINO特徴と深度情報を捕らえ、注意モジュールを通じてこれらを精査し、向上させたDINO(EDINO)特徴を生成します。 NeRFベースのパイプラインでは、EDINO特徴が三平面最適化の監督を提供し、DINO特徴が推定されたDINO特徴マップの最適化を指導します。3DGSベースのパイプラインでは、EDINO特徴がガウスパラメータに統合され、DINO特徴が推定された特徴マップの監督に利用されます。 人気のデータセットでの実験では、DINO-SLAMパイプラインが最適な方法に比べて優れた性能を示しました。NeRFベースの実装は、補完、補完率、RMSEメトリクスにおいて優秀であり、3DGSベースの実装はレンダリング品質と追跡精度において最適な性能を達成しました。 結論として、DINO-SLAMはSLAMシステムにおける神経シーン表現を強化する革新的で効果的なフレームワークであり、シーン理解、追跡精度、レンダリング品質において顕著な改善を提供します。
推奨論文
問題追跡エコシステム:文脈とベストプラクティス
非离散領域を超えた近似SMT計数
リラックスした総合拡散変分正則化のパーツごとに滑らかなMumford-Shahモデルによる三角化表面分断
VideoITG: 指示的な時空基盤を用いた多模様ビデオ理解
相関と動的因果順序を持つ量子回路
関連する多属性データの局所差分プライバシー下での周波数推定
ブロック符号化におけるアンシラ・オーバーヘッドを削減する方法
GEPA: 反映的なプルミプト進化が强化学習を超える可能性があります
SIDA: 合成画像駆動のゼロショットドメイン適応
DRWKV: 低照明画像強化のためのオブジェクト境界に焦点を当てる