概要 - SIDA: 合成画像駆動のゼロショットドメイン適応
タイトル
SIDA: 合成画像駆動のゼロショットドメイン適応
時間
2025-07-24 17:59:36
著者
{"Ye-Chan Kim","SeungJu Cha","Si-Woo Kim","Taewhan Kim","Dong-Jin Kim"}
カテゴリ
{cs.CV,cs.AI,cs.LG,cs.MM}
リンク
http://arxiv.org/abs/2507.18632v1
PDF リンク
http://arxiv.org/pdf/2507.18632v1
概要
この論文では、合成画像を使用してテキスト記述に依存しない新しいかつ効果的なゼロショットドメインアダプテーション手法であるSIDAを提案しています。このアプローチは、既存のテキスト駆動型手法の限界を克服することを目指し、複雑な現実世界の変化を捉えることが難しく、アライメントプロセスによりアダプテーション時間が大幅に増大する問題を解決しようとしています。 SIDAは以下の3つの主要なステージから構成されています: 1. **画像生成プロセス**:これは視覚言語モデル(VLM)を使用して、ソース画像から詳細なシーンの記述を抽出します。これらの記述に基づいて、画像生成器を使用してさまざまなソース風の合成画像を生成し、ターゲットドメインのスタイルを反映するために画像翻訳を適用します。 2. **ドメインミックスおよびパッチスタイルtransferモジュール**:これらのモジュールは、合成画像のスタイル特徴を使用して、現実世界のシチュエーションに似た多様なグローバルスタイルの強度とローカルスタイルの変化をシミュレートします。ドメインミックスは、内域表現を拡張するために複数のスタイルをブレンドし、パッチスタイルtransferは個々のパッチに異なるスタイルを割り当てます。 3. **微調整ステージ**:これは、エントロピー情報に基づく重み付け交叉エントロピー損失関数を導入することでモデルを微調整します。この損失関数は、高不確実性のターゲット風のスタイル化サンプルから学習を強調し、モデルが多様なスタイルをよりよく捉えることができます。 さまざまなゼロショットドメインアダプテーションシナリオにおける実験では、SIDAが既存の方法を常に上回り、特に火や砂嵐などの困難なドメインにおいて顕著でした。これは、ドメインミックスとパッチスタイルtransferが現実世界のスタイル強度の変化をシミュレートする効果性に帰結されます。 SIDAの主要な貢献は以下の通りです: 1. 合成画像を使用してテキスト記述に依存しない効率的かつ効果的なゼロショットドメインアダプテーション手法を提案しました。 2. ドメインミックスおよびパッチスタイルtransferモジュールを導入し、現実世界のシチュエーションに似た多様なグローバルスタイルの強度とローカルスタイルの変化をシミュレートしました。 3.さまざまなゼロショットドメインアダプテーションシナリオにおいて、特に困難なドメインにおいて著しい性能向上を達成しました。 全体的に、SIDAは合成画像を効果的に利用し、現実世界のスタイル強度の変化をシミュレートすることで、ゼロショットドメインアダプテーションの有望な解決策を提供しています。
推奨論文
プログラム可能な仮想人間による人間の生理学的な薬物発見への進展
AbGen: 科学研究のための消去研究設計と評価における大規模言語モデルの評価
非正規化ユークリッド距離のための$k$-PCA: 多項式時間近似
フロー・マッチングが生物学と生命科学に遭遇する:一つの調査
不確実性下での堅牢最適化を通じてのパーソナライズド薬剤の計算的デザイン
誤りのある関連に対する強靭性と圧縮可能を同時に達成する大きな学習率
HairCUP: 3D高斯アバターの髪の構成ユニバーサル事前情報
時領域におけるマクスウェル方程式の安定化二段階法式
木の深さの非近似性と指数的なETH下界
TokenSmith: 大規模な言語モデルのトレーニングと可視化のためのデータ編集、検索、検証を簡素化