概要 - SynC: ゼロショット画像キャプションのための1対多マッピングを用いた合成画像キャプションデータセットの精査

タイトル
SynC: ゼロショット画像キャプションのための1対多マッピングを用いた合成画像キャプションデータセットの精査

時間
2025-07-24 17:53:26

著者
{"Si-Woo Kim","MinJu Jeon","Ye-Chan Kim","Soeun Lee","Taewhan Kim","Dong-Jin Kim"}

カテゴリ
{cs.CV,cs.AI,cs.CL,cs.LG}

リンク
http://arxiv.org/abs/2507.18616v1

PDF リンク
http://arxiv.org/pdf/2507.18616v1

概要

この論文は、ゼロショット画像キャプション(ZIC)のための合成画像キャプションデータセットを精査するための新しいフレームワークであるSynCを提案しています。解決する主要な課題は、生成された画像と対応するキャプションの間の意味論的不一致で、モデルの訓練を妨げることができます。 SynCは、各キャプションが事前に生成された画像プールから複数の候補画像を取得する一対多のマッピング戦略を使用しています。それから、サイクルの一貫性にインスパイアされたアライメントスコアラーを適用し、画像からテキストへのリトリーブを通じて元のキャプションを取得できるかを確認することで最適な画像を選択します。このアプローチは、効果的に適切に一致する画像キャプションペアを特定し、保存し、ゼロショットキャプションモデルのトレーニングデータの品質を向上させます。 この論文は、SynCの効果を示す幅広い評価を提供しており、さまざまなZICモデルとベンチマークでSynCが有効であることを示し、いくつかのシナリオで最も優れた結果を達成しています。SynCは、ZICのための合成データセットのカurationに特有の課題に対処し、ZICを向上させるための精査された合成データを提供する実際の解決策を提供します。


推奨論文

自然言語プロンプトから生成されたLLMコードの形式確認への進展

神経形态計算:時間、空間、エネルギースケーリングのための理論的枠組み

「意味のある分類に基づくパターソンによるポイントクラウドデータのためのXAI」

非平衡データのためのコルモゴロフ・アーノルド・ネットワーク(KANs)-- 実証的視点

生成AI駆動の高精度人間動作シミュレーション

AI電話調査:AIインタビュアーを用いた定量データ収集の自動化

視覚と言語のトレーニングは分類学的知識の展開を助けますが、それを根本的に変えるものではありません

第6世代(6G)無線ユニット用のFPGA SoCのための拡張可能なリソース管理レイヤー

夢:インタラクティブな世界生成モデル

バランスの乱れ:生成モデルにおけるオンライン概念バランス