概要 - 視覚と言語のトレーニングは分類学的知識の展開を助けますが、それを根本的に変えるものではありません

タイトル
視覚と言語のトレーニングは分類学的知識の展開を助けますが、それを根本的に変えるものではありません

時間
2025-07-17 17:47:47

著者
{"Yulu Qin","Dheeraj Varghese","Adam Dahlgren Lindström","Lucia Donatelli","Kanishka Misra","Najoung Kim"}

カテゴリ
{cs.CL,cs.AI}

リンク
http://arxiv.org/abs/2507.13328v1

PDF リンク
http://arxiv.org/pdf/2507.13328v1

概要

この論文は、視覚と言語(VL)トレーニングが言語モデル(LM)の分類学的知識に与える影響を調査しています。過去の研究では、VLトレーニング後のLMの言語的表現における一貫しないまたはわずかな差が示されていますが、この論文は特に語彙・概念的知識の分野とその分類学的構造に焦点を当てています。 著者たちは、タクソノミーグーカエ(TaxonomiGQA)と呼ばれる、テキストのみのGQA視覚的質問応答データセットのバージョンを開発しました。このデータセットは、タクソノミー理解が必要な質問に答えるために作成されています。著者たちは、様々なVLM-LMモデルペアのTaxonomiGQAにおける性能を比較し、タスクが純粋にテキストベースであるにもかかわらず、ほとんどのVLMがそのLMの対照モデルを上回ったことを発見しました。 この結果を説明するために、著者たちは以下の二つの仮説を提案しました: 1. VLトレーニングは、LMの中の(タスクに無関係の)タクソノミー知識を本質的に変える。 2. VLトレーニングは、LMがその(ほぼ変わらない)タクソノミー知識をタスクに利用する際に、その能力を向上させる。 制御された行動と表現的分析を通じて、著者たちは第二の仮説を支持する証拠を見つけました。彼らは、タクソノミー知識そのものは追加のVLトレーニングを通じて大幅に変化しなかったが、タスクの提示が純粋に言語的であっても、特定のタスクの文脈においてその知識の展開を改善したことを発見しました。 著者たちは以下の分析を通じて結論をサポートしました: 1.彼らはタクソノミックミニマルペア(TAXOMPS)を開発し、タクソノミー判断を直接引き出し、VLMとLMがこのタスクにおいて同様のパフォーマンスを示したことを発見しました。これは、VLトレーニングがLMのタクソノミー知識を本質的に変えるとは考えにくいことを示しています。 2.彼らはモデルの表現空間における概念の階層的組織を分析し、VLMとLMの間で概念の階層的組織が大部分で共有されていることを発見しました。これもまた、VLトレーニングがLMのタクソノミー知識を本質的に変えるとは考えにくいことを示しています。 3.彼らはタクソノミー関係の埋め込み相似性を分析し、VLMとLMの間に著しい違いがないことを発見しました。 著者たちはまた、特定のタスクの文脈におけるタクソノミー知識の展開に焦点を当てた第二の仮説を検証するための分析をいくつか行いました: 1.彼らはタクソノミー関係における概念の文脈化された表現相似性を分析し、タクソノミー知識の展開を必要とするタスクの文脈において、モデルの表現と行動の間にVLMがより強い結びつきを持っていることを発見しました。 2.彼らは質問の表現に対するPCA分析を行い、タクソノミーの区別がVLMの質問表現においてより線形に分離可能であることを示しました。これは、VLMがLMに比べてタクソノミー知識を適切に展開する利点があることを示しています。 最後に、著者たちは視覚トレーニングがなぜ役立つかを説明するための初期の調査を行いました。彼らは、超種概念-下位概念関係のメンバー間の視覚的類似性が、タクソノミータスクのためのこれらの単語のより有用な表現をVLMが学ぶ手助けになるという仮説を立てました。彼らは、VLMのTaxonomiGQAにおける行動的な成功が、タクソノミー関係のメンバー間の視覚的類似性によって予測されると発見し、その予測の強さは超種概念の視覚的な連続性によって調節されているとしました。 結論として、この論文はVLトレーニングがLMのタクソノミー知識を本質的に変えることなく、特定のタスクの文脈におけるその知識の展開を改善することを示しています。この発見は、VLトレーニングがLMに与える影響を理解するためと、より効果的なVLMの開発のための重要な意味を持っています。


推奨論文

「大規模言語モデルを使用して、社会生態系における複数の人間の視点をシミュレートする」

異なるCPUとGPUアーキテクチャにおける行列乗算のエネルギー効率:アイドルへの競走

時領域におけるマクスウェル方程式の安定化二段階法式

機械学習支援のタンパク質工学のためのベストプラクティス

モデリング(デオンティック)モーダル演算子とs(CASP)ゴール指向的な宣言的な答えセットプログラミングシステム Translation: モデリング(デオンティック)モーダル演算子とs(CASP)ゴール指向的な宣言的な答えセットプログラミングシステム

音韻分類認識のためのオーディオ・ビジョン対比学習

Ultra3D:部分注意での効率的で高精度な3D生成

問題追跡エコシステム:文脈とベストプラクティス

Pauli測定は単一杯子トモグラフィにおいてほぼ最適です。

SpiNNaker2神経モーフィックMPSoCのためのエンドツーエンドDNN推論フレームワーク