概要 - MIRAGE-Bench: LLMエージェントが幻覚を見ており、どこにそれらを見つけるか

タイトル
MIRAGE-Bench: LLMエージェントが幻覚を見ており、どこにそれらを見つけるか

時間
2025-07-28 17:38:29

著者
{"Weichen Zhang","Yiyou Sun","Pohao Huang","Jiayue Pu","Heyue Lin","Dawn Song"}

カテゴリ
{cs.AI}

リンク
http://arxiv.org/abs/2507.21017v1

PDF リンク
http://arxiv.org/pdf/2507.21017v1

概要

MIRAGE-Benchは、インタラクティブなLLMに基づくエージェントシナリオにおける幻覚を体系的に特定および評価する新しいベンチマークフレームワークです。この文脈での幻覚は、通常モデルがその文脈入力に一致しない出力を生成することによる、期待または望ましい行動から逸脱する行動や出力を指します。 MIRAGE-Benchフレームワークは、インタラクティブなエージェント環境における幻覚の評価の課題に対処するために以下の方法を取ります: 1. **幻覚の分類**:エージェント幻覚を処理するための三つの階層構造を持つ分類法を導入し、タスク指示に反する行動、実行履歴、または環境観察に従わない行動をカバーします。 2. **幻覚の引き出し**:既存のエージェントベンチマークの詳細な監査を行い、幻覚を引き起こしやすいリスク設定を特定し、決定ポイントを確定的かつ再現可能な方法で隔離するスナップショット戦略を用いてテストケースを合成します。 3. **幻覚の評価**:微細なレベルのLLM-as-a-Judgeパラダイムを採用し、リスク意識のあるプロンプトをカスタマイズして、エージェント行動の高精度評価を実現するために、完全な行動空間を列挙することなくスケーラブルな評価を可能にします。 このフレームワークは以下の点で貢献します: 1. **LLM-エージェント設定における幻覚の統一分類法の提案**:異なる種類の幻覚を区別し、その原因を理解するのに役立ちます。 2. **スナップショットベースの引き出し戦略の導入**:幻覚行動の信頼性のある再現を可能にし、研究や軽減を容易にします。 3. **ベンチマークおよび評価ツールキットのリリース**:インタラクティブなエージェント環境における幻覚の診断や軽減に関する未来の研究をサポートします。 4. **実証的な洞察の提供**:LLMエージェントにおける幻覚に関する一般的な仮説に挑戦し、インタラクティブな設定における忠実性を向上させるためのターゲット統合技術の必要性を強調します。 結果は、先進的な商業的なモデルでも、現実的なリスク設定下で重大な忠実性問題が続いていることを示しています。これにより、インタラクティブなエージェントコンテキストに特化したターゲット統合技術の必要性が強調され、LLMエージェントにおける幻覚の継続的な課題が強調されます。


推奨論文

バランスの乱れ:生成モデルにおけるオンライン概念バランス

任意の挑戦分布下での柔軟な刺穿可能暗号機能のコピー保護方法

「手を放つ?」ほどではない:コンテンツベースの初期化を使用した連続的な推薦におけるアイテムの冷始末問題の解決策を探る

GS-Occ3D:高スケーラブルな視覚のみの占有空間再構成のための高斯スプラットによる自動運転

ベイズ的な異方分散ガウスプロセスのVecchia近似

TyDi QA-WANA: 西アと北アフリカの言語における情報探索型質問応答のための基準

半環環Turing機のFaginの定理

変形体との接触を検出するための十分かつ必要な接触検出のためのグラフ神経网络的サローグエート

フレッドキン-ヨンセン意見動態モデルの関連する量に対する効率的なアルゴリズム

MMBench-GUI: グラフィカルユーザインターフェースエージェントのための階層的多プラットフォーム評価フレームワーク