概要 - マルチエージェント・ジャッジ:LLM-Agentに基づく自動評価と多次元の人間評価の一致化
タイトル
マルチエージェント・ジャッジ:LLM-Agentに基づく自動評価と多次元の人間評価の一致化
時間
2025-07-28 17:48:40
著者
{"Jiaju Chen","Yuxuan Lu","Xiaojie Wang","Huimin Zeng","Jing Huang","Jiri Gesi","Ying Xu","Bingsheng Yao","Dakuo Wang"}
カテゴリ
{cs.CL,68T50}
リンク
http://arxiv.org/abs/2507.21028v1
PDF リンク
http://arxiv.org/pdf/2507.21028v1
概要
この論文は、NLGなどの現実世界のNLPアプリケーションを評価するための新しい評価枠組み「MAJ-E VAL」を提案しています。それは、人間の評価とLLMの両方の強みを活かして、多角的なフィードバックを提供し、多様な人間の視点に合わせたものを目指しています。 MAJ-E VALは以下の2つの主なステップで動作します: 1. **ステークホルダー・ペルソナの作成**: - 関連する特定のドメインの文書(例えば、研究論文)から多様な視点を抽出します。 - これらの視点に基づいて、LLMエージェントの詳細なペルソナを構築し、人口統計学的属性、ドメインの専門知識、心理学的特性、社会的役割などの要素を取り入れます。 2. **マルチエージェント・アス・ジャッジのディベート評価**: - 構築されたペルソナを持つLLMエージェントをインスタンス化し、彼らが評価を討議し、精査するための集団ディベートに参加させます。 - ディベートプロセスには、個々の初期評価、同じステークホルダーグループ内のエージェント間の自由形式のディベート、および集約エージェントによる最終得点の集計が含まれます。 ### MAJ-E VALの利点: - **多角的なフィードバック**:多様な視点に基づいた包括的な評価を提供し、ドメイン特定の言語学的要素と表面レベルの言語学的要素の両方を捉えます。 - **自動化された評価**:ペルソナの構築や評価のプロセスを自動化し、手動の人間のアノテーションの必要を減らします。 - **拡張性と一般化**:最小限のカスタマイズでさまざまなNLPタスクとドメインに適用できます。 ### 評価結果: 論文は、MAJ-E VALを2つの現実世界のタスク(子供の物語本のためのQAGと医療文献の多文書要約)で評価しました。結果は、MAJ-E VALが人間の専門家評価と一致するように、伝統的な自動メトリクス、単一のLLM評価、および既存のマルチエージェント評価手法を一貫して上回ることを示しています。 ### 主要な発見: - **人間評価とのより良い一致**:MAJ-E VALは、既存の方法と比較して、ドメイン特定の次元で人間の専門家評価とより強い一致を達成します。 - **評価次元の強化**:MAJ-E VALのエージェントは、既存の人間評価次元を超えた評価次元を導入することが多く、より包括的な洞察を提供します。 - **効果的なディベートメカニズム**:グループ内のディベートメカニズムは、ステークホルダーが評価を精査し、追加の次元を発見するのを支援します。 ### 結論: MAJ-E VALは、現実世界のNLPアプリケーションの評価のための有望なアプローチを提供しています。人間の評価とLLMの強みを活かして、多角的なフィードバックを提供し、多様な人間の視点に合わせたものを提供します。提案されたフレームワークは、現実世界のタスクでその効果を示し、NLGシステムの評価を改善する可能性があります。
推奨論文
リラックスした総合拡散変分正則化のパーツごとに滑らかなMumford-Shahモデルによる三角化表面分断
RADAR: VANETsにおける擬似名の動的関連と認識のためのラジオベースの解析
計算統計の難解性から生じるトレードオフ
均一なデジットシリアルモジュラス算術を使用する高性能パイプラインNTTアクセラレータ
色度メトリック対のGromov-Hausdorff距離と六パックの安定性
量子回路暗号化に基づく暗号化状態量子コンパイルスキーム
どのグラフモチーフのパラメータが重要ですか?
GS-Occ3D:高スケーラブルな視覚のみの占有空間再構成のための高斯スプラットによる自動運転
「大規模言語モデルを使用して、社会生態系における複数の人間の視点をシミュレートする」
DT4PCP: 2型糖尿病管理に適用されたパーソナライズドケア計画のためのデジタルツインフレームワーク