概要 - UserBench: ユーザーセンタルなエージェントのためのインタラクティブなジム環境

タイトル

UserBench: ユーザーセンタルなエージェントのためのインタラクティブなジム環境

時間

2025-07-29 17:34:12

著者

{"Cheng Qian","Zuxin Liu","Akshara Prabhakar","Zhiwei Liu","Jianguo Zhang","Haolin Chen","Heng Ji","Weiran Yao","Shelby Heinecke","Silvio Savarese","Caiming Xiong","Huan Wang"}

カテゴリ

{cs.AI,cs.CL,cs.LG}

リンク
http://arxiv.org/abs/2507.22034v1

PDF リンク
http://arxiv.org/pdf/2507.22034v1

概要

UserBenchは、一般的なコミュニケーション特性である未特定化、増加的、および間接的などのユーザーとの意味ある、複数のターンの対話能力を評価するためのインタラクティブなジム環境です。この環境は、エージェントに対して、積極的に目標を明確にし、微妙なヒントを解釈し、ツールの使用を通じて適応的に推論を行うことで成功するよう挑戦します。 UserBench環境は標準のGymnasiumフレームワークに基づいており、ユーザーが時間とともに次第に自分の好みを隠された方法で明かす旅行計画タスクに焦点を当てています。この環境は、エージェントに対して、ユーザーの意図を積極的に理解し、一致させることを要求します。 UserBenchの主要な機能： * **データ**：4K以上のシナリオを通じて、未特定化、増加的、および間接的などの具体的なコミュニケーション課題を捕らえるために、慎重にカスタマイズされたパイプラインで構成されています。 * **環境**：LLMエージェントが多ターン、好み駆動のユーザー対話に従事するための基準とトレーニング基地として設計された、拡張可能でモジュール的なジム環境です。 * **分析**：オープンソースおよびクローズドソースの主要なLLMを評価し、ユーザーの意図を発見し、一致させる際の重要な課題を明らかにします。評価結果は、現在のモデルがユーザーの好みを効果的に発見し、一致させることに苦戦していることを示しており、ユーザーセントリックな推論におけるさらなる研究と開発の必要性を強調しています。 UserBenchの利点： * **標準化されたAPI**：他のGym互換システムとのスムーズな統合を可能にします。 * **ブラックボックス環境**：ユーザーの行動をブラックボックス環境として抽象化することで、一般化可能な行動を促進します。 * **柔軟なテスト設定**：カスタマイズ可能なオプションセット、報酬関数、ユーザーフィードバックメカニズムをサポートし、エージェントの行動を詳細に分析できます。 * **トレーニング環境**：ターンごとの報酬と部分点数シグナルを通じて、監督的微調整と強化学習、特に多ターンRLをサポートします。最後に、UserBenchはユーザーセントリックなエージェントの評価と進化に非常に価値のあるツールです。このツールは、タスク完了を超えてエージェントに協力し、微妙なヒントを解釈し、意味ある、適応的な対話を通じてユーザーと一致させることを挑戦させます。

推奨論文

ドブズ対ジャクソン事件後のGoogle検索広告

PySHRED: スパースセンシング、モデル削減、そして科学的発見のためのSHallow REcurrent Decoding用のPythonパッケージ

ホモシフトのブロック貼り合わせクラスの不決定性

DR.EHR: 知識注入と合成データを用いた電子健康記録の密な検索

ICモジュールレベルの検証自動化のためのマルチエージェント生成AIフレームワーク

誤りのある関連に対する強靭性と圧縮可能を同時に達成する大きな学習率

ノイズパラメータを含む半パラメトリック推論のためのラテンフュージョンマルチタスク学習

ヒルベルト空間における依存データのための経験的ベルンスタイン不等式およびその応用

LoRA-PAR：効率的なLLM微調整のための柔軟なデュアルシステムLoRAパーティショニングアプローチ

ルーブリックとしての報酬：確認可能な領域を超えた強化学習