概要 - MMBench-GUI: グラフィカルユーザインターフェースエージェントのための階層的多プラットフォーム評価フレームワーク
タイトル
MMBench-GUI: グラフィカルユーザインターフェースエージェントのための階層的多プラットフォーム評価フレームワーク
時間
2025-07-25 17:59:26
著者
{"Xuehui Wang","Zhenyu Wu","JingJing Xie","Zichen Ding","Bowen Yang","Zehao Li","Zhaoyang Liu","Qingyun Li","Xuan Dong","Zhe Chen","Weiyun Wang","Xiangyu Zhao","Jixuan Chen","Haodong Duan","Tianbao Xie","Chenyu Yang","Shiqian Su","Yue Yu","Yuan Huang","Yiqian Liu","Xiao Zhang","Yanting Zhang","Xiangyu Yue","Weijie Su","Xizhou Zhu","Wei Shen","Jifeng Dai","Wenhai Wang"}
カテゴリ
{cs.CV,cs.CL}
リンク
http://arxiv.org/abs/2507.19478v1
PDF リンク
http://arxiv.org/pdf/2507.19478v1
概要
MMBench-GUIは、Windows、macOS、Linux、iOS、Android、Webなどの複数のプラットフォームにおけるGUI(グラフィカルユーザインターフェース)自動化エージェントの包括的な評価フレームワークです。既存のベンチマークの限界に対処するために、4つのレベルにわたる階層構造と、新たな効率-品質領域(EQA)指標を提供しています。
**MMBench-GUIの4つのレベル**:
1. **GUIコンテンツ理解**:このレベルでは、エージェントがGUIスクリーンショットから情報を理解し解釈する能力を、複数選択肢の質問を使って評価します。インターフェース要素、機能、レイアウトに関する知識を評価します。
2. **GUI要素接地**:このレベルでは、エージェントがGUI内のUI要素を正確に位置づけ、識別する能力に焦点を当てています。エージェントが要素の目的と機能を説明に基づいて理解するタスクが含まれます。
3. **GUIタスク自動化**:このレベルでは、エージェントが単一のアプリケーション環境内でタスクを実行する能力をテストします。エージェントが特定の目標を達成するためのアクションシーケンスを計画し実行する必要があります。
4. **GUIタスク協調**:このレベルでは、エージェントが複数のアプリケーション間でアクションを調整する能力を評価します。アプリケーション間の通信と情報共有を必要とする複雑なワークフローが含まれます。
**主要な貢献**:
- **階層構造**:MMBench-GUIは、基本的な理解から複雑なタスク実行まで、幅広い機能をカバーする構造的なアプローチを提供します。
- **多プラットフォームサポート**:このベンチマークは、主要な6つのプラットフォームをカバーし、エージェントが現実のシナリオで評価されることを確保します。
- **EQA指標**:EQA指標は、エージェントの行動の精度と効率を評価し、効率的なタスク完了を促進します。
- **多様なデータセット**:ベンチマークには、現実のシナリオと課題を反映する多様なタスクのデータセットが含まれています。
**分析と発見**:
- **視覚接地**:視覚接地はGUIタスク実行の成功に不可欠です。汎用言語モデルはこの点で苦戦し、専門的な感知モジュールの必要性を示しています。
- **効率**:効率はGUIエージェントのパフォーマンスの重要な次元です。多くのエージェントは、不必要なステップや早めの停止戦略の欠如により効率が低くなります。
- **一般化**:GUIエージェントは複雑で曖昧なタスクに対処する際に挑戦をします。一般化能力を向上させることは、現実世界の適用において重要です。
**結論**:
MMBench-GUIは、GUI自動化エージェントの評価と改善に非常に有価なツールを提供します。その階層構造、多プラットフォームサポート、そして新たなEQA指標により、研究者や開発者がこの分野で非常に有益なリソースとなります。
推奨論文
紫外線プラズモニック技術で構成された自動蛍光減衰シリーズ(AFTDS)に機械学習を適用することでモノアミン神経伝達物質を分類する新しいアプローチ
エラskapitan上でのエクサスケール暗示的動的プラズマシミュレーション:磁圏物理学における微・宏观の連携を解決するため
SeC: 渐進的な概念構築を通じて複雑なビデオオブジェクトセグメンテーションを推進する
Hess-MC2: ヘッシアン情報と二階提案を使用した連続モンテカルロ平方法
evoxels:ボクセルベースの微細構造シミュレーションのための微分可能な物理フレームワーク
PHAX: 公共衛生および生物医学科学におけるユーザーセントリックな説明可能なAIのための構造化議論枠組み
UserBench: ユーザーセンタルなエージェントのためのインタラクティブなジム環境
テストセットでの事前学習はもはや全てではありません:QAベンチマークに対する議論駆動のアプローチ
未来の知能のためのヴォン・ノイマンのアーキテクチャを強化する
禁止パターンと植えられた色を持つエッジ色付け問題