概要 - UI-AGILE:効果的な強化学習と正確な推論時の根拠化によるGUIエージェントの進化
タイトル
UI-AGILE:効果的な強化学習と正確な推論時の根拠化によるGUIエージェントの進化
時間
2025-07-29 17:22:07
著者
{"Shuquan Lian","Yuhang Wu","Jia Ma","Zihan Song","Bingqi Chen","Xiawu Zheng","Hui Li"}
カテゴリ
{cs.AI,cs.CL,cs.CV}
リンク
http://arxiv.org/abs/2507.22025v1
PDF リンク
http://arxiv.org/pdf/2507.22025v1
概要
シュークァン・リアンらの論文「UI-AGILE:効果的な強化学習と正確な推論時のグランディングでGUIエージェントを進める」は、トレーニングと推論の段階での困難に阻まれるGUIエージェントの限界に対応しています。論文はUI-AGILEを紹介しており、GUIエージェントのトレーニングと推論プロセスを向上させる包括的なフレームワークです。 **GUIエージェントが直面する課題**: 1. **推論のジレンマ**:詳細な推論プロセスはグランディングの精度を低下させ、推論の遅延を増加させます。 「思考をしない」アプローチは非グランディングアクションの予測の精度が低いことを示すことがあります。 2. **効果のない報酬**:エージェントは複雑なインターフェースに迷い込んで、稀な報酬を受け取ることがよくあります。二値フィードバック(正しい/間違っている)は正確な位置特定を提供するには不十分です。 3. **視覚のノイズ**:高解像度のスクリーンは不関連する視覚のノイズを導入し、グランディングの精度を低下させます。 **UI-AGILEフレームワーク**: UI-AGILEは以下の貢献を通じてこれらの課題に対処することを目指しています: 1. **トレーニングの向上**: - **シンプルな思考報酬**:適切な長さの思考を通じて推論を促進し、計画と速度、グランディングの精度をバランスよく調整します。 - **連続的なグランディング報酬**:ターゲットの中心に近い予測に対して報酬を提供することで、より情報豊富で安定した学習シグナルを提供します。 - **クロッピングベースの再サンプリング**:トレーニングサンプルの難易度を動的に調整することで、稀な報酬問題を緩和します。 2. **推論の向上**: - **選択による分解グランディング**:高解像度のスクリーンショットを小さな、管理しやすい部分に分割し、視覚言語モデルを使用して最も適切なマッチを識別します。 **実験結果**: ScreenSpot-ProとScreenSpot-v2のベンチマークでの実験では、UI-AGILEが最も優れたパフォーマンスを達成しました。提案されたトレーニングと推論の向上方法を使用すると、UI-AGILEはScreenSpot-Proにおけるベストバーストのベースラインに対して23%のグランディング精度向上を達成しました。 **追加の貢献**: - **一般的なエージェントの能力**:UI-AGILE-7BはAndroidControlにおいて最も優れたパフォーマンスを示し、強い一般的なエージェントの能力を提供しています。 - **低い推論コスト**:選択による分解グランディングは、ベースライン方法に対してわずかなオーバーヘッドの増加だけを引き起こします。 **結論**: UI-AGILEはGUIエージェントのパフォーマンスを大幅に向上させる包括的なフレームワークです。推論、報酬、視覚のノイズの課題に対応し、ベンチマークタスクにおける最先端の結果を達成しています。提案された方法はGUIエージェントの分野を革新する可能性があり、実際のアプリケーションへの適用においてより実用的になることが期待されます。
推奨論文
CCL25-Evalタスク10用システムレポート:微細な中国語のヘイトスピーチ認識のためのSRAG-MAV
「高階Busy Beaver関数」という言葉を日本語に翻訳すると、「高次元ベジー関数」となります。ただし、この用語は日本語の技術文献や論文ではあまり使用されていないため、専門的な文献や論文のタイトルや抽象で見られるかもしれません。以下は一般的な翻訳例です: 高次元ベジー関数 あるいは、より詳細に説明する場合は: 高階の忙しいバーバー関数 「高次元」とは、関数の次数を指し、数学や計算機科学の分野で「次数」という言葉はよく使用されます。一方、「ベジー関数」は、テオレム・ベジーの名前をとって命名された関数で、特定の計算機の動作を表す関数です。
A3D-MoE:3D異種統合を通じてエキスパートのミックスを使用した大規模言語モデルの加速
感情記憶リンク:記憶性アノテーションがインテリジェントシステムにとって重要か?
会話が歪んだ後でもどうなるか?対話予測モデルの評価
Agentar-DeepFinance-300K: 系統的な思考の連鎖合成最適化による大規模金融データセット
VideoITG: 指示的な時空基盤を用いた多模様ビデオ理解
モバイルエッジコンピューションシステムにおけるデッドライン意識型のジョイントタスクスケジューリングおよびオフロード
モデリング(デオンティック)モーダル演算子とs(CASP)ゴール指向的な宣言的な答えセットプログラミングシステム Translation: モデリング(デオンティック)モーダル演算子とs(CASP)ゴール指向的な宣言的な答えセットプログラミングシステム
非正規化ユークリッド距離のための$k$-PCA: 多項式時間近似