Résumé - MMBench-GUI : Cadre d'évaluation hiérarchique multi-plateforme pour des agents d'interface graphique

Titre
MMBench-GUI : Cadre d'évaluation hiérarchique multi-plateforme pour des agents d'interface graphique

Temps
2025-07-25 17:59:26

Auteur
{"Xuehui Wang","Zhenyu Wu","JingJing Xie","Zichen Ding","Bowen Yang","Zehao Li","Zhaoyang Liu","Qingyun Li","Xuan Dong","Zhe Chen","Weiyun Wang","Xiangyu Zhao","Jixuan Chen","Haodong Duan","Tianbao Xie","Chenyu Yang","Shiqian Su","Yue Yu","Yuan Huang","Yiqian Liu","Xiao Zhang","Yanting Zhang","Xiangyu Yue","Weijie Su","Xizhou Zhu","Wei Shen","Jifeng Dai","Wenhai Wang"}

Catégorie
{cs.CV,cs.CL}

Lien
http://arxiv.org/abs/2507.19478v1

PDF Lien
http://arxiv.org/pdf/2507.19478v1

Résumé

MMBench-GUI est un cadre d'évaluation complet pour les agents d'automatisation des interfaces graphiques (GUI) sur plusieurs plateformes, y compris Windows, macOS, Linux, iOS, Android et Web. Il surmonte les limites des benchmarks existants en fournissant une structure hiérarchique avec quatre niveaux de complexité croissante et une nouvelle métrique d'Efficiency-Quality Area (EQA). **Les quatre niveaux de MMBench-GUI** : 1. **Compréhension du contenu GUI** : Ce niveau évalue la capacité de l'agent à comprendre et à interpréter l'information provenant des captures d'écran d'interfaces graphiques à l'aide de questions à choix multiples. Il évalue la connaissance de l'agent des éléments d'interface, de la fonctionnalité et de l'agencement. 2. **Ancrage des éléments GUI** : Ce niveau se concentre sur la capacité de l'agent à localiser et à identifier précisément les éléments d'interface utilisateur (UI) au sein d'une interface graphique. Cela implique des tâches où l'agent doit comprendre le but et la fonction des éléments sur la base de descriptions. 3. **Automatisation des tâches GUI** : Ce niveau teste la capacité de l'agent à effectuer des tâches au sein d'un environnement d'application unique. Il nécessite que l'agent planifie et exécute une séquence d'actions pour atteindre un objectif spécifique. 4. **Collaboration des tâches GUI** : Ce niveau évalue la capacité de l'agent à coordonner des actions entre plusieurs applications. Il implique des flux de travail complexes qui nécessitent une communication inter-applications et un partage d'informations. **Contributions clés** : - **Structure hiérarchique** : MMBench-GUI fournit une approche structurée pour évaluer les agents GUI, couvrant une large gamme de capacités, allant de la compréhension de base à l'exécution de tâches complexes. - **Support multiplateforme** : Le benchmark couvre six plateformes principales, assurant que les agents peuvent être évalués dans des scénarios réels. - **Métrique EQA** : La métrique EQA évalue à la fois l'exactitude et l'efficacité du comportement de l'agent, encourageant la réalisation efficace des tâches. - **Jeune ensemble de données** : Le benchmark inclut un ensemble de données diversifié de tâches, reflétant des scénarios et des défis du monde réel. **Analyse et conclusions** : - **Ancrage visuel** : Un ancrage visuel précis est crucial pour une exécution réussie des tâches GUI. Les modèles de langage généralistes ont du mal avec cet aspect, mettant en lumière le besoin de modules de perception spécialisés. - **Efficacité** : L'efficacité est une dimension critique de la performance des agents GUI. De nombreux agents souffrent d'inefficacités dues à des étapes inutiles et à un manque de stratégies d'arrêt anticipé. - **Généralisation** : Les agents GUI font face à des défis lorsqu'ils traitent des tâches complexes et ambiguës. Améliorer les capacités de généralisation est crucial pour l'applicabilité réelle. **Conclusion** : MMBench-GUI fournit un outil précieux pour évaluer et améliorer les agents d'automatisation des interfaces graphiques. Sa structure hiérarchique, son support multiplateforme et sa nouvelle métrique EQA le font devenir une ressource précieuse pour les chercheurs et les développeurs travaillant dans ce domaine.


Articles Recommandés

Diffusion bat les modèles autoregressifs dans des contextes contraints par les données.

Construire des représentations réseau matérielles pour la conception intelligente des alliages amorphes

NNQS-AFQMC : États quantiques de réseaux neuronaux améliorés par la Monte Carlo quantique de fermions

Un théorème c pour la charge centrale effective dans la limite de copie R=1, et applications aux systèmes avec une randomness induite par des mesures

Les modèles de rotation universels sont des approximateurs universels en apprentissage automatique.

Régression krigeage sans fonction de的特征

Hyper-u-amenabilité et hyper-finitude des relations d'équivalence arborées

Radiation de Cherenkov chiral à potentiel chimique chirale dépendant du temps

Un cadre d'inférence DNN de bout en bout pour le MPSoC neuromorphique SpiNNaker2

Un optimiseur de serpent amélioré par plusieurs stratégies pour la planification des itinéraires et les problèmes d'ingénierie des UAV en trois dimensions