Zusammenfassung - MMBench-GUI: Hierarchisches Multi-Plattform-Evaluationsrahmenwerk für GUI-Agenten
Titel
MMBench-GUI: Hierarchisches Multi-Plattform-Evaluationsrahmenwerk für GUI-Agenten
Zeit
2025-07-25 17:59:26
Autor
{"Xuehui Wang","Zhenyu Wu","JingJing Xie","Zichen Ding","Bowen Yang","Zehao Li","Zhaoyang Liu","Qingyun Li","Xuan Dong","Zhe Chen","Weiyun Wang","Xiangyu Zhao","Jixuan Chen","Haodong Duan","Tianbao Xie","Chenyu Yang","Shiqian Su","Yue Yu","Yuan Huang","Yiqian Liu","Xiao Zhang","Yanting Zhang","Xiangyu Yue","Weijie Su","Xizhou Zhu","Wei Shen","Jifeng Dai","Wenhai Wang"}
Kategorie
{cs.CV,cs.CL}
Link
http://arxiv.org/abs/2507.19478v1
PDF Link
http://arxiv.org/pdf/2507.19478v1
Zusammenfassung
MMBench-GUI ist ein umfassendes Bewertungsrahmenwerk für GUI (Graphische Benutzeroberfläche)-Automatisierungsagenten auf mehreren Plattformen, einschließlich Windows, macOS, Linux, iOS, Android und Web. Es behebt die Einschränkungen bestehender Benchmarks durch die Bereitstellung einer hierarchischen Struktur mit vier Ebenen zunehmender Komplexität und einem neuartigen Effizienz-Qualitätsbereich (EQA)-Maßstab.
**Die vier Ebenen von MMBench-GUI**:
1. **GUI-Inhaltsverständnis**: Diese Ebene bewertet die Fähigkeit des Agents, Informationen aus GUI-Screenshots mittels mehrfachwahliger Fragen zu verstehen und zu interpretieren. Sie beurteilt das Wissen des Agents über Oberflächenelemente, Funktionen und Layout.
2. **GUI-Elementverankerung**: Diese Ebene konzentriert sich auf die Fähigkeit des Agents, UI-Elemente innerhalb einer GUI präzise zu lokalisieren und zu identifizieren. Es umfasst Aufgaben, bei denen der Agent auf Basis von Beschreibungen das Ziel und die Funktion von Elementen verstehen muss.
3. **GUI-Automatisierung von Aufgaben**: Diese Ebene testet die Fähigkeit des Agents, Aufgaben innerhalb eines einzigen Anwendungsumfelds durchzuführen. Es erfordert, dass der Agent eine Abfolge von Aktionen plant und ausführt, um ein spezifisches Ziel zu erreichen.
4. **GUI-Kooperation von Aufgaben**: Diese Ebene bewertet die Fähigkeit des Agents, Aktionen über mehrere Anwendungen hinweg zu koordinieren. Es beinhaltet komplexe Workflows, die inter-appliche Kommunikation und Informationsaustausch erfordern.
**Kernbeiträge**:
- **Hierarchische Struktur**: MMBench-GUI bietet einen strukturierten Ansatz zur Bewertung von GUI-Agenten, der eine breite Palette von Fähigkeiten von grundlegendem Verständnis bis hin zu komplexer Aufgabenausführung abdeckt.
- **Multi-Plattform-Unterstützung**: Der Benchmark umfasst sechs große Plattformen, sicherstellt also, dass Agents in realistischen Szenarien bewertet werden können.
- **EQA-Maßstab**: Der EQA-Maßstab bewertet sowohl die Genauigkeit als auch die Effizienz des Agentenverhaltens und fördert effiziente Aufgabenabschluss.
- **Diverse Datensätze**: Der Benchmark umfasst eine Vielzahl von Aufgaben, die realistische Szenarien und Herausforderungen widerspiegeln.
**Analyse und Ergebnisse**:
- **Visuelle Verankerung**: Eine genaue visuelle Verankerung ist entscheidend für den erfolgreichen Durchführung von GUI-Aufgaben. Allgemeine Sprachmodelle haben mit diesem Aspekt Schwierigkeiten, was die Notwendigkeit spezialisierter Wahrnehmungsmodule hervorhebt.
- **Effizienz**: Effizienz ist eine entscheidende Dimension der Leistung von GUI-Agenten. Viele Agents leiden unter Ineffizienzen aufgrund unnötiger Schritte und eines Mangels an Strategien zur frühzeitigen Beendigung.
- **Generalisierung**: GUI-Agenten sehen sich Herausforderungen gegenüber, wenn es um komplexe und unklare Aufgaben geht. Die Verbesserung der Generalisierungsfähigkeiten ist entscheidend für die praktische Anwendbarkeit.
**Schlussfolgerung**:
MMBench-GUI stellt ein wertvolles Werkzeug für die Bewertung und Verbesserung von GUI-Automatisierungsagenten dar. Seine hierarchische Struktur, die Unterstützung mehrerer Plattformen und der neuartige EQA-Maßstab machen es zu einer wertvollen Ressource für Forscher und Entwickler in diesem Bereich.
Empfohlene Papiere
Erweiterung der vereinigten Gravitation, um die Wechselwirkung zwischen Gravitonen zu berücksichtigen
Ein diskreter Analogon von Tuttes baryzentrischen Einfassungen auf Oberflächen
Dynamik interagierender Kavitätssolitonen
Zweipunktfunktionen und die Vakuumdichten im Casimir-Effekt für das Proca-Feld
Femtosekunden-Interferometrie von $DN$- und $\bar{D}N$-Systemen
Über den Nullordnungsstufenkonsistenzrest und den Hintergrunddruck für die konservative SPH-Flüssigkeitsdynamik
Simulierung von Evolvabilität als Lernalgorithmus: Empirische Untersuchungen zur Distributionsempfindlichkeit, Robustheit und Konstruktionskompromissen
Eine empirische Bernstein-Ungleichung für abhängige Daten in Hilberträumen und Anwendungen
Simulierung mehrerer menschlicher Perspektiven in gesellschaftlich-ökologischen Systemen mithilfe großer Sprachmodelle
Allgemeinisierte Clusteralgorithmen für die Potts-Lattizengauge-Theorie