Resumen - MMBench-GUI: Marco de Evaluación Hierárquico Multiplataforma para Agentes de Interfaz Gráfica

Título
MMBench-GUI: Marco de Evaluación Hierárquico Multiplataforma para Agentes de Interfaz Gráfica

Tiempo
2025-07-25 17:59:26

Autor
{"Xuehui Wang","Zhenyu Wu","JingJing Xie","Zichen Ding","Bowen Yang","Zehao Li","Zhaoyang Liu","Qingyun Li","Xuan Dong","Zhe Chen","Weiyun Wang","Xiangyu Zhao","Jixuan Chen","Haodong Duan","Tianbao Xie","Chenyu Yang","Shiqian Su","Yue Yu","Yuan Huang","Yiqian Liu","Xiao Zhang","Yanting Zhang","Xiangyu Yue","Weijie Su","Xizhou Zhu","Wei Shen","Jifeng Dai","Wenhai Wang"}

Categoría
{cs.CV,cs.CL}

Enlace
http://arxiv.org/abs/2507.19478v1

PDF Enlace
http://arxiv.org/pdf/2507.19478v1

Resumen

MMBench-GUI es un marco de evaluación exhaustivo para agentes de automatización de GUI (Interfaz de Usuario Gráfica) en múltiples plataformas, incluyendo Windows, macOS, Linux, iOS, Android y Web. Aborda las limitaciones de los benchmarks existentes proporcionando una estructura jerárquica con cuatro niveles de complejidad creciente y una métrica novedosa de Área de Eficiencia-Calidad (EQA). **Los Cuatro Niveles de MMBench-GUI**: 1. **Entendimiento de Contenido GUI**: Este nivel evalúa la capacidad del agente para comprender e interpretar información de capturas de pantalla de GUI utilizando preguntas de opción múltiple. Se evalúa el conocimiento del agente sobre elementos de interfaz, funcionalidad y disposición. 2. **Anclaje de Elementos GUI**: Este nivel se centra en la capacidad del agente para localizar e identificar elementos de UI dentro de una GUI con precisión. Involucra tareas donde el agente debe entender el propósito y la función de los elementos basándose en descripciones. 3. **Automatización de Tareas GUI**: Este nivel prueba la capacidad del agente para realizar tareas dentro de un entorno de aplicación único. Requiere que el agente planifique y ejecute una secuencia de acciones para alcanzar un objetivo específico. 4. **Colaboración en Tareas GUI**: Este nivel evalúa la capacidad del agente para coordinar acciones a través de múltiples aplicaciones. Involucra flujos de trabajo complejos que requieren comunicación inter-aplicativa y compartir información. **Contribuciones Clave**: - **Estructura Jerárquica**: MMBench-GUI proporciona un enfoque estructurado para evaluar agentes de GUI, cubriendo una amplia gama de capacidades desde un entendimiento básico hasta la ejecución de tareas complejas. - **Soporte Multiplataforma**: El benchmark abarca seis plataformas principales, asegurando que los agentes puedan evaluarse en escenarios realistas. - **Métrica EQA**: La métrica EQA evalúa tanto la precisión como la eficiencia del comportamiento del agente, alentando la realización eficiente de tareas. - **Conjunto de Datos Diverso**: El benchmark incluye un conjunto de datos diverso de tareas, reflejando escenarios y desafíos del mundo real. **Análisis y Hallazgos**: - **Anclaje Visual**: Un anclaje visual preciso es crucial para la ejecución exitosa de tareas GUI. Los modelos de lenguaje generales luchan con este aspecto, destacando la necesidad de módulos de percepción especializados. - **Eficiencia**: La eficiencia es una dimensión crítica del rendimiento de los agentes de GUI. Muchos agentes sufren de ineficiencias debido a pasos innecesarios y la falta de estrategias de detención temprana. - **Generalización**: Los agentes de GUI enfrentan desafíos cuando se tratan de tareas complejas y ambiguas. Mejorar las capacidades de generalización es crucial para la aplicabilidad en el mundo real. **Conclusión**: MMBench-GUI proporciona una herramienta valiosa para evaluar y mejorar a los agentes de automatización de GUI. Su estructura jerárquica, soporte multiplataforma y métrica EQA novedosa lo hacen un recurso valioso para investigadores y desarrolladores que trabajan en este campo.


Artículos Recomendados

4T2R X-ReRAM CiM Array para Operación MAC Muy Paralela, Resistente a la Variación y de Baja Potencia

Demostración de TFTs 3D integrados monolíticamente en HEMTs de GaN utilizando configuración de cascode con alta tensión de ruptura (>1900V)

Caos confinado y desconfinado en sistemas de spin clásicos

Captura de la transición de fase cuántica en la región ultravioleta mediante holografía

Expansión de subconjuntos normales de elementos de orden impar en grupos finitos

¿Corriendo en CÍRCULO? Una prueba de benchmark simple para la seguridad de los interpretadores de código de LLM

Un estudio comparativo de las capacidades físicas de un argón líquido y un líquido scintilador a base de agua en DUNE

La proporción máxima de difusores en modelos de rumor estocásticos

Soluciones Exactas para Distribuciones Bimodales bajo Irradiación Estocástica de Plasma en Películas Delgadas

Funciones cuadradas y estimaciones variacionales para operadores de Ritt en $L^1$