Resumen - VisionThink: Modelo de Lenguaje de Visión Inteligente y Eficiente a través del Aprendizaje por Refuerzo
Título
VisionThink: Modelo de Lenguaje de Visión Inteligente y Eficiente a través del Aprendizaje por Refuerzo
Tiempo
2025-07-17 17:59:55
Autor
{"Senqiao Yang","Junyi Li","Xin Lai","Bei Yu","Hengshuang Zhao","Jiaya Jia"}
Categoría
{cs.CV,cs.AI,cs.CL,cs.LG}
Enlace
http://arxiv.org/abs/2507.13348v1
PDF Enlace
http://arxiv.org/pdf/2507.13348v1
Resumen
Este documento introduce VisionThink, un nuevo enfoque para modelos de visión-lenguaje (VLM) eficientes que determina dinámicamente la necesidad de imágenes de alta resolución basándose en el contenido de cada muestra. A diferencia de los métodos anteriores que dependen de ratios de poda fijos o umbrales, VisionThink decide de manera autónoma si comprimir tokens en cada caso específico. Este enfoque resulta en una fuerte comprensión visual a nivel fino en tareas relacionadas con OCR, mientras que ahorra un número sustancial de tokens visuales en tareas más simples.
### Características clave de VisionThink:
* **Procesamiento de Resolución Dinámica**: VisionThink comienza con una imagen desc escalada y decide si es suficiente para resolver el problema. Si no lo es, emite un token especial para solicitar una imagen de mayor resolución.
* **Aprendizaje por Refuerzo**: El modelo utiliza aprendizaje por refuerzo y la estrategia LLM-as-Judge para aprender a equilibrar la eficiencia y el rendimiento. Determina cuándo es necesario un input de alta resolución diseñando cuidadosamente una función de recompensa y un mecanismo de penalización.
* **Comprensión Visual a Nivel Fino**: VisionThink demuestra un fuerte rendimiento en tareas relacionadas con OCR, gracias a su capacidad de solicitar imágenes de alta resolución dinámicamente cuando es necesario.
* **Eficiencia**: VisionThink reduce significativamente el número de tokens visuales requeridos, lo que lleva a tiempos de inferencia más rápidos y costos computacionales más bajos.
### Metodología:
1. **Procesamiento de Imágenes Desc escaladas**: VisionThink comienza procesando una imagen de baja resolución para minimizar el costo computacional.
2. **LLM-as-Judge**: Un modelo de gran lenguaje (LLM) externo evalúa las respuestas del modelo utilizando comparaciones basadas únicamente en texto. Esto permite que el modelo aprenda de evaluaciones alineadas con humanos y flexibles.
3. **Multi-Turn GRPO**: El modelo utiliza Multi-Turn Group Relative Policy Optimization (GRPO) para aprender a equilibrar la eficiencia y el rendimiento.
4. **Diseño de la Recompensa**: La función de recompensa incluye componentes de precisión, formato y penalización para fomentar decisiones óptimas de resolución.
5. **Preparación de Datos**: El modelo se entrena en un conjunto de datos diverso de muestras de VQA, incluyendo aquellas que requieren imágenes de alta resolución y aquellas que pueden ser respondidas utilizando imágenes desc escaladas.
### Experimentos:
Los autores evaluaron a VisionThink en varios benchmarks generales de VQA, incluyendo ChartQA, OCRBench, MathVista, MMVet, RealWorldQA y MathVerse. Los resultados demuestran que VisionThink supera a los métodos VLM eficientes existentes en términos de rendimiento y eficiencia.
### Conclusión:
VisionThink representa un avance significativo en el campo de los modelos VLM eficientes. Al determinar dinámicamente la necesidad de imágenes de alta resolución y utilizar aprendizaje por refuerzo para optimizar el rendimiento, VisionThink ofrece una solución prometedora para construir VLM más eficientes y efectivos.
Artículos Recomendados
Explicador de Mapeos: Cartografía de Espacios de Embeddings de LLM Utilizando Agentes de Explicación y Verificación Basados en Perturbaciones
CRAFT: Marco basado en genética consciente de la latencia y el costo para la ubicación de nodos en entornos de Edge-Fog
Simulación de Interacciones Binarias-Únicas en Discos de AGN II: Probabilidad de Fusión de Pares de Hielos Negros durante el Proceso Terciario Caótico
Análisis Térmico de Espectros de Momentum Transversal en Colisiones Pb-Pb a 2.76 TeV: Dependencia de la Centralidad de la Temperatura, Parámetros de Congelamiento y No-Extensividad
Validación Multicéntrica de un Modelo de Aprendizaje Profundo para la Evaluación de la Escoliosis
Sobre la Interacción de la Comprimibilidad y la Robustez Adversaria
Microscopio sin etiquetas para la imagenología reológica de células
Repensando en la Seguridad de HSM y TPM en la Nube: Ataques del Mundo Real y Defensas de Generación Siguiente
GEPA: La evolución de los estímulos reflexivos puede superar el aprendizaje por refuerzo.
Aplanamiento $L^2$ de Medidas Auto-similares en Curvas No-degeneradas