Résumé - VisionThink : Modèle de langage visuel intelligent et efficace par apprentissage par renforcement

Titre
VisionThink : Modèle de langage visuel intelligent et efficace par apprentissage par renforcement

Temps
2025-07-17 17:59:55

Auteur
{"Senqiao Yang","Junyi Li","Xin Lai","Bei Yu","Hengshuang Zhao","Jiaya Jia"}

Catégorie
{cs.CV,cs.AI,cs.CL,cs.LG}

Lien
http://arxiv.org/abs/2507.13348v1

PDF Lien
http://arxiv.org/pdf/2507.13348v1

Résumé

Ce document présente VisionThink, une approche novatrice pour les modèles de vision-langage (VLM) efficaces qui détermine dynamiquement le besoin d'images de haute résolution en fonction du contenu de chaque échantillon. Contrairement aux méthodes précédentes qui dépendent de ratios de réduction fixes ou de seuils, VisionThink décide de manière autonome s'il faut compresser les tokens au cas par cas. Cette approche permet une compréhension visuelle fine-grained robuste sur les tâches liées à l'OCR tout en économisant un grand nombre de tokens visuels sur des tâches plus simples. ### Caractéristiques clés de VisionThink : * **Traitement de résolution dynamique** : VisionThink commence par traiter une image sous-échantillonnée et décide si elle est suffisante pour résoudre le problème. Si ce n'est pas le cas, il produit un token spécial pour demander une image de haute résolution. * **Apprentissage par renforcement** : Le modèle utilise l'apprentissage par renforcement et la stratégie LLM-as-Judge pour apprendre à équilibrer l'efficacité et la performance. Il détermine quand un input de haute résolution est nécessaire en concevant soigneusement une fonction de récompense et un mécanisme de pénalité. * **Compréhension visuelle fine-grained** : VisionThink démontre une forte performance sur les tâches liées à l'OCR, grâce à sa capacité à demander dynamiquement des images de haute résolution lorsque cela est nécessaire. * **Efficacité** : VisionThink réduit considérablement le nombre de tokens visuels nécessaires, ce qui entraîne des temps d'inference plus rapides et des coûts de calcul plus bas. ### Méthodologie : 1. **Traitement d'image sous-échantillonnée** : VisionThink commence par traiter une image de basse résolution pour minimiser le coût de calcul. 2. **LLM-as-Judge** : Un modèle de grande langue externe (LLM) évalue les réponses du modèle en utilisant des comparaisons basées uniquement sur le texte. Cela permet au modèle d'apprendre à partir d'évaluations alignées sur l'humain et flexibles. 3. **Multi-Turn GRPO** : Le modèle utilise l'optimisation de politique relative de groupe multi-tour (Multi-Turn Group Relative Policy Optimization, GRPO) pour apprendre à équilibrer l'efficacité et la performance. 4. **Conception de récompense** : La fonction de récompense inclut des composants d'exactitude, de format et de pénalité pour encourager des décisions de résolution optimales. 5. **Préparation des données** : Le modèle est formé sur un ensemble de données diversifié de VQA, y compris ceux nécessitant des images de haute résolution et ceux qui peuvent être répondu avec des images sous-échantillonnées. ### Expériences : Les auteurs ont évalué VisionThink sur plusieurs benchmarks VQA généraux, y compris ChartQA, OCRBench, MathVista, MMVet, RealWorldQA et MathVerse. Les résultats montrent que VisionThink surpasse les méthodes existantes efficaces VLM en termes de performance et d'efficacité. ### Conclusion : VisionThink représente une avancée significative dans le domaine des VLM efficaces. En déterminant dynamiquement le besoin d'images de haute résolution et en utilisant l'apprentissage par renforcement pour optimiser la performance, VisionThink offre une solution prometteuse pour construire des VLM plus efficaces et efficaces.


Articles Recommandés

Effets de la difficulté de la tâche et de l'expertise musicale dans la réalité virtuelle : Observations du fardeau cognitif et de l'exactitude de la tâche dans un jeu exergame de rythme

Réseau Cerveau Profond : Un Modèle de Learning Profond Optimisé pour la Détection de Tumeurs Cérébrales dans les Images d'IRM en Utilisant EfficientNetB0 et ResNet50 avec Apprentissage Transfer Learning

Le problème de sous-groupe caché pour les groupes infinis

Estimation d'une matrice de probabilité de transition à dimension infinie à l'aide d'un processus généralisé de bris de bâtons hiérarchique

Étude sur la préservation des paires parallèles et l'atteinte des paires d'égalité des triangles

Apprentissage par fusion tardive multi-tâche pour l'inférence semi-paramétrique avec des paramètres de nuance

Une méthode pour corriger la sous-structure des jets à multiples branches en utilisant le plan de jet de Lund

Modèles fondés sur les séries temporelles pour la prévision de séries temporelles financières multivariées

Violation de l'inégalité de Bell avec des photons non entrelacés

Métrie atomique 3D de la relaxation des contraintes et de la rugosité dans les transistors Gate-All-Around (GAA) par ptychographie électronique