Zusammenfassung - VisionThink: Ein intelligentes und effizientes Visionssprachmodell durch Reinforcement Learning

Titel
VisionThink: Ein intelligentes und effizientes Visionssprachmodell durch Reinforcement Learning

Zeit
2025-07-17 17:59:55

Autor
{"Senqiao Yang","Junyi Li","Xin Lai","Bei Yu","Hengshuang Zhao","Jiaya Jia"}

Kategorie
{cs.CV,cs.AI,cs.CL,cs.LG}

Link
http://arxiv.org/abs/2507.13348v1

PDF Link
http://arxiv.org/pdf/2507.13348v1

Zusammenfassung

Dieser Artikel stellt VisionThink vor, einen neuen Ansatz für effiziente Vision-Language-Modelle (VLMs), der die Notwendigkeit von hochauflösenden Bildern dynamisch basierend auf dem Inhalt jedes Beispiels bestimmen kann. Im Gegensatz zu früheren Methoden, die auf festen Strippingschneidewinkeln oder Schwellenwerten angewiesen sind, entscheidet VisionThink autonom, ob Token im Einzelfall komprimiert werden sollen. Dieser Ansatz führt zu einer starken feingranularen visuellen Verständnis bei Aufgaben im Bereich der OCR, während gleichzeitig viele visuelle Token bei einfacheren Aufgaben eingespart werden. ### Schlüsselmerkmale von VisionThink: * **Dynamische Auflösungsverarbeitung**: VisionThink beginnt mit einer downsampleten Bildauflösung und entscheidet, ob dies ausreichend für die Problemlösung ist. Wenn nicht, gibt es ein spezielles Token aus, um ein höherauflösendes Bild anzufragen. * **Reinforcement Learning**: Das Modell verwendet Reinforcement Learning und die Strategie des LLM-as-Judge, um zu lernen, wie Effizienz und Leistung ausgewogen werden können. Es bestimmt, wann ein hochauflösender Eingang erforderlich ist, indem es eine sorgfältig gestaltete Belohnungs- und Strafmechanik entwickelt. * **Feingranulares visuelles Verständnis**: VisionThink zeigt starke Ergebnisse bei OCR-bezogenen Aufgaben, Dank seiner Fähigkeit, bei Bedarf dynamisch hochauflösende Bilder anzufragen. * **Effizienz**: VisionThink reduziert die Anzahl der erforderlichen visuellen Token erheblich, was schnelleren Inferenzzeiten und niedrigeren Berechnungskosten führt. ### Methodik: 1. **Verarbeitung der downsampleten Bilder**: VisionThink beginnt mit der Verarbeitung eines niedrigeren Auflösungsimages, um den Berechnungsaufwand zu minimieren. 2. **LLM-as-Judge**: Ein externes großes Sprachmodell (LLM) bewertet die Antworten des Modells durch rein textbasierte Vergleiche. Dies ermöglicht es dem Modell, von menschengerechten und flexiblen Bewertungen zu lernen. 3. **Multi-Turn GRPO**: Das Modell verwendet Multi-Turn Group Relative Policy Optimization (GRPO), um zu lernen, wie Effizienz und Leistung ausgewogen werden können. 4. **Belohnungsdesign**: Die Belohnungsfunktion umfasst Komponenten für Genauigkeit, Format und Strafen, um optimale Auflösungsentscheidungen zu fördern. 5. **Datenbereitung**: Das Modell wird auf einer vielfältigen Datenbank von VQA-Samples trainiert, einschließlich solcher, die hochauflösende Bilder erfordern und solcher, die mit downsampleten Bildern beantwortet werden können. ### Experimente: Die Autoren haben VisionThink auf mehreren allgemeinen VQA-Benchmarks getestet, einschließlich ChartQA, OCRBench, MathVista, MMVet, RealWorldQA und MathVerse. Die Ergebnisse zeigen, dass VisionThink im Vergleich zu bestehenden effizienten VLM-Methoden sowohl in Bezug auf Leistung als auch auf Effizienz übertrifft. ### Schlussfolgerung: VisionThink stellt eine bedeutende Weiterentwicklung im Bereich effizienter VLMs dar. Durch die dynamische Bestimmung der Notwendigkeit von hochauflösenden Bildern und die Verwendung von Reinforcement Learning zur Optimierung der Leistung bietet VisionThink eine vielversprechende Lösung für den Aufbau effizienterer und effektiverer VLMs.


Empfohlene Papiere

Der Einfluss der Sprachmischung auf das Reasoning von mehrsprachigen LLMs

Lernen von elektromagnetischen Feldern basierend auf eindimensionalen Elementbasisfunktionen

Über die klassische Geometrie chaotischer Grün-Funktionen und Wigner-Funktionen

Schätzende SMT-Zählung jenseits diskreter Domänen

Schärferer untere Schranken für Single-Source Personalisierten PageRank

Das Programm zum Röst marshmallows mit IGRINS auf Gemini South III: Tiefere Einblicke in die metallarme Atmosphäre eines Gasriesen am Übergang vom heißen zum ultraharten Jupiter-Übergang

Analyse von Designalgorithmen und Herstellung einer graphenbasierten Struktur mit doppeltem Krümmung und ebene sechseckigen Paneelen

Lehre aus dem TREC Plain Language Adaptation of Biomedical Abstracts (PLABA) Track

Die Untersuchung von ultrahochenergetischen Neutrinos mit der IceCube-Gen2-In-Wasser-Radioanordnung

Ultra3D: Effiziente und hochauflösende 3D-Generierung mit Teilerkennung