Zusammenfassung - VideoITG: Multimodales Videoverständnis mit instruiertem zeitraumbezogenem Bezug
Titel
VideoITG: Multimodales Videoverständnis mit instruiertem zeitraumbezogenem Bezug
Zeit
2025-07-17 17:59:59
Autor
{"Shihao Wang","Guo Chen","De-an Huang","Zhiqi Li","Minghan Li","Guilin Li","Jose M. Alvarez","Lei Zhang","Zhiding Yu"}
Kategorie
{cs.CV,cs.AI}
Link
http://arxiv.org/abs/2507.13353v1
PDF Link
http://arxiv.org/pdf/2507.13353v1
Zusammenfassung
Das Papier stellt VideoITG, ein neuartiges Framework zur Verbesserung des Video-Verständnisses durch instruktionsgesteuerte Bildauswahl in Video-LLMs, vor. Der Schlüssel zu VideoITG ist der VidThinker-Pipeline, die durch die Generierung detaillierter, instruktionsgesteuerter Clipsbeschreibungen, das Abrufen relevanter Abschnitte und die Durchführung feingranularer Bildauswahl menschliche Annotation nachahmt.
Die VidThinker-Pipeline besteht aus drei Stufen:
1. **Instructierte Clipsbeschriftung**: Das Video wird in kurze Clips aufgeteilt, und jeder Clip wird mit einem auf der Anweisung und dem visuellen Inhalt basierenden Sprachmodell beschrieben. Dies stellt sicher, dass die Beschreibungen relevant und informativ sind und den Bildauswahlprozess leiten.
2. **Instructierte Clipsabfrage**: Die generierten Beschreibungen werden verwendet, um relevante Videosegmente basierend auf der Anweisung abzurufen. Dies wird durch ein Sprachmodell durchgeführt, das überlegende Denkschritte durchführt, um Clips auszuwählen, die sowohl die Frage als auch die Antwortinhalte abdecken.
3. **Instructierte Bildlokalisierung**: Schlüsselbilder innerhalb der relevanten Abschnitte werden basierend auf der Anweisungstypik ausgewählt. Unterschiedliche Anweisungstypen erfordern verschiedene Bildauswahlstrategien, wie z.B. das Auswählen verschiedener Bilder für semantische Inhalte oder das gleichmäßige Sammeln von Bildern für Bewegungsinhalte.
Mit Hilfe der VidThinker-Pipeline haben die Autoren das VideoITG-40K-Dataset konstruiert, das 40.000 Videos und 500.000 zeitliche Grundlagenanmerkungen enthält. Dieses Dataset übertrifft bestehende Datenbanken sowohl in der Größe als auch in der Qualität.
Basierend auf dem VideoITG-40K-Dataset haben die Autoren eine Familie von VideoITG-Modellen entwickelt, die Textgenerierung, klassifikation basierend auf Anker mit kausalem Attention und klassifikation basierend auf Pooling mit voller Attention nutzen, um instruktionsgesteuerte zeitliche Grundlegung zu verbessern und die Fähigkeiten von Video-LLMs voranzutreiben.
Experimente auf verschiedenen Video-Verständnis-Benchmarks zeigen, dass VideoITG die Leistung von Video-LLMs konstant verbessert, was seine Effektivität und das Potenzial für die Weiterentwicklung des durch Anweisungen gesteuerten Video-Verständnisses hervorhebt.
## Wesentliche Beiträge:
1. **VideoITG-40K-Dataset**: Ein groß angelegtes Dataset mit 40.000 Videos und 500.000 zeitlichen Grundlagenanmerkungen, das bestehende Datenbanken sowohl in der Größe als auch in der Qualität übertrifft.
2. **VideoITG-Modelle**: Eine Familie von VideoITG-Modellen mit verschiedenen Attention- und Decoding-Strategien, die auf Erkenntnissen aus dem VideoITG-40K-Dataset basieren und die Anweisungsgesteuerte zeitliche Grundlegung verbessern sollen.
3. **Konsistente Verbesserungen**: VideoITG erreicht konsistente Leistungverbesserungen auf verschiedenen multimodalen Video-Verständnis-Benchmarks, was seine Effektivität und Skalierbarkeit demonstriert.
Empfohlene Papiere
Intrasaisonal Äquatoriale Kelvin- und Rossby-Wellen in modernen AI-ML-Modellen
Ironman: Beschleunigung der Erweiterung des Unwissenheitsübergangs für datenschutzfreundliche KI mit nahezu-Gedächtnis-Verarbeitung
In Richtung robuster Surrogatmodelle: Benchmarking maschineller Lernansätze zur Beschleunigung von Phasenfeldsimulationen brüchiger Bruchprozesse
Lokale unvollkommene Rückkopplungssteuerung in nicht-äquilibrium biophysikalischen Systemen, ermöglicht durch thermodynamische Einschränkungen
Das interskalige Verhalten der Unsicherheit in dreidimensionaler Navier-Stokes-Turbulenz
Eine Klasse von Nakayama-Algebren mit einer Braid-Gruppen-Aktion auf τ-ausnahmehaften Sequenzen
DT4PCP: Ein Digital-Twin-Framework für personalisierte Pflegeplanung angewendet auf die Behandlung von Typ-2-Diabetes
Klassifizierung von integralen Grothendieck-Ringen bis zum Rang 5 und darüber hinaus
Echtzeit-Objekterkennung und -klassifikation mit YOLO für Edge-FPGAs
Frequenzschätzung korrelierter Multiattributdaten unter lokaler Differential Privatsphäre