Résumé - VideoITG : Compréhension multimodale de vidéos avec ancrage temporel instructif
Titre
VideoITG : Compréhension multimodale de vidéos avec ancrage temporel instructif
Temps
2025-07-17 17:59:59
Auteur
{"Shihao Wang","Guo Chen","De-an Huang","Zhiqi Li","Minghan Li","Guilin Li","Jose M. Alvarez","Lei Zhang","Zhiding Yu"}
Catégorie
{cs.CV,cs.AI}
Lien
http://arxiv.org/abs/2507.13353v1
PDF Lien
http://arxiv.org/pdf/2507.13353v1
Résumé
Le papier présente VideoITG, un cadre novateur pour améliorer la compréhension vidéo grâce à la sélection de frames alignée sur les instructions dans les Video-LLMs. La clé de VideoITG est le pipeline VidThinker, qui imite l'annotation humaine en générant des descriptions de clips détaillées et guidées par des instructions, en récupérant des segments pertinents et en effectuant une sélection de frames fine.
Le pipeline VidThinker se compose de trois étapes :
1. **Titrage de clips instructif** : La vidéo est divisée en clips courts, et chaque clip est décrit à l'aide d'un modèle de langage basé sur l'instruction et le contenu visuel. Cela garantit que les descriptions sont pertinentes et informatives, guidant le processus de sélection des frames.
2. **Récupération de clips instructif** : Les descriptions générées sont utilisées pour récupérer des segments de vidéo pertinents en fonction de l'instruction. Cela est réalisé à l'aide d'un modèle de langage qui effectue une reasoning par chaines de pensée pour sélectionner des clips couvrant à la fois le contenu de la question et de la réponse.
3. **Localisation de frames instructive** : Des frames clés dans les segments pertinents sont sélectionnées en fonction du type d'instruction. Différents types d'instructions nécessitent différentes stratégies de sélection de frames, comme la sélection de frames diversifiés pour le contenu sémantique ou le prélèvement uniforme des frames pour le contenu cinétique.
En utilisant le pipeline VidThinker, les auteurs ont construit le dataset VideoITG-40K, qui contient 40 000 vidéos et 500 000 annotations de localisation temporelle. Ce dataset dépasse de loin les datasets existants en termes de taille et de qualité.
Sur la base du dataset VideoITG-40K, les auteurs ont développé une famille de modèles VideoITG qui tirent parti de la génération de texte, de la classification basée sur un ancrage et une attention causale, et de la classification basée sur le pooling et l'attention complète pour améliorer la localisation temporelle instructive et avancer les capacités des Video-LLM.
Des expériences sur diverses bases de données de compréhension vidéo montrent que VideoITG améliore constamment la performance des Video-LLM, soulignant son efficacité et son potentiel pour avancer la compréhension vidéo guidée par des instructions.
## Contributions clés :
1. **Dataset VideoITG-40K** : Un grand dataset de 40 000 vidéos et 500 000 annotations de localisation temporelle, significativement supérieur aux datasets existants en termes de taille et de qualité.
2. **Modèles VideoITG** : Une famille de modèles VideoITG avec des stratégies d'attention et de décodage variées, conçus pour améliorer la localisation temporelle instructive sur la base des insights du dataset VideoITG-40K.
3. **Amélioration constante** : VideoITG atteint une amélioration constante des performances sur diverses bases de données de compréhension vidéo multimodale, démontrant son efficacité et son élargissement.
Articles Recommandés
La relation Excentricité-orbite-Rayon pour les planètes orbitant autour des naines brunes M
Double Descension Bayésienne
Résamplage isotrope avec optimisation inter-angles
Le muonium comme sonde des défauts ponctuels dans le diamant de type Ib
Modèles à usage général pour les sciences chimiques
Un cadre bayésien pour l'association des sources des CRUHA et l'inférence des paramètres
Essais de spectroscopie d'impédance in situ de Li$_{4-x}$Ge$_{1-x}$P$_x$O$_4$ en tant que électrolyte solide potentiel pour les batteries micro Li-ion.
Simulation des interactions Binaires-Single dans les Disques des AGN II : Probabilité de Fusion des Binaires Noirs During le Processus Chaotique Triplo
Conception d'architectures de Multi-Chiplet à Haute Performance et Thermiquement Réalisables grâce à des Intercalaires en Verre Inflexible
Réconstruction des propriétés des rayons cosmiques avec des GNN dans GRAND