Resumen - VideoITG: Entendimiento Multimodal de Vídeos con Anclaje Temporal Instructivo
Título
VideoITG: Entendimiento Multimodal de Vídeos con Anclaje Temporal Instructivo
Tiempo
2025-07-17 17:59:59
Autor
{"Shihao Wang","Guo Chen","De-an Huang","Zhiqi Li","Minghan Li","Guilin Li","Jose M. Alvarez","Lei Zhang","Zhiding Yu"}
Categoría
{cs.CV,cs.AI}
Enlace
http://arxiv.org/abs/2507.13353v1
PDF Enlace
http://arxiv.org/pdf/2507.13353v1
Resumen
El documento presenta VideoITG, un nuevo marco para mejorar la comprensión del video a través de la selección de cuadros alineados con instrucciones en Video-LLMs. La clave de VideoITG es el pipeline VidThinker, que imita la anotación humana generando descripciones de clips detalladas y guiadas por instrucciones, recuperando segmentos relevantes y realizando una selección de cuadros de alta precisión.
El pipeline VidThinker consta de tres etapas:
1. **Captioning de Clips Instruidos**: El video se divide en cortos clips y cada uno de ellos se describe utilizando un modelo de lenguaje basado en la instrucción y el contenido visual. Esto asegura que las descripciones sean relevantes e informativas, guiando el proceso de selección de cuadros.
2. **Retrieval de Clips Instruidos**: Las descripciones generadas se utilizan para recuperar segmentos de video relevantes basados en la instrucción. Esto se realiza utilizando un modelo de lenguaje que realiza razonamiento basado en una secuencia de pensamiento para seleccionar clips que cubren tanto el contenido de la pregunta como el de la respuesta.
3. **Localización de Cuadros Instruidos**: Los cuadros clave dentro de los segmentos relevantes se seleccionan basándose en el tipo de instrucción. Diferentes tipos de instrucciones requieren diferentes estrategias de selección de cuadros, como seleccionar cuadros diversos para el contenido semántico o muestrear uniformemente los cuadros para el contenido de movimiento.
Utilizando el pipeline VidThinker, los autores construyeron el conjunto de datos VideoITG-40K, que contiene 40,000 videos y 500,000 anotaciones de referencias temporales. Este conjunto de datos supera significativamente a los conjuntos de datos existentes tanto en escala como en calidad.
Basándose en el conjunto de datos VideoITG-40K, los autores desarrollaron una familia de modelos VideoITG que utilizan generación de texto, clasificación basada en anclaje con atención causal y clasificación basada en pooling con atención completa para mejorar la anotación temporal instruida y avanzar en las capacidades de Video-LLM.
Los experimentos en varios marcos de comprensión del video muestran que VideoITG mejora consistentemente el rendimiento de Video-LLMs, destacando su efectividad y potencial para avanzar en la comprensión del video impulsada por instrucciones.
## Contribuciones Clave:
1. **Conjunto de datos VideoITG-40K**: Un conjunto de datos a gran escala con 40,000 videos y 500,000 anotaciones de referencias temporales, que supera significativamente a los conjuntos de datos existentes tanto en escala como en calidad.
2. **Modelos VideoITG**: Una familia de modelos VideoITG con diferentes estrategias de atención y decodificación, diseñados para mejorar la anotación temporal instruida basándose en las insigmas del conjunto de datos VideoITG-40K.
3. **Mejora consistente**: VideoITG alcanza mejoras consistentes en varios marcos de comprensión del video multimodal, demostrando su efectividad y escalabilidad.
Artículos Recomendados
Perturbaciones de segundo orden axissimétricas de estrellas de secuencia principal rotatorias
Marco bayesiano para la asociación de fuentes de rayos cósmicos ultraenergéticos (UHECR) e inferencia de parámetros
Tipo IIB en ocho derivados: Acoplamientos Axio-Dilatón de Cinco Puntos
Hacia Modelos Subrogados Robustos: Comparación de Enfoques de Aprendizaje Automático para Acelerar Simulaciones de Fractura Británica con Materiales de Fase菲
Maneuvers de Bajos Impulso en la Malla sobre Orbits Quasiperiódicas
Explorando la materia oscura no fría en un escenario de energía oscura dinámica con datos DESI DR2
MODA: Un marco unificado de difusión 3D para generación molecular multi-tarea consciente de objetivos
Pedir según el tamaño de los discos en un canal estrecho
En algunas propiedades integrales de las dimensiones en las categorías de fusión de Isaacs
Tasa de conversación fuerte para la prueba de hipótesis asintótica en el tipo III