Resumen - SeC: Avanzando en la Segmentación de Objetos Vídeos Complejos mediante la Construcción Progresiva de Conceptos

Título
SeC: Avanzando en la Segmentación de Objetos Vídeos Complejos mediante la Construcción Progresiva de Conceptos

Tiempo
2025-07-21 17:59:02

Autor
{"Zhixiong Zhang","Shuangrui Ding","Xiaoyi Dong","Songxin He","Jianfan Lin","Junsong Tang","Yuhang Zang","Yuhang Cao","Dahua Lin","Jiaqi Wang"}

Categoría
{cs.CV,cs.AI}

Enlace
http://arxiv.org/abs/2507.15852v1

PDF Enlace
http://arxiv.org/pdf/2507.15852v1

Resumen

Este documento introduce el Concepto de Segmento (SeC), un nuevo marco de segmentación de objetos en video que va más allá de la coincidencia basada en la apariencia tradicional al aprovechar el razonamiento centrado en el objeto a nivel superior. SeC tiene como objetivo abordar las limitaciones de los métodos existentes al manejar escenarios complejos con variaciones visuales drásticas, ocultaciones y cambios de escena. ### Contribuciones Clave 1. **Segmentación Guiada por Conceptos**: SeC cambia de la coincidencia de características convencional a la construcción y utilización progresiva de representaciones a nivel superior, centradas en el objeto. Utiliza Grandes Modelos de Visión-Lenguaje (LVLM) para integrar pistas visuales a través de varios cuadros, construyendo prejuicios conceptuales robustos. 2. **Guiado por Conceptos Basado en LVLM**: Durante la inferencia, SeC forma una representación semántica completa del objetivo basada en los cuadros procesados, logrando una segmentación robusta de los cuadros posteriores. Equilibra dinámicamente el razonamiento semántico basado en LVLM con la coincidencia de características mejorada, ajustando los esfuerzos computacionales en función de la complejidad de la escena. 3. **Benchmarck de Segmentación de Objetos en Video de Escenarios Complejos Semánticos (SeCVOS)**: Para evaluar rigurosamente los métodos de VOS en escenarios que requieren razonamiento conceptual a nivel superior y comprensión semántica robusta, el documento introduce SeCVOS, un benchmarck con 160 videos de múltiples escenarios annotados manualmente diseñado para desafiar a los modelos con variaciones sustanciales de apariencia y transformaciones dinámicas de escena. ### Metodología SeC consta de dos componentes principales: 1. **Guiado por Conceptos con LVLM**: Se mantiene un banco de cuadros clave disperso a lo largo del video, proporcionando una vista diversa del concepto del objetivo al LVLM. El LVLM resume el concepto del objeto en un token especial, que luego se extrae como el vector de guía conceptual a nivel de objeto. 2. **Estrategia de Activación Adaptativa de Escena**: SeC emplea una estrategia de activación adaptativa de escena para equilibrar la eficiencia y la precisión. Se basa en la coincidencia de píxeles ligera para la mayoría de los cuadros y activa el razonamiento conceptual basado en LVLM cuando se detectan cambios significativos en la escena. ### Experimentos El documento evalúa a SeC en varios benchmarcks estándar de VOS, incluyendo SA-V, LVOS, MOSE, DAVIS, YouTube-VOS y el propuesto SeCVOS. Los resultados demuestran que SeC supera significativamente a los modelos de estado del arte existentes, incluyendo SAM 2 y sus variantes, en todos los benchmarcks. Notablemente, SeC logra una mejora de 11.8 puntos sobre SAM 2.1 en SeCVOS, estableciendo un nuevo estado del arte en la segmentación de objetos en video basada en conceptos. ### Conclusión SeC ofrece un enfoque prometedor para la segmentación de objetos en video al aprovechar el razonamiento centrado en el objeto a nivel superior. La introducción de SeCVOS como benchmarck facilita aún más la evaluación y el desarrollo de métodos de VOS guiados por conceptos. Los autores esperan que SeC y SeCVOS inspiren una exploración adicional del modelado a nivel de concepto para la comprensión a largo plazo y semánticamente fundamentada del video.


Artículos Recomendados

Un acelerador de planificación autónoma de rutas con conciencia de sparsity y co-diseño HW/SW y optimización de flujo de datos multi-nivel

ReCatcher: Hacia la Prueba de Regresión para la Generación de Código de los LLMs

Caos confinado y desconfinado en sistemas de spin clásicos

Hacia la Verificación Formal del Código Generado por LLM a partir de Prompts de Lenguaje Natural

Estabilidad de Fase y Transformaciones en Perovskitas Mixtas de Haluros de Plomo desde Campos de Fuerza de Aprendizaje Automático

Diseño de Arquitecturas de Multi-Chiplet de Alto Rendimiento y Factible Térmicamente impulsadas por Interposers de Vidrio No Doblabble

Marco de Espacio Fase para Redes Neurales Ópticas Cuánticas de Escala Intermedia Ruidosas

Escala jerárquica de Whitham de género cero mediante manifolds de Hurwitz--Frobenius

Asignación de pilotos asistida por una Red Neuronal Convolucional Cuántica Híbrida en Sistemas de MIMO Masivo sin Célula

Sintetizando espectros de erupciones solares como estrellas desde observaciones solares de alta resolución