Résumé - SeC : Avancement de la segmentation d'objets vidéo complexes par construction progressive de concepts

Titre
SeC : Avancement de la segmentation d'objets vidéo complexes par construction progressive de concepts

Temps
2025-07-21 17:59:02

Auteur
{"Zhixiong Zhang","Shuangrui Ding","Xiaoyi Dong","Songxin He","Jianfan Lin","Junsong Tang","Yuhang Zang","Yuhang Cao","Dahua Lin","Jiaqi Wang"}

Catégorie
{cs.CV,cs.AI}

Lien
http://arxiv.org/abs/2507.15852v1

PDF Lien
http://arxiv.org/pdf/2507.15852v1

Résumé

Ce document présente le Segment Concept (SeC), un cadre innovant de segmentation d'objets vidéo qui dépasse les méthodes traditionnelles basées sur l'apparence en s'appuyant sur une raison haut-niveau centrée sur l'objet. Le SeC vise à atténuer les limites des méthodes existantes dans la gestion de scénarios complexes avec des variations visuelles drastiques, des occlusions et des changements de scène. ### Contributions Clés 1. **Segmentation Dérivée de Concept** : Le SeC passe de la correspondance de caractéristiques conventionnelle à la construction et à l'utilisation progressive de représentations de haut niveau, centrées sur l'objet. Il utilise des Modèles de Vision-Langage à Grande Echelle (LVLM) pour intégrer des indices visuels à travers des frames diverses, construisant des préalables conceptuels robustes. 2. **Guidage Conceptuel Basé sur LVLM** : Pendant l'inference, le SeC forme une représentation sémantique complète de la cible basée sur les frames traitées, réalisant une segmentation robuste des frames suivantes. Il équilibre de manière adaptative la raison sémantique basée sur LVLM avec une correspondance de caractéristiques améliorée, ajustant dynamiquement les efforts de calcul en fonction de la complexité de la scène. 3. **Benchmarck de Segmentation d'Objets Vidéo dans des Scénarios Sémantiques Complexes (SeCVOS)** : Pour évaluer rigoureusement les méthodes VOS dans des scénarios exigeant une raison conceptuelle de haut niveau et une compréhension sémantique robuste, le document introduit SeCVOS, un benchmarck avec 160 vidéos multi-scénaires annotées manuellement conçu pour défiier les modèles avec de grandes variations d'apparence et des transformations dynamiques de scène. ### Méthodologie Le SeC se compose de deux composants principaux : 1. **Guidage Conceptuel avec LVLM** : Une banque de keyframes espacée est maintenue tout au long du vidéo, fournissant une vue diverse du concept cible à l'LVLM. L'LVLM résume le concept de l'objet en un token spécial, qui est ensuite extrait comme un vecteur de guidance conceptuelle au niveau de l'objet. 2. **Stratégie d'Activation Adaptative de Scène** : Le SeC utilise une stratégie d'activation adaptative de scène pour équilibrer l'efficacité et l'exactitude. Il dépend de la correspondance légère de niveau pixel pour la plupart des frames et active la raison conceptuelle basée sur LVLM lorsque des changements de scène significatifs sont détectés. ### Expériences Le document évalue le SeC sur plusieurs benchmarcks standards VOS, y compris SA-V, LVOS, MOSE, DAVIS, YouTube-VOS et le benchmarck proposé SeCVOS. Les résultats montrent que le SeC surpasse de manière significative les modèles de pointe existants, y compris SAM 2 et ses variantes, sur tous les benchmarcks. Notamment, SeC atteint une amélioration de 11.8 points par rapport à SAM 2.1 sur SeCVOS, établissant un nouveau point de référence dans la segmentation d'objets vidéo centrée sur le concept. ### Conclusion Le SeC offre une approche prometteuse pour la segmentation d'objets vidéo en s'appuyant sur une raison haut-niveau centrée sur l'objet. L'introduction de SeCVOS en tant que benchmarck facilite davantage l'évaluation et le développement des méthodes VOS dérivées de concept. Les auteurs espèrent que le SeC et le SeCVOS inspireront une exploration plus approfondie de la modélisation au niveau conceptuel pour une compréhension vidéo à long terme et sémantiquement fondée.


Articles Recommandés

Meilleures pratiques pour l'ingénierie protéique assistée par l'apprentissage automatique

Superconductivité sans noeud dans le 4H$_{b}$-TaS$_{2}$ avec symétrie de temps inversé brisée

Pas même métastable : double diamant cubique dans les fondus de copolymères en blocs bicarbones.

BetterCheck : Vers la protection des VLM pour les systèmes de perception automobile

Transition émergente QED$_3$ à l'état de Laughlin bosonique vers la superfluidité

Modèle de Mumford-Shah régularisé par la variation totale généralisée relaxée et piecewise smooth pour la segmentation de surfaces triangulées

Un optimiseur de serpent amélioré par plusieurs stratégies pour la planification des itinéraires et les problèmes d'ingénierie des UAV en trois dimensions

Détection et classification d'objets en temps réel à l'aide de YOLO pour les FPGAs de bord

Invariants des algèbres de courants tordues et sous-algèbres de Poisson-commutatives associées

L'effet de la plasticité des fibres sur la formation de domaines dans les composites biologiques mous -- Partie I : une analyse de bifurcation