Résumé - SIDA: Adaptation de Domaine sans Échantillons Synthétiques Basée sur des Images
Titre
SIDA: Adaptation de Domaine sans Échantillons Synthétiques Basée sur des Images
Temps
2025-07-24 17:59:36
Auteur
{"Ye-Chan Kim","SeungJu Cha","Si-Woo Kim","Taewhan Kim","Dong-Jin Kim"}
Catégorie
{cs.CV,cs.AI,cs.LG,cs.MM}
Lien
http://arxiv.org/abs/2507.18632v1
PDF Lien
http://arxiv.org/pdf/2507.18632v1
Résumé
Le papier propose SIDA, une méthode de adaptation de domaine sans étiquette nouvelle et efficace qui utilise des images synthétiques au lieu de s'appuyer sur des descriptions textuelles. Cette approche vise à surmonter les limites des méthodes actuelles basées sur le texte, qui ont du mal à capturer les variations complexes du monde réel et augmentent considérablement le temps d'adaptation en raison de leur processus d'alignement.
SIDA se compose de trois étapes clés :
1. **Processus de Génération d'Images** : Il utilise un Modèle de Vision et de Langage (VLM) pour extraire des descriptions de scène détaillées à partir des images source. Sur la base de ces descriptions, il génère diverses images synthétiques similaires à la source à l'aide d'un générateur d'images. Puis, il applique la traduction d'image pour refléter le style du domaine cible.
2. **Modules de Mélange de Domaine et de Transfert de Style de Patch** : Ces modules utilisent les caractéristiques de style des images synthétiques pour simuler des intensités de style global et des variations de style local comme dans les scénarios réels. Le Mélange de Domaine combine plusieurs styles pour élargir les représentations intra-domaine, tandis que le Transfert de Style de Patch assigne différents styles à des patches individuels.
3. **Étape de Fin-tuning** : Il affine le modèle en introduisant une fonction de perte de cross-entropy pondérée basée sur des informations d'entropie. Cette fonction de perte met l'accent sur l'apprentissage à partir de samples stylisés ressemblant à la cible avec une haute incertitude, permettant au modèle de mieux capturer les styles divers.
Les expériences dans divers scénarios d'adaptation de domaine sans étiquette montrent que SIDA outperforme constamment les méthodes existantes, en particulier dans des domaines difficiles comme les incendies et les tempêtes de sable. Cela est attribué à l'efficacité du Mélange de Domaine et du Transfert de Style de Patch dans la simulation des variations d'intensité de style dans le monde réel.
Contributions clés de SIDA :
1. Il propose une méthode d'adaptation de domaine sans étiquette efficace et efficace qui utilise des images synthétiques au lieu de s'appuyer sur des descriptions textuelles.
2. Il introduit les modules de Mélange de Domaine et de Transfert de Style de Patch pour simuler des intensités de style global et des variations de style local comme dans les scénarios réels.
3. Il atteint des améliorations de performance significatives dans divers scénarios d'adaptation de domaine sans étiquette, en particulier dans des domaines difficiles.
En général, SIDA propose une solution prometteuse pour l'adaptation de domaine sans étiquette en utilisant efficacement des images synthétiques et en simulant des variations d'intensité de style dans le monde réel.
Articles Recommandés
densité de Cauchy
Champs magnétiques et rayons cosmiques dans M31. II. Intensité et distribution des composantes du champ magnétique.
L'hypothèse de l'échelle sérielle
CA-Cut : Coupe-Aligned pour l'Augmentation des Données pour une Navigation sous Canopée Plus Robuste
Moving Out : Collaboration humain-AI ancrée dans la réalité physique
Biquandles Virtuels et Nœuds Virtuels
Le programme de Chaudronnerie des Guimauves avec IGRINS sur le télescope Gemini South III : Regarder plus profondément dans l'atmosphère appauvrie en métaux d'une géante gazeuse au seuil de la transition de Jupiter chaud à ultra-chaud
Démonstration de la sensibilité accrue du deutérium aux violations de symétrie régies par l'Extension du Modèle Standard
Expansion des sous-ensembles normaux des éléments d'ordre impair dans les groupes finis
Théorème de Fagin pour les machines de Turing des semi-réels