Résumé - Diffusion bat les modèles autoregressifs dans des contextes contraints par les données.

Titre
Diffusion bat les modèles autoregressifs dans des contextes contraints par les données.

Temps
2025-07-21 17:59:57

Auteur
{"Mihir Prabhudesai","Menging Wu","Amir Zadeh","Katerina Fragkiadaki","Deepak Pathak"}

Catégorie
{cs.LG,cs.AI,cs.CV,cs.RO}

Lien
http://arxiv.org/abs/2507.15857v1

PDF Lien
http://arxiv.org/pdf/2507.15857v1

Résumé

L'article "Diffusion Beats Autoregressive in Data-Constrained Settings" explore les performances des modèles de diffusion masqués par rapport aux modèles autoregressifs (AR) dans des environnements contraints par les données, où des données limitées sont utilisées à plusieurs reprises pour l'entraînement. Voici un résumé : **Principales发现** : * **Les modèles de diffusion surpassent les modèles AR lorsque les ressources informatiques sont abondantes mais que les données sont rares** : cet avantage est attribué à la capacité des modèles de diffusion à mieux utiliser les données répétées, ce qui conduit à une perte de validation plus faible et à une performance supérieure sur les tâches descendantes. * **Les modèles de diffusion bénéficient davantage des données répétées** : ils peuvent être entraînés sur des données répétées jusqu'à 100 epochs, tandis que les données répétées sont presque aussi efficaces que les données fraîches, contrairement aux modèles AR qui nécessitent des données fraîches pour jusqu'à 4 epochs. * **Les modèles de diffusion ont un nombre d'époches effectives plus élevé** : ils peuvent bénéficier des données répétées sur un plus grand nombre d'époches sans dégradation majeure, avec un taux de décroissance effectif d'environ 500 epochs par rapport à 15 pour les modèles AR. * **Le point critique de calcul pour que les modèles de diffusion surpassent les modèles AR suit une loi de puissance avec la taille du jeu de données** : cela permet d'une expression fermée pour prédire quand la diffusion devient le choix de modélisation favorable pour toute taille de jeu de données donnée. * **Les modèles de diffusion offrent une meilleure performance descendante** : les meilleurs modèles de diffusion entraînés dans des environnements contraints par les données surpassent régulièrement les meilleurs modèles AR sur une gamme de tâches langagières descendantes. **Explication** : * **Masquage aléatoire dans les modèles de diffusion** : l'avantage clé des modèles de diffusion réside dans leur utilisation du masquage aléatoire pendant l'entraînement, qui agit comme une forme d'augmentation des données. Cela permet au modèle d'être exposé à une diversité de séquences de tokens et de tâches de prédiction, ce qui conduit à une meilleure généralisation et à une utilisation plus efficace de chaque exemple d'entraînement. * **Efficienté en calcul des modèles AR** : les modèles AR sont plus efficaces en termes de calcul en raison de leur factorisation fixe de gauche à droite et de la supervision plus forte par mise à jour. Cependant, cela a un coût en termes d'efficacité des données. **Conclusion** : Le papier conteste la croyance conventionnelle que les modèles AR sont universellement supérieurs et met en avant les modèles de diffusion comme une alternative convaincante lorsque les données, plutôt que le calcul, sont le goulet d'étranglement. Cette découverte a des implications significatives pour le développement de grands modèles de langage et d'autres applications de modélisation de séquence où les données sont rares. **Points supplémentaires** : * Le papier se concentre sur les modèles de diffusion masqués et les modèles AR, mais les résultats sont probablement applicables à d'autres modèles basés sur la diffusion. * Le papier met l'accent sur l'importance de l'efficacité des données pour l'échelle des modèles de deep learning, en particulier alors que les données de haute qualité deviennent de plus en plus rares. * Le papier fournit des insights précieux pour les praticiens, suggérant que les modèles de diffusion devraient être privilégiés par rapport aux modèles AR dans des environnements contraints par les données.


Articles Recommandés

Stabilité de la levitation magnétique rotative

Ingénierie locale de contraintes réversibles de $\mathrm{WS}_2$ à l'aide d'un ressort micromécanique

Un modèle fondamental pour le précodage MIMO massif avec un compromis de débit-énergie adaptatif par utilisateur

Un modèle semi-analytique pour les effets des perturbations granulaires de matière noire floue sur le mouvement orbital

FormulaOne : Mesurer la profondeur de la raison algorithmique au-delà de la programmation compétitive

Quantification contrainte pour les distributions discrètes

Surrogats de PDE neuronaux à multiples échelles pour la prévision et la réduction de l'échelle : Application aux courants océaniques

États d'énergie élevée des trajectoires chaotiques récurrentes dans un puits potentiel dépendant du temps

Structure hyperbolique du pentagone équilatéral

KMT-2024-BLG-0404L : Un système de microlentille triple composé d'une étoile, d'un nain brune et d'une planète