Zusammenfassung - Diffusion schlägt autoregressive Modelle in Datenbeschränkten Settings.
Titel
Diffusion schlägt autoregressive Modelle in Datenbeschränkten Settings.
Zeit
2025-07-21 17:59:57
Autor
{"Mihir Prabhudesai","Menging Wu","Amir Zadeh","Katerina Fragkiadaki","Deepak Pathak"}
Kategorie
{cs.LG,cs.AI,cs.CV,cs.RO}
Link
http://arxiv.org/abs/2507.15857v1
PDF Link
http://arxiv.org/pdf/2507.15857v1
Zusammenfassung
Das Papier "Diffusion Beats Autoregressive in Data-Constrained Settings" untersucht die Leistung von maskierten Diffusionsmodellen im Vergleich zu autoregressiven (AR) Modellen in datenbeschränkten Umgebungen, in denen begrenzte Daten wiederholt für das Training verwendet werden. Hier ist eine Zusammenfassung:
**Kernergebnisse**:
* **Diffusionsmodelle übertreffen AR-Modelle, wenn Rechenleistung reichlich vorhanden, aber Daten knapp sind**: Dieses Vorzuge wird der Fähigkeit der Diffusionsmodelle zugeschrieben, wiederholte Daten besser zu nutzen, was zu niedrigeren Validierungsverlusten und überlegener Leistung bei Downstream-Tasks führt.
* **Diffusionsmodelle profitieren mehr von wiederholten Daten**: Sie können bis zu 100 Epochen mit wiederholten Daten trainiert werden, während wiederholte Daten fast so effektiv sind wie neue Daten, im Gegensatz zu AR-Modellen, die neue Daten für bis zu 4 Epochen benötigen.
* **Diffusionsmodelle haben eine höhere effektive Epochenzahl**: Sie können von wiederholten Daten über mehr Epochen profitieren, ohne erhebliche Degradation, mit einer effektiven Abnahmequote von etwa 500 Epochen im Vergleich zu 15 für AR-Modelle.
* **Der kritische Rechenpunkt für Diffusionsmodelle, um AR-Modelle zu übertreffen, folgt einem Potenzgesetz mit der Größenordnung der Datensätze**: Dies ermöglicht eine geschlossene Formel zur Vorhersage, wann Diffusion die bevorzugte Modellierungsoption für jede gegebene Größenordnung der Datensätze wird.
* **Diffusionsmodelle erzielen bessere Downstream-Leistung**: Die besten Diffusionsmodelle, die in datenbeschränkten Umgebungen trainiert wurden, übertreffen die besten AR-Modelle in einer Reihe von Downstream-Sprachaufgaben konsistent.
**Erklärung**:
* **Zufälliges Maskieren in Diffusionsmodellen**: Der Schlüsselvorteil der Diffusionsmodelle liegt in ihrer Verwendung von zufälligem Maskieren während des Trainings, das als Form der Datenvergrößerung dient. Dies ermöglicht es dem Modell, einer Vielzahl von Token-Reihenfolgen und Vorhersagetaufgaben ausgesetzt zu werden, was zu besserer Generalisierung und effektiverem Einsatz jedes Trainingsbeispiels führt.
* **Rechenleistungseffizienz von AR-Modellen**: AR-Modelle sind aufgrund ihrer festen linken-zu-rechten-Faktorisierung und stärkeren Supervision pro Aktualisierung rechenleistungseffizienter. Dies geht jedoch auf Kosten einer geringeren Datenverwendung.
**Schlussfolgerung**:
Das Papier stellt die herkömmliche Überzeugung in Frage, dass AR-Modelle universell überlegen sind, und hebt Diffusionsmodelle als eine überzeugende Alternative hervor, wenn Daten, nicht Rechenleistung, das Bottleneck sind. Diese Entdeckung hat erhebliche Auswirkungen auf die Entwicklung großer Sprachmodelle und anderer Sequenzmodellierungsanwendungen, bei denen Daten knapp sind.
**Zusätzliche Punkte**:
* Das Papier konzentriert sich auf maskierte Diffusionsmodelle und AR-Modelle, aber die Ergebnisse sind wahrscheinlich auch auf andere diffusionsbasierte Modelle anwendbar.
* Das Papier betont die Bedeutung der Datenverwendungseffizienz bei der Skalierung von tiefen Lernmodellen, insbesondere da hochwertige Daten immer seltener werden.
* Das Papier bietet wertvolle Einblicke für Praktiker und schlägt vor, dass Diffusionsmodelle in datenbeschränkten Umgebungen gegenüber AR-Modellen bevorzugt werden sollten.
Empfohlene Papiere
Positive Pfade in Diffeomorphiegruppen von Mannigfaltigkeiten mit einer Kontaktverteilung
Spin-nur-Dynamik des mehrspeciesnonreciprokalen Dicke-Modells
Ein unbedingter unterer Schwellenwert für die aktive-Set-Methode in konvexer quadratischer Maximierung
Von Feedback zu Checklisten: Fundierte Bewertung von künstlich generierten klinischen Notizen
Holografische Aufzeichnung des Quantenphasenübergangs im ultravioletten Bereich
Hybrid Quantum Convolutional Neural Network-gestütztes Pilotenzuweisungssystem in zellfreien Massively MIMO-Systemen
Temperaturabhängige optische Antwort von Hoch-Tc YBa2Cu3O7-δ (Ybco)-Dünnschichten
Studium der Homing- und Synchronisationssequenzen für zeitraumbezogene endliche Zustandsmaschinen mit Ausgabeverzögerungen
Beschreibung der Leistung von Hybriden Sprachmodellen basierend auf dem Zustandsraummodell (SSM) und dem SSM-Transformer mit langer Kontextlänge
Komplexität facetterter Erklärungen in propositionaler Abduction