Zusammenfassung - Beschreibung der Leistung von Hybriden Sprachmodellen basierend auf dem Zustandsraummodell (SSM) und dem SSM-Transformer mit langer Kontextlänge

Titel
Beschreibung der Leistung von Hybriden Sprachmodellen basierend auf dem Zustandsraummodell (SSM) und dem SSM-Transformer mit langer Kontextlänge

Zeit
2025-07-16 17:28:40

Autor
{"Saptarshi Mitra","Rachid Karami","Haocheng Xu","Sitao Huang","Hyoukjun Kwon"}

Kategorie
{cs.AR,cs.AI,cs.LG,cs.SY,eess.SY}

Link
http://arxiv.org/abs/2507.12442v1

PDF Link
http://arxiv.org/pdf/2507.12442v1

Zusammenfassung

Das Papier untersucht die Leistung und den Speicherverbrauch von Zustandsraummustern (SSMs) und Hybridmodellen, insbesondere ihre Fähigkeit, lange Kontexte zu verarbeiten, auf Consumer- und Embedded-GPUs. Die Autoren betonen die Einschränkungen traditioneller Transformer-Architekturen bei der Verarbeitung langer Sequenzen aufgrund ihrer quadratischen Komplexität und Speicheranforderungen. Sie schlagen vor, dass SSMs eine vielversprechende Alternative mit linearer Skalierung bieten, in der Lage sind, Sequenzen bis zu 220K Token auf einer 24GB Consumer-GPU zu verarbeiten. Die Studie umfasst eine umfassende Benchmarking von Transformer, SSM und Hybridmodellen, die ihre Leistung sowohl auf High-End Consumer-GPUs als auch auf leistungseingeschränkte Embedded-Plattformen analysiert. Die Ergebnisse zeigen, dass SSMs im Vergleich zu Transformers bei der Verarbeitung langer Sequenzen überlegen sind und sich bei sehr langen Kontexten bis zu 4-mal schneller erweisen. Die Autoren untersuchen ebenfalls die Latenz und den Speicherverbrauch verschiedener Modelle, identifizieren die Performance-Schwachstellen und Beiträge auf Operator-Ebene. Sie fanden heraus, dass maßgeschneiderte, hardwarebewusste SSM-Kerne den Inference-Betriebs dominieren, was über 55% der Latenz auf Edge-Plattformen ausmacht. Die Studie hebt die Vorteile von SSMs für lange Kontextinferenzen auf Consumer- und Embedded-GPUs hervor, bietet eine effizientere und skalierbarere Alternative zu traditionellen Transformer-Modellen.


Empfohlene Papiere

Grapheneuralnetzwerk-Surrogaten für den Kontakt mit deformierbaren Körpern mit notwendiger und ausreichender Kontakt detention

Purcell-Verstärkung der Photogalvanikströme in einer van-der-Waals-Plasmonischen Selbst-Kavität

DiffuMeta: Algebraische Sprachmodelle für umgekehrtes Design von Metamaterialien über Diffusions-Transformer

DR.EHR: Dichtes Retrieval für elektronische Gesundheitsakten mit Wissensinjektion und synthetischen Daten

TrajLens: Visuelle Analyse zur Konstruktion von Zellentwicklungs-Trajektorien bei der Querschnittsuntersuchung

Zeitliche Modulation der Sekundärschwingungsersetzung in Ferroelektrika durch einen gepulsten elektrischen Feld

Ranking-Vektoren-Clustering: Theorie und Anwendungen

Bildgebende Spektroskopische Diagnose der Gigantischen Schwingungsspirale im Virgo-Galaxienhaufen mit dem Einstein-Probe-Nachfolger-Röntgenteleskop

Positive Pfade in Diffeomorphiegruppen von Mannigfaltigkeiten mit einer Kontaktverteilung

Demonstration der erhöhten Empfindlichkeit des Deuteriums gegenüber Symmetrieverletzungen, die durch die Erweiterung des Standardmodells gesteuert werden