Résumé - Caractérisation des performances du modèle hybride de langage SSM-Transformer avec une longueur de contexte prolongée

Titre
Caractérisation des performances du modèle hybride de langage SSM-Transformer avec une longueur de contexte prolongée

Temps
2025-07-16 17:28:40

Auteur
{"Saptarshi Mitra","Rachid Karami","Haocheng Xu","Sitao Huang","Hyoukjun Kwon"}

Catégorie
{cs.AR,cs.AI,cs.LG,cs.SY,eess.SY}

Lien
http://arxiv.org/abs/2507.12442v1

PDF Lien
http://arxiv.org/pdf/2507.12442v1

Résumé

L'article explore les performances et l'utilisation de la mémoire des modèles d'espace d'état (MES) et des modèles hybrides, en particulier leur capacité à gérer des entrées à long contexte, sur les GPU consommateur et embarqués. Les auteurs soulignent les limitations des architectures traditionnelles de Transformer pour le traitement de séquences longues en raison de leur complexité quadratique et de leurs besoins en mémoire. Ils proposent que les MES offrent une alternative prometteuse avec une escalade linéaire, capable de traiter des séquences jusqu'à 220K tokens sur un GPU consommateur de 24 Go. L'étude inclut une analyse comparative complète de Transformer, MES et modèles hybrides, en analysant leurs performances sur des GPUs consommateur de haut niveau et des plateformes embarquées à consommation d'énergie limitée. Les résultats révèlent que les MES surpassent les Transformer en termes de traitement de séquences longues, devenant jusqu'à 4 fois plus rapides pour des contextes très longs. Les auteurs enquêtent également sur la latence et l'empreinte mémoire de différents modèles, identifiant les goulets d'étranglement de performance et les contributions au niveau des opérateurs. Ils ont constaté que les noyaux MES personnalisés et informés par le matériel dominent le temps d'inference, représentant plus de 55% de la latence sur les plateformes de bord. L'étude met en lumière les avantages des MES pour l'inference à long contexte sur les GPU consommateur et embarqués, offrant une alternative plus efficace et scalable aux modèles Transformer traditionnels.


Articles Recommandés

Sur la complexité des équilibres corrélés optimaux dans les jeux à forme extensive

Interpréter les substituts de CFD par des auto-encodeurs sparses

Approche de prévision d'événements extrêmes dans les séries temporelles de systèmes dynamiques chaotiques en utilisant des techniques d'apprentissage automatique

Gemini 2.5 Pro capable de remporter l'or à l'IMO 2025

Un analogique discret des immersions barycentriques de Tutte sur les surfaces

Réconstruction métrique et hamiltonien pour les binaires excentriques, précessant à la limite de petit rapport de masse

Problèmes de consensus des chaînes avec des échanges et des substitutions

Hyperons dans les étoiles neutres froides avec un fossé

Sur l'interaction de la compressibilité et de la robustesse aux attaques adverses

Vers l'apprentissage de la représentation causale temporelle avec la décomposition tensorielle