Résumé - Étape-3 : Grand mais abordable : Co-conception du modèle-système pour un décodage efficace en termes de coût

Titre
Étape-3 : Grand mais abordable : Co-conception du modèle-système pour un décodage efficace en termes de coût

Temps
2025-07-25 16:53:13

Auteur
{StepFun,:,"Bin Wang","Bojun Wang","Changyi Wan","Guanzhe Huang","Hanpeng Hu","Haonan Jia","Hao Nie","Mingliang Li","Nuo Chen","Siyu Chen","Song Yuan","Wuxun Xie","Xiaoniu Song","Xing Chen","Xingping Yang","Xuelin Zhang","Yanbo Yu","Yaoyu Wang","Yibo Zhu","Yimin Jiang","Yu Zhou","Yuanwei Lu","Houyi Li","Jingcheng Hu","Ka Man Lo","Ailin Huang","Binxing Jiao","Bo Li","Boyu Chen","Changxin Miao","Chang Lou","Chen Hu","Chen Xu","Chenfeng Yu","Chengyuan Yao","Daokuan Lv","Dapeng Shi","Deshan Sun","Ding Huang","Dingyuan Hu","Dongqing Pang","Enle Liu","Fajie Zhang","Fanqi Wan","Gulin Yan","Han Zhang","Han Zhou","Hanghao Wu","Hangyu Guo","Hanqi Chen","Hanshan Zhang","Hao Wu","Haocheng Zhang","Haolong Yan","Haoran Lv","Haoran Wei","Hebin Zhou","Heng Wang","Heng Wang","Hongxin Li","Hongyu Zhou","Hongyuan Wang","Huiyong Guo","Jia Wang","Jiahao Gong","Jialing Xie","Jian Zhou","Jianjian Sun","Jiaoren Wu","Jiaran Zhang","Jiayu Liu","Jie Cheng","Jie Luo","Jie Yan","Jie Yang","Jieyi Hou","Jinguang Zhang","Jinlan Cao","Jisheng Yin","Junfeng Liu","Junhao Huang","Junzhe Lin","Kaijun Tan","Kaixiang Li","Kang An","Kangheng Lin","Kenkun Liu","Lei Yang","Liang Zhao","Liangyu Chen","Lieyu Shi","Liguo Tan","Lin Lin","Lin Zhang","Lina Chen","Liwen Huang","Liying Shi","Longlong Gu","Mei Chen","Mengqiang Ren","Ming Li","Mingzhe Chen","Na Wang","Nan Wu","Qi Han","Qian Zhao","Qiang Zhang","Qianni Liu","Qiaohui Chen","Qiling Wu","Qinglin He","Qinyuan Tan","Qiufeng Wang","Qiuping Wu","Qiuyan Liang","Quan Sun","Rui Li","Ruihang Miao","Ruosi Wan","Ruyan Guo","Shangwu Zhong","Shaoliang Pang","Shengjie Fan","Shijie Shang","Shilei Jiang","Shiliang Yang","Shiming Hao","Shuli Gao","Siming Huang","Siqi Liu","Tiancheng Cao","Tianhao Cheng","Tianhao Peng","Wang You","Wei Ji","Wen Sun","Wenjin Deng","Wenqing He","Wenzhen Zheng","Xi Chen","Xiangwen Kong","Xianzhen Luo","Xiaobo Yang","Xiaojia Liu","Xiaoxiao Ren","Xin Han","Xin Li","Xin Wu","Xu Zhao","Yanan Wei","Yang Li","Yangguang Li","Yangshijie Xu","Yanming Xu","Yaqiang Shi","Yeqing Shen","Yi Yang","Yifei Yang","Yifeng Gong","Yihan Chen","Yijing Yang","Yinmin Zhang","Yizhuang Zhou","Yuanhao Ding","Yuantao Fan","Yuanzhen Yang","Yuchu Luo","Yue Peng","Yufan Lu","Yuhang Deng","Yuhe Yin","Yujie Liu","Yukun Chen","Yuling Zhao","Yun Mou","Yunlong Li","Yunzhou Ju","Yusheng Li","Yuxiang Yang","Yuxiang Zhang","Yuyang Chen","Zejia Weng","Zhe Xie","Zheng Ge","Zheng Gong","Zhenyi Lu","Zhewei Huang","Zhichao Chang","Zhiguo Huang","Zhirui Wang","Zidong Yang","Zili Wang","Ziqi Wang","Zixin Zhang","Binxing Jiao","Daxin Jiang","Heung-Yeung Shum","Xiangyu Zhang"}

Catégorie
{cs.LG,cs.AI}

Lien
http://arxiv.org/abs/2507.19427v1

PDF Lien
http://arxiv.org/pdf/2507.19427v1

Résumé

Étape-3 est un VLM (Very Large Model) à 321B paramètres qui se concentre sur l'optimisation des coûts de décodage par co-conception de modèle-système conscient de l'hardware. Il introduit deux innovations clés : 1. Multiplication de matrices factorisées avec attention (MFA) : Ce mécanisme novateur réduit considérablement la taille du cache KV et les calculs tout en maintenant une expressivité élevée de l'attention. 2. Décomposition de l'attention-FFN (AFD) : Ce système d'inférence distribué sépare les couches d'attention et FFN en sous-systèmes spécialisés pour une performance optimisée. ### Avantages clés de l'Étape-3 : * **Réduction significative des coûts** : L'Étape-3 atteint des coûts de décodage significativement plus bas par rapport à des modèles comme DeepSeek-V3 et Qwen3 MoE 235B, en particulier pour des contextes plus longs. * **Haute capacité de traitement** : L'implémentation sur les GPUs Hopper atteint une capacité de traitement de décodage de 4 039 tokens par seconde par GPU, établissant une nouvelle frontière Pareto pour la décodage des LLM. * **Efficiency hardware** : L'Étape-3 montre l'importance de l'intensité arithmétique de l'attention alignée sur le hardware, de la sparsity MoE et de l'AFD pour l'efficacité économique. ### Co-conception du modèle-système : * **Multiplication de matrices factorisées avec attention (MFA)** : Ce mécanisme réduit le nombre de paramètres nécessaires pour le calcul de l'attention tout en maintenant une haute expressivité. * **Décomposition de l'attention-FFN (AFD)** : Cette approche sépare les couches d'attention et FFN en différents sous-systèmes, permettant une parallélisation optimisée et une performance accrue. ### Mise en œuvre et résultats : * **Bibliothèque de communication StepMesh** : Cette bibliothèque de communication personnalisée est conçue spécifiquement pour l'AFD et assure une latence extrêmement basse et un usage de zero SM. * **Résultats de performance** : L'Étape-3 atteint une capacité de traitement de décodage de 4 039 tokens par seconde par GPU sur les GPUs Hopper, significativement supérieure à celle de DeepSeek-V3 avec la même configuration. ### Conclusion : L'Étape-3 démontre le potentiel de la co-conception de modèle-système conscient de l'hardware pour atteindre une haute efficacité et une économie dans la décodage des modèles de grande taille des langues. Ses innovations dans les mécanismes d'attention et l'inférence distribuée fournissent des insights précieux pour le développement futur des LLM.


Articles Recommandés

Validation multicentrique d'un modèle de learning profond pour l'évaluation de la scoliose

Écosystèmes de Suivi des Problèmes : Contexte et Meilleures Pratiques

Résamplage isotrope avec optimisation inter-angles

Observation de tension non locale macroscopique et de flux hydrodynamique d'électrons à température ambiante

MTU : L'Unité d'Arbre Multifonctionnel dans zkSpeed pour l'Accélération de HyperPlonk

Modélisation des incertitudes sur le fond de bosons Z dans le contexte des mesures de haute précision de la masse du boson W

Décomposition en domaine temporel basée sur la dissipativité pour le contrôle optimal des EDP hyperboliques

Un optimiseur de serpent amélioré par plusieurs stratégies pour la planification des itinéraires et les problèmes d'ingénierie des UAV en trois dimensions

Hyperons dans les étoiles neutres froides avec un fossé

Invariants des algèbres de courants tordues et sous-algèbres de Poisson-commutatives associées