Zusammenfassung - Schritt-3 ist groß, aber erschwinglich: Ko-Design von Modell-Systemen für kosteneffizientes Decodieren
Titel
Schritt-3 ist groß, aber erschwinglich: Ko-Design von Modell-Systemen für kosteneffizientes Decodieren
Zeit
2025-07-25 16:53:13
Autor
{StepFun,:,"Bin Wang","Bojun Wang","Changyi Wan","Guanzhe Huang","Hanpeng Hu","Haonan Jia","Hao Nie","Mingliang Li","Nuo Chen","Siyu Chen","Song Yuan","Wuxun Xie","Xiaoniu Song","Xing Chen","Xingping Yang","Xuelin Zhang","Yanbo Yu","Yaoyu Wang","Yibo Zhu","Yimin Jiang","Yu Zhou","Yuanwei Lu","Houyi Li","Jingcheng Hu","Ka Man Lo","Ailin Huang","Binxing Jiao","Bo Li","Boyu Chen","Changxin Miao","Chang Lou","Chen Hu","Chen Xu","Chenfeng Yu","Chengyuan Yao","Daokuan Lv","Dapeng Shi","Deshan Sun","Ding Huang","Dingyuan Hu","Dongqing Pang","Enle Liu","Fajie Zhang","Fanqi Wan","Gulin Yan","Han Zhang","Han Zhou","Hanghao Wu","Hangyu Guo","Hanqi Chen","Hanshan Zhang","Hao Wu","Haocheng Zhang","Haolong Yan","Haoran Lv","Haoran Wei","Hebin Zhou","Heng Wang","Heng Wang","Hongxin Li","Hongyu Zhou","Hongyuan Wang","Huiyong Guo","Jia Wang","Jiahao Gong","Jialing Xie","Jian Zhou","Jianjian Sun","Jiaoren Wu","Jiaran Zhang","Jiayu Liu","Jie Cheng","Jie Luo","Jie Yan","Jie Yang","Jieyi Hou","Jinguang Zhang","Jinlan Cao","Jisheng Yin","Junfeng Liu","Junhao Huang","Junzhe Lin","Kaijun Tan","Kaixiang Li","Kang An","Kangheng Lin","Kenkun Liu","Lei Yang","Liang Zhao","Liangyu Chen","Lieyu Shi","Liguo Tan","Lin Lin","Lin Zhang","Lina Chen","Liwen Huang","Liying Shi","Longlong Gu","Mei Chen","Mengqiang Ren","Ming Li","Mingzhe Chen","Na Wang","Nan Wu","Qi Han","Qian Zhao","Qiang Zhang","Qianni Liu","Qiaohui Chen","Qiling Wu","Qinglin He","Qinyuan Tan","Qiufeng Wang","Qiuping Wu","Qiuyan Liang","Quan Sun","Rui Li","Ruihang Miao","Ruosi Wan","Ruyan Guo","Shangwu Zhong","Shaoliang Pang","Shengjie Fan","Shijie Shang","Shilei Jiang","Shiliang Yang","Shiming Hao","Shuli Gao","Siming Huang","Siqi Liu","Tiancheng Cao","Tianhao Cheng","Tianhao Peng","Wang You","Wei Ji","Wen Sun","Wenjin Deng","Wenqing He","Wenzhen Zheng","Xi Chen","Xiangwen Kong","Xianzhen Luo","Xiaobo Yang","Xiaojia Liu","Xiaoxiao Ren","Xin Han","Xin Li","Xin Wu","Xu Zhao","Yanan Wei","Yang Li","Yangguang Li","Yangshijie Xu","Yanming Xu","Yaqiang Shi","Yeqing Shen","Yi Yang","Yifei Yang","Yifeng Gong","Yihan Chen","Yijing Yang","Yinmin Zhang","Yizhuang Zhou","Yuanhao Ding","Yuantao Fan","Yuanzhen Yang","Yuchu Luo","Yue Peng","Yufan Lu","Yuhang Deng","Yuhe Yin","Yujie Liu","Yukun Chen","Yuling Zhao","Yun Mou","Yunlong Li","Yunzhou Ju","Yusheng Li","Yuxiang Yang","Yuxiang Zhang","Yuyang Chen","Zejia Weng","Zhe Xie","Zheng Ge","Zheng Gong","Zhenyi Lu","Zhewei Huang","Zhichao Chang","Zhiguo Huang","Zhirui Wang","Zidong Yang","Zili Wang","Ziqi Wang","Zixin Zhang","Binxing Jiao","Daxin Jiang","Heung-Yeung Shum","Xiangyu Zhang"}
Kategorie
{cs.LG,cs.AI}
Link
http://arxiv.org/abs/2507.19427v1
PDF Link
http://arxiv.org/pdf/2507.19427v1
Zusammenfassung
Schritt-3 ist ein 321B-Parameter-VLM, der sich auf die Optimierung der Decodierungskosten durch hardwarebewusstes Modell-System-Co-Design konzentriert. Es bringt zwei Schlüsselneuheiten mit:
1. Multi-Matrix-Faktorisierungs-Attention (MFA): Dieses neuartige Mechanismus reduziert die Größe des KV-Caches und die Rechenzeit erheblich, während eine hohe Ausdrucksfähigkeit der Aufmerksamkeit beibehalten wird.
2. Attention-FFN-Diskretisierung (AFD): Dieses verteilte Inferenzsystem trennt die Aufmerksamkeits- und FFN-Schichten in spezialisierteSubsysteme für optimierte Leistung.
### Hauptvorteile von Schritt-3:
* **Erhebliche Kosteneinsparung**: Schritt-3 erreicht erheblich niedrigere Decodierungskosten im Vergleich zu Modellen wie DeepSeek-V3 und Qwen3 MoE 235B, insbesondere für längere Kontexte.
* **Hohe Durchsatzleistung**: Die Implementierung auf Hopper-GPUs erreicht eine Decodierungsdurchsatzleistung von bis zu 4.039 Token pro Sekunde pro GPU, was eine neue Pareto-Oberfläche für die Decodierung von LLMs darstellt.
* **Hardwareeffizienz**: Schritt-3 zeigt die Bedeutung von hardwarekonformer Aufmerksamkeitsarithmetikintensität, MoE-Dichte und AFD für die Kosteneffizienz.
### Modell-System-Co-Design:
* **Multi-Matrix-Faktorisierungs-Attention (MFA)**: Dieses Mechanismus reduziert die Anzahl der Parameter, die für die Aufmerksamkeitsrechnung erforderlich sind, während eine hohe Ausdrucksfähigkeit der Aufmerksamkeit beibehalten wird.
* **Attention-FFN-Diskretisierung (AFD)**: Dieser Ansatz trennt die Aufmerksamkeits- und FFN-Schichten in verschiedeneSubsysteme, was eine optimierte Parallelität und Leistung ermöglicht.
### Implementierung und Ergebnisse:
* **StepMesh-Kommunikationsbibliothek**: Diese benutzerdefinierte Kommunikationsbibliothek ist speziell für AFD entwickelt und bietet ultr niedrige Latenz und null SM-Nutzung.
* **Leistungsergebnisse**: Schritt-3 erreicht eine Decodierungsdurchsatzleistung von bis zu 4.039 Token pro Sekunde pro GPU auf Hopper-GPUs, was DeepSeek-V3 unter der gleichen Konfiguration erheblich übertrifft.
### Schlussfolgerung:
Schritt-3 zeigt das Potenzial von hardwarebewusstem Modell-System-Co-Design für die Erreichung hoher Effizienz und Kosteneffizienz bei der Decodierung großer Sprachmodelle. Seine Innovationen im Aufmerksamkeitsmechanismus und im verteilten Inferenz bieten wertvolle Einblicke für die zukünftige Entwicklung von LLMs.
Empfohlene Papiere
Baryonifikation: Eine Alternative zu hydrodynamischen Simulationen für kosmologische Studien
Begründungsgetriebene Retrosynthesevorhersage mit großen Sprachmodellen durch Reinforcement Learning
Verschlüsselter Zustand Quanten-Programmierungsschema basierend auf Quanten-Schaltkreisklärung
Eine kosmische Amplifikation für die Muon-zu-Positron-Conversion in Nukeln
AbGen: Bewertung großer Sprachmodelle im Design und der Bewertung von Entnahmenforschungsstudien für wissenschaftliche Forschung
Exploration des nicht-kalten dunklen Materials in einer Szenario der dynamischen dunklen Energie mit DESI DR2-Daten
Ein Stiftungsmodell für massive MIMO-Precoding mit einem anpassungsfähigen pro-Benutzer-Raten-Leistungsaustausch
Quench-Spektroskopie für Lieb-Liniger-Bosonen im Anwesenheit eines harmonischen Fanges
Membran-vermitteltes Kraftübergang: Schieben-Ziehen-Bewegung von Vezikeln mit flüssigen Membranen
MTU: Die Multifunktionale Baum-Einheit in zkSpeed zur Beschleunigung von HyperPlonk