Resumen - Paso-3 es Grande pero Asequible: Co-diseño de Modelos-sistemas para Decodificación de Costo Eficiente
Título
Paso-3 es Grande pero Asequible: Co-diseño de Modelos-sistemas para Decodificación de Costo Eficiente
Tiempo
2025-07-25 16:53:13
Autor
{StepFun,:,"Bin Wang","Bojun Wang","Changyi Wan","Guanzhe Huang","Hanpeng Hu","Haonan Jia","Hao Nie","Mingliang Li","Nuo Chen","Siyu Chen","Song Yuan","Wuxun Xie","Xiaoniu Song","Xing Chen","Xingping Yang","Xuelin Zhang","Yanbo Yu","Yaoyu Wang","Yibo Zhu","Yimin Jiang","Yu Zhou","Yuanwei Lu","Houyi Li","Jingcheng Hu","Ka Man Lo","Ailin Huang","Binxing Jiao","Bo Li","Boyu Chen","Changxin Miao","Chang Lou","Chen Hu","Chen Xu","Chenfeng Yu","Chengyuan Yao","Daokuan Lv","Dapeng Shi","Deshan Sun","Ding Huang","Dingyuan Hu","Dongqing Pang","Enle Liu","Fajie Zhang","Fanqi Wan","Gulin Yan","Han Zhang","Han Zhou","Hanghao Wu","Hangyu Guo","Hanqi Chen","Hanshan Zhang","Hao Wu","Haocheng Zhang","Haolong Yan","Haoran Lv","Haoran Wei","Hebin Zhou","Heng Wang","Heng Wang","Hongxin Li","Hongyu Zhou","Hongyuan Wang","Huiyong Guo","Jia Wang","Jiahao Gong","Jialing Xie","Jian Zhou","Jianjian Sun","Jiaoren Wu","Jiaran Zhang","Jiayu Liu","Jie Cheng","Jie Luo","Jie Yan","Jie Yang","Jieyi Hou","Jinguang Zhang","Jinlan Cao","Jisheng Yin","Junfeng Liu","Junhao Huang","Junzhe Lin","Kaijun Tan","Kaixiang Li","Kang An","Kangheng Lin","Kenkun Liu","Lei Yang","Liang Zhao","Liangyu Chen","Lieyu Shi","Liguo Tan","Lin Lin","Lin Zhang","Lina Chen","Liwen Huang","Liying Shi","Longlong Gu","Mei Chen","Mengqiang Ren","Ming Li","Mingzhe Chen","Na Wang","Nan Wu","Qi Han","Qian Zhao","Qiang Zhang","Qianni Liu","Qiaohui Chen","Qiling Wu","Qinglin He","Qinyuan Tan","Qiufeng Wang","Qiuping Wu","Qiuyan Liang","Quan Sun","Rui Li","Ruihang Miao","Ruosi Wan","Ruyan Guo","Shangwu Zhong","Shaoliang Pang","Shengjie Fan","Shijie Shang","Shilei Jiang","Shiliang Yang","Shiming Hao","Shuli Gao","Siming Huang","Siqi Liu","Tiancheng Cao","Tianhao Cheng","Tianhao Peng","Wang You","Wei Ji","Wen Sun","Wenjin Deng","Wenqing He","Wenzhen Zheng","Xi Chen","Xiangwen Kong","Xianzhen Luo","Xiaobo Yang","Xiaojia Liu","Xiaoxiao Ren","Xin Han","Xin Li","Xin Wu","Xu Zhao","Yanan Wei","Yang Li","Yangguang Li","Yangshijie Xu","Yanming Xu","Yaqiang Shi","Yeqing Shen","Yi Yang","Yifei Yang","Yifeng Gong","Yihan Chen","Yijing Yang","Yinmin Zhang","Yizhuang Zhou","Yuanhao Ding","Yuantao Fan","Yuanzhen Yang","Yuchu Luo","Yue Peng","Yufan Lu","Yuhang Deng","Yuhe Yin","Yujie Liu","Yukun Chen","Yuling Zhao","Yun Mou","Yunlong Li","Yunzhou Ju","Yusheng Li","Yuxiang Yang","Yuxiang Zhang","Yuyang Chen","Zejia Weng","Zhe Xie","Zheng Ge","Zheng Gong","Zhenyi Lu","Zhewei Huang","Zhichao Chang","Zhiguo Huang","Zhirui Wang","Zidong Yang","Zili Wang","Ziqi Wang","Zixin Zhang","Binxing Jiao","Daxin Jiang","Heung-Yeung Shum","Xiangyu Zhang"}
Categoría
{cs.LG,cs.AI}
Enlace
http://arxiv.org/abs/2507.19427v1
PDF Enlace
http://arxiv.org/pdf/2507.19427v1
Resumen
### Paso-3 es un VLM de 321B parámetros que se centra en optimizar los costos de decodificación a través del co-diseño de modelo-sistema con conciencia de hardware. Introduce dos innovaciones clave:
1. **Atención de Factorización Matricial Múltiple (MFA)**: Este mecanismo novedoso reduce significativamente el tamaño del caché KV y la computación manteniendo una alta expresividad de atención.
2. **Desagregación de Atención-FFN (AFD)**: Este sistema de inferencia distribuido desacopla las capas de atención y FFN en subsistemas especializados para optimizar el rendimiento.
### Ventajas Clave del Paso-3:
* **Reducción significativa de Costos**: Paso-3 logra costos de decodificación significativamente más bajos en comparación con modelos como DeepSeek-V3 y Qwen3 MoE 235B, especialmente para contextos más largos.
* **Alta Tasa de Tráfico**: La implementación en GPUs Hopper alcanza una tasa de decodificación de hasta 4,039 tokens por segundo por GPU, estableciendo una nueva frontera Pareto para la decodificación de LLM.
* **Esfuerzo de Hardware**: Paso-3 demuestra la importancia del esforzarse por la alineación de hardware en la intensidad aritmética de la atención, la densidad MoE y el AFD para la efectividad económica.
### Co-Diseño de Modelo-Sistema:
* **Atención de Factorización Matricial Múltiple (MFA)**: Este mecanismo reduce el número de parámetros necesarios para el cálculo de atención, manteniendo una alta expresividad.
* **Desagregación de Atención-FFN (AFD)**: Este enfoque separa las capas de atención y FFN en diferentes subsistemas, permitiendo una paralelismo y rendimiento optimizados.
### Implementación y Resultados:
* **Biblioteca de Comunicación StepMesh**: Esta biblioteca de comunicación personalizada está diseñada específicamente para AFD y ofrece latencias ultra-bajas y uso cero de SM.
* **Resultados de Rendimiento**: Paso-3 alcanza una tasa de decodificación de hasta 4,039 tokens por segundo por GPU en GPUs Hopper, significativamente superando a DeepSeek-V3 con la misma configuración.
### Conclusión:
Paso-3 demuestra el potencial del co-diseño de modelo-sistema con conciencia de hardware para alcanzar una alta eficiencia y efectividad económica en la decodificación de modelos de lenguaje grandes. Sus innovaciones en el mecanismo de atención y la inferencia distribuida proporcionan insucciones valiosas para el desarrollo futuro de LLM.
Artículos Recomendados
Estructuras de datos comprimidas para divisiones de Heegaard
Mix-Geneformer: Aprendizaje de Representación Unificado para Datos de scRNA-seq de Humanos y Ratones
MODA: Un marco unificado de difusión 3D para generación molecular multi-tarea consciente de objetivos
Efectivo SVD paramétrico del operador de Koopman para sistemas dinámicos estocásticos
Una desigualdad empirica de Bernstein para datos dependientes en espacios Hilbert y aplicaciones
Módulos interferométricos monolíticos para posicionamiento de coordenadas multi-axes con precisión subnanométrica
$k$-PCA para Distancias Euclidianas (No Cuadradas): Aproximación en Tiempo Polinomial
SeC: Avanzando en la Segmentación de Objetos Vídeos Complejos mediante la Construcción Progresiva de Conceptos
Hacia Modelos Subrogados Robustos: Comparación de Enfoques de Aprendizaje Automático para Acelerar Simulaciones de Fractura Británica con Materiales de Fase菲
Extracción de Enzimas Impulsada por Aprendizaje Automático: Oportunidades, Desafíos y Perspectivas Futuras