Resumen - Caracterización del Desempeño del Modelo de Espacio Estatal (SSM) y del Modelo de Lenguaje Híbrido SSM-Transformer con Longitud de Contexto Larga
Título
Caracterización del Desempeño del Modelo de Espacio Estatal (SSM) y del Modelo de Lenguaje Híbrido SSM-Transformer con Longitud de Contexto Larga
Tiempo
2025-07-16 17:28:40
Autor
{"Saptarshi Mitra","Rachid Karami","Haocheng Xu","Sitao Huang","Hyoukjun Kwon"}
Categoría
{cs.AR,cs.AI,cs.LG,cs.SY,eess.SY}
Enlace
http://arxiv.org/abs/2507.12442v1
PDF Enlace
http://arxiv.org/pdf/2507.12442v1
Resumen
El documento explora el rendimiento y el uso de la memoria de los modelos de espacio de estados (SSM) y los modelos híbridos, especialmente su capacidad para manejar entradas de largo contexto, en GPUs de consumo y嵌入式.
Los autores subrayan las limitaciones de las arquitecturas tradicionales de Transformer en el procesamiento de secuencias largas debido a su complejidad cuadrática y requisitos de memoria. Proponen que los SSM ofrecen una alternativa prometedora con una escalabilidad lineal, capaz de procesar secuencias de hasta 220K tokens en una GPU de consumo de 24GB.
El estudio incluye una comparación exhaustiva de los modelos Transformer, SSM y híbridos, analizando su rendimiento tanto en GPUs de consumo de alto rendimiento como en plataformas嵌入式 con limitaciones de consumo de energía. Los resultados revelan que los SSM superan a los Transformers en términos de procesamiento de secuencias largas, volviéndose hasta 4 veces más rápidos en contextos muy largos.
Los autores también investigan la latencia y la huella de memoria de diferentes modelos, identificando los cuellos de botella del rendimiento y las contribuciones a nivel de operador. Encontraron que los núcleos SSM personalizados y conscientes del hardware dominan el tiempo de inferencia, representando más del 55% de la latencia en plataformas de borde.
El estudio destaca las ventajas de los SSM para la inferencia de largo contexto en GPUs de consumo y嵌入式, ofreciendo una alternativa más eficiente y escalable a los modelos Transformer tradicionales.
Artículos Recomendados
Investigación Numérica de la Dispersión de Ondas en Medios Granulares: Inversión a Escala de Grano y el Rol de los Efectos de Frontera
Mantoides con giros y el comportamiento asintótico del operador laplaciano del grafo con núcleo gaussiano
Investigación de modelo de dos Higgs-doblete bajo custodia en耦合耦合微弱四元数下通过晶格
Hyperones en el foso de los neutrones fríos
Aprendizaje mutuo enmascarado guiado por semántica para la segmentación de tumores cerebrales multimodal con modalidades faltantes arbitrarias
Extender la gravedad unificada para tener en cuenta la interacción gravitón-gravitón
Detectando Anillos Galácticos en las Encuestas de Imágenes del DESI Legacy con Aprendizaje Profundo Semi-Supervisado
Dejarlo ir? No exactamente: Abordando el problema de "cold start" en recomendaciones secuenciales con inicialización basada en contenido
Extracción de Enzimas Impulsada por Aprendizaje Automático: Oportunidades, Desafíos y Perspectivas Futuras
Un método novedoso de optimización de topologías de múltiples espesores para equilibrar el rendimiento estructural y la fabricabilidad