Resumen - Tolerancia a fallos personalizada basada en algoritmos para capas de atención en Transformadores
Título
Tolerancia a fallos personalizada basada en algoritmos para capas de atención en Transformadores
Tiempo
2025-07-22 15:11:13
Autor
{"Vasileios Titopoulos","Kosmas Alexandridis","Giorgos Dimitrakopoulos"}
Categoría
{cs.LG,cs.AR}
Enlace
http://arxiv.org/abs/2507.16676v1
PDF Enlace
http://arxiv.org/pdf/2507.16676v1
Resumen
El artículo discute un método novedoso llamado Flash-ABFT, diseñado para mejorar la tolerancia a fallos de las capas de atención en modelos de aprendizaje profundo basados en transformadores. Este método aborda un desafío significativo en los aceleradores de hardware actuales que utilizan mecanismos de atención: detectar de manera eficiente los errores causados por fallos de hardware aleatorios.
Los transformadores y los grandes modelos de lenguaje (LLM) impulsados por el mecanismo de atención han revolucionado numerosas aplicaciones de IA, lo que ha llevado a la necesidad de aceleradores de hardware especializados. Sin embargo, estos aceleradores enfrentan desafíos en la detección eficiente de errores debido a fallos de hardware aleatorios.
Las técnicas tradicionales de tolerancia a fallos basadas en algoritmos (ABFT) verifican multiplicaciones de matrices individuales, pero se quedan cortas al manejar el mecanismo de atención completo, especialmente debido a la normalización softmax intermedia. Este trabajo propone Flash-ABFT, un método novedoso que calcula un checksum en línea a través de todo el producto de tres matrices de consulta, clave y valor de una capa de atención, incluyendo la operación softmax, con una sola verificación. Este enfoque reduce significativamente el overhead al eliminar verificaciones redundantes, manteniendo una alta precisión en la detección de fallos.
Flash-ABFT logra las siguientes contribuciones:
1. Propone un método que fusiona la verificación de errores en un solo paso al calcular un checksum predicho para toda la operación de atención, incluyendo la normalización softmax. A diferencia de las técnicas ABFT tradicionales que verifican cada multiplicación de matrices por separado, este enfoque unificado permite una detección de errores más completa y eficiente.
2. Integra de manera fluida esta computación de checksum fusionado en aceleradores de hardware optimizados existentes para la atención, añadiendo detección de errores en línea con un mínimo overhead. Esto mejora la tolerancia a fallos mientras implica menos del 1.9% de costo adicional de energía, convirtiéndose en una mejora altamente eficiente y práctica.
3. Demuestra una alta precisión en la detección de fallos con mínimos falsos positivos, gracias al pequeño tamaño del estado de verificación en comparación con el datapath del acelerador.
Los resultados de la evaluación demuestran que Flash-ABFT implica solo un overhead de área de hardware del 5.3% y menos del 1.9% de overhead energético, convirtiéndose en una solución rentable y robusta para la detección de errores en aceleradores de atención.
En resumen, Flash-ABFT proporciona una solución eficiente y precisa para la detección de errores en capas de atención, mejorando la fiabilidad y el rendimiento de los aceleradores de hardware utilizados para transformadores y LLM.
Artículos Recomendados
Pseudogap en un aislante cristalino dopado con metales desordenados
En algunas propiedades integrales de las dimensiones en las categorías de fusión de Isaacs
SynC: Refinamiento del Conjunto de Datos de Títulos de Imágenes Sintéticas con Mapeo Uno-a-muchos para la Captura de Títulos de Imágenes a Cero Sesiones
Cuantificación impulsada por el Espacio Latente de la Formación de Biofilms utilizando Microfluídica de Gotas a Tiempo Resuelto
Vecchia aproximó los procesos gaussianos heteroscedásticos bayesianos
Desintegración vestigial del Orden de un Superfluido Atómico Ciral en un Doble Valle de un Difractograma Óptico
El muonio como sondeo de defectos puntuales en diamante de tipo Ib
Materiales no convencionales para la detección de materia oscura ligera
Hess-MC2: Metodología de Monte Carlo Secuencial Cuadrado utilizando Información de Hessian y Propuestas de Segundo Orden
DiffuMeta: Modelos de Lenguaje Algebraicos para el Diseño Inverso de Metamateriales mediante Transformadores de Difusión