Resumen - Tolerancia a fallos personalizada basada en algoritmos para capas de atención en Transformadores

Título
Tolerancia a fallos personalizada basada en algoritmos para capas de atención en Transformadores

Tiempo
2025-07-22 15:11:13

Autor
{"Vasileios Titopoulos","Kosmas Alexandridis","Giorgos Dimitrakopoulos"}

Categoría
{cs.LG,cs.AR}

Enlace
http://arxiv.org/abs/2507.16676v1

PDF Enlace
http://arxiv.org/pdf/2507.16676v1

Resumen

El artículo discute un método novedoso llamado Flash-ABFT, diseñado para mejorar la tolerancia a fallos de las capas de atención en modelos de aprendizaje profundo basados en transformadores. Este método aborda un desafío significativo en los aceleradores de hardware actuales que utilizan mecanismos de atención: detectar de manera eficiente los errores causados por fallos de hardware aleatorios. Los transformadores y los grandes modelos de lenguaje (LLM) impulsados por el mecanismo de atención han revolucionado numerosas aplicaciones de IA, lo que ha llevado a la necesidad de aceleradores de hardware especializados. Sin embargo, estos aceleradores enfrentan desafíos en la detección eficiente de errores debido a fallos de hardware aleatorios. Las técnicas tradicionales de tolerancia a fallos basadas en algoritmos (ABFT) verifican multiplicaciones de matrices individuales, pero se quedan cortas al manejar el mecanismo de atención completo, especialmente debido a la normalización softmax intermedia. Este trabajo propone Flash-ABFT, un método novedoso que calcula un checksum en línea a través de todo el producto de tres matrices de consulta, clave y valor de una capa de atención, incluyendo la operación softmax, con una sola verificación. Este enfoque reduce significativamente el overhead al eliminar verificaciones redundantes, manteniendo una alta precisión en la detección de fallos. Flash-ABFT logra las siguientes contribuciones: 1. Propone un método que fusiona la verificación de errores en un solo paso al calcular un checksum predicho para toda la operación de atención, incluyendo la normalización softmax. A diferencia de las técnicas ABFT tradicionales que verifican cada multiplicación de matrices por separado, este enfoque unificado permite una detección de errores más completa y eficiente. 2. Integra de manera fluida esta computación de checksum fusionado en aceleradores de hardware optimizados existentes para la atención, añadiendo detección de errores en línea con un mínimo overhead. Esto mejora la tolerancia a fallos mientras implica menos del 1.9% de costo adicional de energía, convirtiéndose en una mejora altamente eficiente y práctica. 3. Demuestra una alta precisión en la detección de fallos con mínimos falsos positivos, gracias al pequeño tamaño del estado de verificación en comparación con el datapath del acelerador. Los resultados de la evaluación demuestran que Flash-ABFT implica solo un overhead de área de hardware del 5.3% y menos del 1.9% de overhead energético, convirtiéndose en una solución rentable y robusta para la detección de errores en aceleradores de atención. En resumen, Flash-ABFT proporciona una solución eficiente y precisa para la detección de errores en capas de atención, mejorando la fiabilidad y el rendimiento de los aceleradores de hardware utilizados para transformadores y LLM.


Artículos Recomendados

Pseudogap en un aislante cristalino dopado con metales desordenados

En algunas propiedades integrales de las dimensiones en las categorías de fusión de Isaacs

SynC: Refinamiento del Conjunto de Datos de Títulos de Imágenes Sintéticas con Mapeo Uno-a-muchos para la Captura de Títulos de Imágenes a Cero Sesiones

Cuantificación impulsada por el Espacio Latente de la Formación de Biofilms utilizando Microfluídica de Gotas a Tiempo Resuelto

Vecchia aproximó los procesos gaussianos heteroscedásticos bayesianos

Desintegración vestigial del Orden de un Superfluido Atómico Ciral en un Doble Valle de un Difractograma Óptico

El muonio como sondeo de defectos puntuales en diamante de tipo Ib

Materiales no convencionales para la detección de materia oscura ligera

Hess-MC2: Metodología de Monte Carlo Secuencial Cuadrado utilizando Información de Hessian y Propuestas de Segundo Orden

DiffuMeta: Modelos de Lenguaje Algebraicos para el Diseño Inverso de Metamateriales mediante Transformadores de Difusión