Resumen - Ironman: Acelerando la extensión de Transferencia Obliva para Inteligencia Artificial con Privacidad con Procesamiento de Cercanía a la Memoria

Título
Ironman: Acelerando la extensión de Transferencia Obliva para Inteligencia Artificial con Privacidad con Procesamiento de Cercanía a la Memoria

Tiempo
2025-07-22 09:35:59

Autor
{"Chenqi Lin","Kang Yang","Tianshi Xu","Ling Liang","Yufei Wang","Zhaohui Chen","Runsheng Wang","Mingyu Gao","Meng Li"}

Categoría
{cs.AR}

Enlace
http://arxiv.org/abs/2507.16391v2

PDF Enlace
http://arxiv.org/pdf/2507.16391v2

Resumen

Este documento propone Ironman, un acelerador de Transferencia Obliva (OT) novedoso diseñado para mejorar significativamente la eficiencia de OT y el marco general de Aprendizaje Automático con Privacidad (PPML). Los autores observan que el marco actual de OT, especialmente las operaciones SPCOT y LPN, son los cuellos de botella principales debido a su fuerte dependencia de la computación en CPU y el ancho de banda de la memoria. Para abordar esto, Ironman emplea una arquitectura de procesamiento cercano a la memoria (NMP) equipada con caché de lado de memoria y ordenamiento de índices para mejorar el ancho de banda efectivo de la memoria y reducir la latencia. Las características clave de Ironman incluyen: - **Expansión de Árbol GGM m-aria Consciente del Hardware**: Esto reduce la sobrecarga computacional de SPCOT, que es crucial para la aceleración en hardware. Es aplicable a entornos de hardware con y sin instrucciones AES-NI. - **Arquitectura NMP**: Esta utiliza la caché de lado de memoria y el ordenamiento de índices para mejorar el ancho de banda efectivo de la memoria para operaciones LPN, que están limitadas por el ancho de banda de la memoria debido a patrones de acceso a la memoria irregulares. - **Arquitectura Unificada**: Esta admite tanto roles de emisor como de receptor en OTE, permitiendo cambios de roles sin problemas y permitiendo que el mismo hardware se utilice para protocolos de emisor y receptor. - **Paralelismo a Nivel de Rango**: Esto mejora el paralelismo y reduce la latencia mediante la realización de cómputos directamente en datos extraídos de rangos activados. El documento demuestra que Ironman logra una mejora significativa en el rendimiento de OT y en la latencia general del marco PPML. Específicamente: - **Rendimiento de OT**: Ironman alcanza una mejora de 39.2–237.4× en el rendimiento de OT en comparación con la implementación de CPU completa. - **Latencia del Marco PPML**: Ironman muestra una reducción de 2.1–3.4× en la latencia total para modelos CNN y Transformer. Los autores también realizaron experimentos en varios marcos y modelos de PPML, demostrando que Ironman proporciona mejoras significativas en diferentes escenarios. Los resultados subrayan la efectividad de Ironman en la aceleración de OT y en la mejora de la eficiencia de los marcos PPML.


Artículos Recomendados

Clasificando anillos integrales de Grothendieck hasta el rango 5 y más allá

Fenómenos de sobrecalentamiento y fusión de una capa granular vibrada de partículas cúbicas

La proporción máxima de difusores en modelos de rumor estocásticos

Diagnóstico espectroscópico de imagen del Síndrome de Ola Gigante en el Cúmulo de Virgo con el Telescopio X de Seguimiento de la Sonda Einstein

Cada operador $ m $-concavo expansivo tiene una dilatación $ m $-isométrica.

Dinámica de solitones de cavidad interactivos

SafeWork-R1: Evolución Coevolucionada de la Seguridad e Inteligencia bajo la Ley AI-45$^{\circ}$

Un método novedoso de optimización de topologías de múltiples espesores para equilibrar el rendimiento estructural y la fabricabilidad

Software de Síntesis 3D Guiado por Representación Intermedia Expresiva de Restricciones

Simulaciones numéricas directas de la vórtice supersonica Taylor-Green mediante la ecuación de Boltzmann