Zusammenfassung - 3DGauCIM: Beschleunigung des statischen/dynamischen 3D-Gaussian-Splatting durch digitale CIM für Echtzeit-Edge-Rendering mit hoher Bildwiederholrate
Titel
3DGauCIM: Beschleunigung des statischen/dynamischen 3D-Gaussian-Splatting durch digitale CIM für Echtzeit-Edge-Rendering mit hoher Bildwiederholrate
Zeit
2025-07-25 10:16:44
Autor
{"Wei-Hsing Huang","Cheng-Jhih Shih","Jian-Wei Su","Samuel Wade Wang","Vaidehi Garg","Yuyao Kong","Jen-Chun Tien","Nealson Li","Arijit Raychowdhury","Meng-Fan Chang",Yingyan,Lin,"Shimeng Yu"}
Kategorie
{cs.AR}
Link
http://arxiv.org/abs/2507.19133v1
PDF Link
http://arxiv.org/pdf/2507.19133v1
Zusammenfassung
Das Papier stellt 3DGauCIM vor, ein neuer Rahmenwerk zur Beschleunigung von statischem und dynamischem 3D-Gaussian-Splatting (3DGS) auf Edge-Geräten. 3DGS ist eine leistungsstarke Technik zur Echtzeit-Rendering von dynamischen Szenen und ist für AR/VR-Anwendungen unerlässlich. Allerdings stellt die Implementierung dynamischen 3DGS auf Edge-Geräten mehrere Herausforderungen:
1. **Hohe Energiekosten**: Das Laden aller Gauß-Parameter aus dem DRAM für die Kugelkuppelung verursacht hohe Energiekosten.
2. **Erhöhte Parameter**: Erhöhte Parameter für dynamische Szenen erhöhen die Sortierlatenz und den Energieverbrauch.
3. **Beschränkte Pufferkapazität**: Eine begrenzte Pufferkapazität auf dem Chip mit höheren Parametern reduziert die Pufferwiederverwendung und führt zu häufigem Zugriff auf den DRAM.
4. **Inkompatibilität mit DCIM**: Dynamische 3DGS-Operationen sind nicht ohne weiteres mit digital compute-in-memory (DCIM) kompatibel.
Um diese Herausforderungen zu bewältigen, schlägt das Papier einen Algorithmus-Hardware-Ko-Design-Rahmenwerk mit folgenden Schlüsselmerkmalen vor:
**Algorithmenoptimierungen**:
1. **DRAM-zugriffsreduzierende Kugelkuppelung (DR-FC)**: Dieser Ansatz führt eine Offline-Partitionierung des 3D-Szenenvolumens in eine grobmaschige Gitterstruktur durch. Dies ermöglicht eine effiziente Kugelkuppelung ohne den Zugriff auf die vollständigen Gauß-Parameter zu erfordern, was die DRAM-Leseoperationen erheblich reduziert.
2. **Anpassbare Tile-Gruppierung mit posteriori Wissen (ATG)**: Diese Technik verfolgt die räumlichen Beziehungen zwischen Gaussiaden und Tiles während des Schnitstests. Basierend auf diesen Beziehungen optimiert das System dynamisch die Tile-Gruppierung, um die Effizienz der Pufferwiederverwendung auf dem Chip zu maximieren.
3. **Anpassbare Intervallinitialisierung Bucket-Bitonic Sort mit posteriori Wissen (AII-Sort)**: Dieser Ansatz nutzt die Frame-zu-Frame-Korrelationen von Gaussian-Splatting-Szenen durch die Nutzung von Randpunkten aus dem vorherigen Frame zur Initialisierung der Bucket-Intervalle des aktuellen Frames, was ausgewogene Bucket-Verteilungen und effiziente Sortieroperationen erreicht.
**Hardwareoptimierungen**:
1. **DCIM-freundlicher dynamischer 3DGS-Datenfluss (DD3D-Flow)**: Dieser Datenfluss mappt die vielfältigen Berechnungen, die für dynamisches 3DGS erforderlich sind, effizient auf die DCIM-Architektur, was energiesparende Berechnungen ermöglicht.
**Evaluierungsergebnisse**:
Das Papier zeigt die Effektivität von 3DGauCIM durch umfangreiche Experimente an großen, realen statischen und dynamischen Datensätzen. Die Ergebnisse zeigen, dass 3DGauCIM eine hohe Framerate Echtzeit-Rendering (über 200 FPS) mit minimaler Energieverbrauch (0,28 W für statische Szenen und 0,63 W für dynamische Szenen) erreicht. Diese Arbeit bewältigt erfolgreich die erheblichen Herausforderungen der Implementierung von statischem/dynamischem 3DGS auf ressourcenbeschränkten Edge-Geräten und ermöglicht effizientes und energieeffizientes Echtzeit-Rendering von dynamischen Szenen für AR/VR-Anwendungen.
Empfohlene Papiere
Grundlagen der CO2-Absorption und Diffusion in unter-nanoporösen Materialien: Anwendung auf CALF-20
A3D-MoE: Beschleunigung großer Sprachmodelle mit Mischung aus Experten durch 3D-heterogene Integration
Eine Klasse von Nakayama-Algebren mit einer Braid-Gruppen-Aktion auf τ-ausnahmehaften Sequenzen
Meilenstein hin zu einem Demonstrator für ein ECRIPAC-Accelerator
Tieftiefen-Inapproximierbarkeit und Exponentieller ETH-Niederschlag
Extrahieren von nichtlinearen dynamischen Antwortfunktionen aus der Zeitentwicklung
Minimal Rollen des solaren Subsurface-Meridionalflusses im verteilten-Schub-Babcock-Leighton-Dynamo
Grapheneuralnetzwerk-Surrogaten für den Kontakt mit deformierbaren Körpern mit notwendiger und ausreichender Kontakt detention
Mix-Geneformer: Unified Representation Learning für menschliche und Maus-scrNA-seq-Daten
SeC: Fortschritt in der komplexen Videoobjektscherei durch progressiven Konzeptaufbau