Registers (~64KB/SM)
带宽: ~20 TB/s
延迟: 0 cycles
作用域: 单个 Thread
▼
Shared Memory (最高 228KB/SM)
带宽: ~19 TB/s
延迟: ~20 cycles
作用域: Thread Block
▼
L2 Cache (50MB on H100)
带宽: ~12 TB/s
延迟: ~200 cycles
作用域: 全 GPU
▼
HBM3 (80GB on H100)
带宽: 3.35 TB/s (H100)
延迟: ~400 cycles
作用域: 全 GPU (Global)