GPU 内存层次金字塔(悬停查看带宽)

Registers (~64KB/SM)
带宽: ~20 TB/s
延迟: 0 cycles
作用域: 单个 Thread
Shared Memory (最高 228KB/SM)
带宽: ~19 TB/s
延迟: ~20 cycles
作用域: Thread Block
L2 Cache (50MB on H100)
带宽: ~12 TB/s
延迟: ~200 cycles
作用域: 全 GPU
HBM3 (80GB on H100)
带宽: 3.35 TB/s (H100)
延迟: ~400 cycles
作用域: 全 GPU (Global)

越靠近计算单元,容量越小但带宽越高、延迟越低