SM 0 内部结构

CUDA Cores: 128 个 FP32 单元

Tensor Cores: 4 个(4x4 矩阵运算)

Shared Memory: 可配置 48KB/64KB/100KB

每个 SM 可同时管理多个 Warp:

每行 = 1 个 Warp (32 threads),颜色脉动表示线程正在执行