CUDA Cores: 128 个 FP32 单元
Tensor Cores: 4 个(4x4 矩阵运算)
Shared Memory: 可配置 48KB/64KB/100KB
每个 SM 可同时管理多个 Warp:
每行 = 1 个 Warp (32 threads),颜色脉动表示线程正在执行