不使用 Graph
使用 Graph
← 上一步
下一步 →
▶ 自动播放
↺ 重置
Step 0 / 0
CPU 时间线
GPU 时间线
核心洞察:
不使用 CUDA Graph 时,CPU 大部分时间花在 driver 开销上(红色间隙)。GPU 空闲等待下一条 launch 指令。使用 CUDA Graph 后,一次 launch 就能触发整个 kernel 序列。