点击按钮,观察一个 token 从输入到输出在 GPU 硬件中的完整旅程 (LLaMA-70B Decode)
Embedding
250MB
W_qkv
384MB
W_o
128MB
KV Cache
~1.3GB
L2 Cache (50MB) — RoPE cos/sin 表 + 热数据
L2 Cache ↔ HBM 数据通路
W_gate
448MB
W_up
448MB
W_down
448MB
LM Head
500MB
准备就绪
点击「下一步」观察 token 在 GPU 内部的数据流动。每一步会高亮活跃的 HBM 区域、SM 和缓存, 并说明数据从哪里来、到哪里去、经过什么计算单元。
▶ 播放
⏭ 下一步
⏮ 上一步
↺ 重置
0 / 11