Token Data Flow

点击按钮，观察一个 token 从输入到输出在 GPU 硬件中的完整旅程 (LLaMA-70B Decode)

Embedding
250MB

W_qkv
384MB

W_o
128MB

KV Cache
~1.3GB

L2 Cache (50MB) — RoPE cos/sin 表 + 热数据

L2 Cache ↔ HBM 数据通路

W_gate
448MB

W_up
448MB

W_down
448MB

LM Head
500MB

准备就绪

点击「下一步」观察 token 在 GPU 内部的数据流动。每一步会高亮活跃的 HBM 区域、SM 和缓存，并说明数据从哪里来、到哪里去、经过什么计算单元。

0 / 11