Step 0: 初始状态 — Q, K, V 在 HBM,O 初始化为 0
Q [8×4]
行 = token, 列 = d
KT [4×8]
行 = d, 列 = token
V [8×4]
行 = token, 列 = d
O [8×4] (输出)
逐步累加更新
📦 Shared Memory (SRAM) 中的当前计算:
Score 矩阵 S [8×8] 计算进度 (不写入 HBM!)
■ 当前 Sij ■ 已处理 ■ 未计算
点击 "下一步" 开始动画