Tensor Core MMA 可视化

点击"下一步"或"自动播放"，逐阶段观察 MMA 运算 D = A × B + C Step 0 / 4

A Fragment

[m=16, k=16] FP16

B Fragment

[k=16, n=8] FP16

C/D Accumulator

[m=16, n=8] FP32

D[16×8] = A[16×16] × B[16×8] + C[16×8] (单次 Warp MMA 指令, FP16→FP32)

每个 Tensor Core 在一个时钟周期内完成一次 4×4 的矩阵乘加运算 D = A × B + C：

A (FP16) 4×4

B (FP16) 4×4

C (FP32) 4×4

D (FP32) 4×4

H100 的 Tensor Core 支持更大的 mma.m16n8k16 指令，一个 Warp 协作完成 16×8×16 的矩阵乘加。FP16 输入 → FP32 累加器，保证精度。