点击"下一步"或"自动播放",逐阶段观察 MMA 运算 D = A × B + C
Step 0 / 4
A Fragment
[m=16, k=16] FP16
×
B Fragment
[k=16, n=8] FP16
+
C/D Accumulator
[m=16, n=8] FP32
D[16×8] = A[16×16] × B[16×8] + C[16×8]
(单次 Warp MMA 指令, FP16→FP32)
每个 Tensor Core 在一个时钟周期内完成一次 4×4 的矩阵乘加运算 D = A × B + C:
A (FP16) 4×4
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
×
B (FP16) 4×4
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
+
C (FP32) 4×4
c
c
c
c
c
c
c
c
c
c
c
c
c
c
c
c
=
D (FP32) 4×4
d
d
d
d
d
d
d
d
d
d
d
d
d
d
d
d
H100 的 Tensor Core 支持更大的 mma.m16n8k16 指令,一个 Warp 协作完成 16×8×16 的矩阵乘加。FP16 输入 → FP32 累加器,保证精度。