tag: tiling.md

Tag: tiling

1 posts
GEMM Tiling:矩阵乘法如何拆到 Tensor Core

矩阵乘法(GEMM)是深度学习里占绝大多数算力的算子。本文从一个具体的 C[64, 24576] = A[64, 8192] × B[8192, 24576] 出发,一层层拆解它如何映射到 GPU 的 Grid / Block / Warp / Tensor Core,以及为什么 Decode 阶段会浪费算力。正文为 markdown,关键机制配有可交互动画。

...