tag: triton.md

Tag: triton

2 posts
GPU 计算与 CUDA 基础

从硬件架构到编程模型,理解 GPU 并行计算的核心概念。本文正文为 markdown,关键机制配有可交互动画(点击、悬停或逐步演示)。

...
GEMM Tiling:矩阵乘法如何拆到 Tensor Core

矩阵乘法(GEMM)是深度学习里占绝大多数算力的算子。本文从一个具体的 C[64, 24576] = A[64, 8192] × B[8192, 24576] 出发,一层层拆解它如何映射到 GPU 的 Grid / Block / Warp / Tensor Core,以及为什么 Decode 阶段会浪费算力。正文为 markdown,关键机制配有可交互动画。

...