ML Systems 目录
ML Infra / Systems 系列教程。正文为 markdown,关键机制都配有可交互动画(点按钮逐步演示)。建议按章节顺序阅读,专题部分可按需跳读。
教程系列(按章节顺序)
- Ch1 · 从 Self-Attention 到 Flash Attention — Self-Attention、Multi-Head、Online Softmax、Flash Attention、KV Cache
- Ch2 · GPU 计算与 CUDA 基础 — GPU 架构、内存层级、GEMM Tiling、Tensor Core、CUDA Graph
- Ch3 · 分布式训练与通信原语 — DP / TP / PP / SP / EP、NCCL、Ring AllReduce、FSDP/ZeRO
- Ch4 · LLM 推理系统:SGLang 深度解析 — 请求生命周期、Continuous Batching、Radix Cache、量化、Speculative Decoding
- Ch5 · RLHF 系统:从理论到生产 — PPO Clipping、RLHF 三阶段、GRPO vs PPO、Weight Sync、Multi-turn RL
- Ch6 · 大规模 ML 系统的高级优化技术 — Zero-Overhead 调度、DP vs TP、FP8、Diffusion LLM
- Ch7 · ML Systems 面试题库:60 道高频题 — 可筛选 / 搜索的交互式题库 + 知识图谱
专题深入
- GPU 解剖与 LLM Token 数据流 — SM 结构、内存层级、Token 从输入到输出的完整流动
- GPU 并行策略详解:TP / PP / EP / SP — 四种并行的切分方式与通信开销对比
- GEMM Tiling:矩阵乘法如何拆到 Tensor Core — Grid→Block→Warp→Tensor Core 的分块映射
- CUDA Graph 深度解析 — Launch overhead、capture/replay、适用性判断
- DP Attention:让 KV Cache 不再复制 — Data-Parallel Attention 与 TP+EP 的对比
想找算法相关内容?见 算法目录。