ML Systems 目录

2026-06-04

ML Infra / Systems 系列教程。正文为 markdown，关键机制都配有可交互动画（点按钮逐步演示）。建议按章节顺序阅读，专题部分可按需跳读。

教程系列（按章节顺序）

Ch1 · 从 Self-Attention 到 Flash Attention — Self-Attention、Multi-Head、Online Softmax、Flash Attention、KV Cache
Ch2 · GPU 计算与 CUDA 基础 — GPU 架构、内存层级、GEMM Tiling、Tensor Core、CUDA Graph
Ch3 · 分布式训练与通信原语 — DP / TP / PP / SP / EP、NCCL、Ring AllReduce、FSDP/ZeRO
Ch4 · LLM 推理系统：SGLang 深度解析 — 请求生命周期、Continuous Batching、Radix Cache、量化、Speculative Decoding
Ch5 · RLHF 系统：从理论到生产 — PPO Clipping、RLHF 三阶段、GRPO vs PPO、Weight Sync、Multi-turn RL
Ch6 · 大规模 ML 系统的高级优化技术 — Zero-Overhead 调度、DP vs TP、FP8、Diffusion LLM
Ch7 · ML Systems 面试题库：60 道高频题 — 可筛选 / 搜索的交互式题库 + 知识图谱

想找算法相关内容？见算法目录。