| Mengyang Liu's Blog

从 Self-Attention 到 Flash Attention

2026-06-03 ML Systems

从 Self-Attention 到 Flash Attention，理解现代 LLM 的核心计算原理。本文正文为 markdown，关键机制配有可交互动画（点按钮逐步演示）。

...

ML Systems 面试题库：60 道高频题

2026-06-03 ML Systems

精选 60 道 ML Systems 高频面试题，覆盖 Transformer、GPU & CUDA、分布式训练、推理系统、RLHF、系统设计与 Debugging 七大方向。下面是一个可交互题库：支持按分类、难度筛选与关键词搜索，点击题目可展开提示与解答。

...

大规模 ML 系统的高级优化技术

2026-06-03 ML Systems

本章覆盖大规模 ML 系统中的前沿优化技术：从 Zero-Overhead 调度、DP Attention、在线权重更新，到 FP8/INT4 训练、投机解码、长上下文优化与 Diffusion LLM。正文为 markdown，关键机制配有可交互动画。

...

RLHF 系统：从理论到生产

2026-06-03 ML Systems

从 RL 基础到 PPO、GRPO，再到 veRL / SLIME / OpenRLHF 等生产框架与 Training-Inference Mismatch，系统理解现代 LLM 对齐的训练系统。本文正文为 markdown，关键机制配有可交互动画（点按钮逐步演示）。

...

LLM 推理系统：SGLang 深度解析

2026-06-03 ML Systems

一个 LLM 推理请求从用户输入到最终输出的完整链路：请求生命周期、Continuous Batching、KV Cache 管理、Scheduler 设计、Quantization、Speculative Decoding 等。本文正文为 markdown，关键机制配有可交互动画（点按钮演示）。

...

分布式训练与通信原语

2026-06-03 ML Systems

随着模型规模指数级增长，单卡早已无法容纳整个模型。本文系统梳理数据/张量/流水线/序列/专家并行、NCCL 集合通信原语、Ring AllReduce、FSDP/ZeRO 以及通信-计算重叠等分布式训练核心机制。正文为 markdown，关键机制配有可交互动画（点按钮逐步演示）。

...

GPU 计算与 CUDA 基础

2026-06-03 ML Systems

从硬件架构到编程模型，理解 GPU 并行计算的核心概念。本文正文为 markdown，关键机制配有可交互动画（点击、悬停或逐步演示）。

...

GPU 解剖与 LLM Token 数据流

2026-06-03 ML Systems

要理解 LLM 推理为什么慢、瓶颈在哪，必须先看清一个 token 在 GPU 硬件里走过的完整路径。本文从 H100 芯片全貌、SM 内部结构、内存层级，一直讲到一个 token 从输入到输出的数据流动，配有可交互图示。

...

DP Attention：让 KV Cache 不再复制

2026-06-03 ML Systems

在 MoE 大模型推理中，传统的 TP + EP 方案会让每张卡都持有一份完整的 KV Cache，造成严重的显存冗余。DP Attention 通过让每张卡只负责自己的 request，彻底消除这种冗余。本文对比两种方案（4 GPU、8 Experts 示例），配有可交互动画。

...

GPU 并行策略详解：TP / PP / EP / SP

2026-06-03 ML Systems

训练和推理大模型时，单卡显存和算力远远不够。本文系统梳理四种主流并行策略 —— Tensor Parallelism、Pipeline Parallelism、Expert Parallelism、Sequence Parallelism，关键机制配有可交互动画。

...

Tag: mlsys