| Mengyang Liu's Blog

从 Self-Attention 到 Flash Attention

2026-06-03 ML Systems

从 Self-Attention 到 Flash Attention，理解现代 LLM 的核心计算原理。本文正文为 markdown，关键机制配有可交互动画（点按钮逐步演示）。

...

LLM 推理系统：SGLang 深度解析

2026-06-03 ML Systems

一个 LLM 推理请求从用户输入到最终输出的完整链路：请求生命周期、Continuous Batching、KV Cache 管理、Scheduler 设计、Quantization、Speculative Decoding 等。本文正文为 markdown，关键机制配有可交互动画（点按钮演示）。

...

DP Attention：让 KV Cache 不再复制

2026-06-03 ML Systems

在 MoE 大模型推理中，传统的 TP + EP 方案会让每张卡都持有一份完整的 KV Cache，造成严重的显存冗余。DP Attention 通过让每张卡只负责自己的 request，彻底消除这种冗余。本文对比两种方案（4 GPU、8 Experts 示例），配有可交互动画。

...

Tag: kv-cache