tag: moe.md

Tag: moe

2 posts

大规模 ML 系统的高级优化技术

2026-06-03 ML Systems

本章覆盖大规模 ML 系统中的前沿优化技术：从 Zero-Overhead 调度、DP Attention、在线权重更新，到 FP8/INT4 训练、投机解码、长上下文优化与 Diffusion LLM。正文为 markdown，关键机制配有可交互动画。

...

DP Attention：让 KV Cache 不再复制

2026-06-03 ML Systems

在 MoE 大模型推理中，传统的 TP + EP 方案会让每张卡都持有一份完整的 KV Cache，造成严重的显存冗余。DP Attention 通过让每张卡只负责自己的 request，彻底消除这种冗余。本文对比两种方案（4 GPU、8 Experts 示例），配有可交互动画。

...