tag: expert-parallel.md

Tag: expert-parallel

2 posts
DP Attention:让 KV Cache 不再复制

在 MoE 大模型推理中,传统的 TP + EP 方案会让每张卡都持有一份完整的 KV Cache,造成严重的显存冗余。DP Attention 通过让每张卡只负责自己的 request,彻底消除这种冗余。本文对比两种方案(4 GPU、8 Experts 示例),配有可交互动画。

...
GPU 并行策略详解:TP / PP / EP / SP

训练和推理大模型时,单卡显存和算力远远不够。本文系统梳理四种主流并行策略 —— Tensor Parallelism、Pipeline Parallelism、Expert Parallelism、Sequence Parallelism,关键机制配有可交互动画。

...