tag: parallelism.md

Tag: parallelism

2 posts

分布式训练与通信原语

2026-06-03 ML Systems

随着模型规模指数级增长，单卡早已无法容纳整个模型。本文系统梳理数据/张量/流水线/序列/专家并行、NCCL 集合通信原语、Ring AllReduce、FSDP/ZeRO 以及通信-计算重叠等分布式训练核心机制。正文为 markdown，关键机制配有可交互动画（点按钮逐步演示）。

...

GPU 并行策略详解：TP / PP / EP / SP

2026-06-03 ML Systems

训练和推理大模型时，单卡显存和算力远远不够。本文系统梳理四种主流并行策略 —— Tensor Parallelism、Pipeline Parallelism、Expert Parallelism、Sequence Parallelism，关键机制配有可交互动画。

...