tag: parallelism.md

Tag: parallelism

2 posts
分布式训练与通信原语

随着模型规模指数级增长,单卡早已无法容纳整个模型。本文系统梳理数据/张量/流水线/序列/专家并行、NCCL 集合通信原语、Ring AllReduce、FSDP/ZeRO 以及通信-计算重叠等分布式训练核心机制。正文为 markdown,关键机制配有可交互动画(点按钮逐步演示)。

...
GPU 并行策略详解:TP / PP / EP / SP

训练和推理大模型时,单卡显存和算力远远不够。本文系统梳理四种主流并行策略 —— Tensor Parallelism、Pipeline Parallelism、Expert Parallelism、Sequence Parallelism,关键机制配有可交互动画。

...