tag: ring-allreduce.md

Tag: ring-allreduce

1 posts
分布式训练与通信原语

随着模型规模指数级增长,单卡早已无法容纳整个模型。本文系统梳理数据/张量/流水线/序列/专家并行、NCCL 集合通信原语、Ring AllReduce、FSDP/ZeRO 以及通信-计算重叠等分布式训练核心机制。正文为 markdown,关键机制配有可交互动画(点按钮逐步演示)。

...