Weight Sync 策略

NCCL Broadcast

Disk-based

Hybrid Engine

通过 NCCL 直接将更新后的权重从 training GPU broadcast 到 inference GPU：

Train 0

Train 1

Train 2

Infer 0

Infer 1

Infer 2

Step 0 / 4

源就绪：3 个 Training GPU 已更新权重，等待 broadcast

延迟低 (~秒级)，需要 training 和 inference GPU 在同一 NCCL group 内

Training 完成后将 checkpoint 保存到共享存储，inference worker 从 disk 加载：

Train GPU → 保存 checkpoint → 共享文件系统 → Inference GPU 加载

延迟高 (~分钟级)，但架构简单，training 和 inference 完全解耦

同一组 GPU 在 training 和 inference 模式间动态切换（如 DeepSpeed Hybrid Engine）：

Training Mode (FSDP/ZeRO) ↔ 动态切换 ↔ Inference Mode (TP + KV Cache)

零 sync 开销，但模式切换有 overhead，且无法 overlap