交互式:Weight Sync 策略

NCCL Broadcast
Disk-based
Hybrid Engine

通过 NCCL 直接将更新后的权重从 training GPU broadcast 到 inference GPU:

Train 0
Train 1
Train 2
Infer 0
Infer 1
Infer 2
Step 0 / 4
源就绪:3 个 Training GPU 已更新权重,等待 broadcast

延迟低 (~秒级),需要 training 和 inference GPU 在同一 NCCL group 内

Training 完成后将 checkpoint 保存到共享存储,inference worker 从 disk 加载:

Train GPU → 保存 checkpoint → 共享文件系统 → Inference GPU 加载

延迟高 (~分钟级),但架构简单,training 和 inference 完全解耦

同一组 GPU 在 training 和 inference 模式间动态切换(如 DeepSpeed Hybrid Engine):

Training Mode (FSDP/ZeRO) ↔ 动态切换 ↔ Inference Mode (TP + KV Cache)

零 sync 开销,但模式切换有 overhead,且无法 overlap