三阶段流水线
标准 RLHF pipeline 分为三个训练阶段:
SFT
监督微调
→
Reward
Model
→
PPO
Training
→
Aligned
Model
← 上一步
下一步 →
↺ 重置
▶ 自动播放
Step 0 / 3