三阶段流水线

标准 RLHF pipeline 分为三个训练阶段:

SFT
监督微调
Reward
Model
PPO
Training
Aligned
Model
Step 0 / 3