tag: ppo.md

Tag: ppo

1 posts
RLHF 系统:从理论到生产

从 RL 基础到 PPO、GRPO,再到 veRL / SLIME / OpenRLHF 等生产框架与 Training-Inference Mismatch,系统理解现代 LLM 对齐的训练系统。本文正文为 markdown,关键机制配有可交互动画(点按钮逐步演示)。

...