tag: grpo.md

Tag: grpo

1 posts

RLHF 系统：从理论到生产

2026-06-03 ML Systems

从 RL 基础到 PPO、GRPO，再到 veRL / SLIME / OpenRLHF 等生产框架与 Training-Inference Mismatch，系统理解现代 LLM 对齐的训练系统。本文正文为 markdown，关键机制配有可交互动画（点按钮逐步演示）。

...