tag: rlhf.md

Tag: rlhf

2 posts
ML Systems 面试题库:60 道高频题

精选 60 道 ML Systems 高频面试题,覆盖 Transformer、GPU & CUDA、分布式训练、推理系统、RLHF、系统设计与 Debugging 七大方向。下面是一个可交互题库:支持按分类、难度筛选与关键词搜索,点击题目可展开提示与解答。

...
RLHF 系统:从理论到生产

从 RL 基础到 PPO、GRPO,再到 veRL / SLIME / OpenRLHF 等生产框架与 Training-Inference Mismatch,系统理解现代 LLM 对齐的训练系统。本文正文为 markdown,关键机制配有可交互动画(点按钮逐步演示)。

...