tag: llm.md

Tag: llm

2 posts
RLHF 系统:从理论到生产

从 RL 基础到 PPO、GRPO,再到 veRL / SLIME / OpenRLHF 等生产框架与 Training-Inference Mismatch,系统理解现代 LLM 对齐的训练系统。本文正文为 markdown,关键机制配有可交互动画(点按钮逐步演示)。

...
LLM 推理系统:SGLang 深度解析

一个 LLM 推理请求从用户输入到最终输出的完整链路:请求生命周期、Continuous Batching、KV Cache 管理、Scheduler 设计、Quantization、Speculative Decoding 等。本文正文为 markdown,关键机制配有可交互动画(点按钮演示)。

...