tag: inference.md

Tag: inference

2 posts
ML Systems 面试题库:60 道高频题

精选 60 道 ML Systems 高频面试题,覆盖 Transformer、GPU & CUDA、分布式训练、推理系统、RLHF、系统设计与 Debugging 七大方向。下面是一个可交互题库:支持按分类、难度筛选与关键词搜索,点击题目可展开提示与解答。

...
LLM 推理系统:SGLang 深度解析

一个 LLM 推理请求从用户输入到最终输出的完整链路:请求生命周期、Continuous Batching、KV Cache 管理、Scheduler 设计、Quantization、Speculative Decoding 等。本文正文为 markdown,关键机制配有可交互动画(点按钮演示)。

...