ML Systems 面试题库：60 道高频题

2026-06-03

精选 60 道 ML Systems 高频面试题，覆盖 Transformer、GPU & CUDA、分布式训练、推理系统、RLHF、系统设计与 Debugging 七大方向。下面是一个可交互题库：支持按分类、难度筛选与关键词搜索，点击题目可展开提示与解答。

如何使用

分类筛选：Transformer / GPU & CUDA / 分布式训练 / 推理系统 / RLHF / 系统设计 / Debugging
难度筛选：🟢 Easy / 🟡 Medium / 🔴 Hard
搜索：在搜索框输入关键词（如 Flash Attention、PagedAttention、GRPO）实时过滤
展开：点击任意题目卡片查看「提示」与「解答」

题目难度分布大致为 Easy / Medium / Hard 三档，建议先尝试自己作答，再展开解答对照。

知识地图

按主题速览每一类要点：

Transformer（题 1-10）

注意力数值稳定性（除以控制点积方差）、Multi-Head 的多子空间表达、GQA/MQA 的 KV Cache 节省、Flash Attention 的 tiling + 在线 softmax、KV Cache 在 Prefill/Decode 的工作方式、RoPE 相对位置编码、Flash Attention 2 的并行维度优化，以及 Prefill（compute-bound）与 Decode（memory-bound）的 Arithmetic Intensity 分析。

注意力核心公式：

在线 softmax 的校正因子（处理新块时全局 max 更新）：

GPU & CUDA（题 11-20）

Warp divergence、Shared Memory 与 L1 Cache 的关系、Roofline Model 判断瓶颈、CUDA Graph 三阶段与限制、Tensor Core MMA 条件、MFU 计算、Occupancy 影响因素、显存快照排查 OOM、CUDA Stream 同步，以及 GEMM 三级 Tiling（Thread Block → Warp → Thread）对应的内存层次。

Roofline 的脊点（ridge point）：

H100 SXM 参考：FP16 峰值 989 TFLOPS，HBM 带宽 3.35 TB/s，脊点约 FLOPs/byte。

分布式训练（题 21-30）

Ring AllReduce 的通信量（与 GPU 数无关）、ZeRO Stage 1/2/3 分片策略、Tensor Parallel 中 Column/Row 的 AllReduce 需求、Pipeline 的 bubble ratio、TP/PP/DP 组合设计、MoE 的 Expert Parallel All-to-All 开销、通信后端选择、梯度累积、通信计算 overlap，以及超大 MoE 模型的四维并行。

Pipeline bubble ratio（为 stage 数，为 microbatch 数）：

Interleaved 1F1B 用个 virtual stage 进一步降低：。

推理系统（题 31-40）

Continuous Batching、PagedAttention、Radix Cache 前缀共享、Speculative Decoding 加速比、FP8 E4M3/E5M2 格式选择、10K QPS serving 设计、TTFT 与 TPOT、Chunked Prefill、量化校准，以及 SGLang 与 vLLM 的 Scheduler 设计差异。

Speculative Decoding 的期望接受 token 数（为单 token 接受率，为 draft 长度）：

当时， tokens/step。

RLHF 系统（题 41-50）

GRPO vs PPO（GRPO 用组内归一化免 Critic）、GAE 的偏差-方差权衡、Training-Inference Mismatch、Weight Sync 策略、PPO clip 参数的影响、multi-turn tool calling RL 系统设计、Reward Model 与 Bradley-Terry loss、veRL Hybrid Engine、Partial Rollout，以及 veRL/SLIME/OpenRLHF 框架对比。

GRPO 的组内归一化 advantage：

Bradley-Terry 偏好建模与 reward model loss：

GAE：

系统设计（题 51-55）

LLM Serving System 四层架构（Router → Scheduler → Worker → Detokenizer）、100B 模型 RLHF Pipeline、支持 online learning 的推理系统、capacity planning，以及 LLM 的 A/B test framework。

Debugging（题 56-60）

GPU OOM 排查、训练 throughput 突降排查、分布式 loss 不收敛与 gradient norm 异常定位、推理 P99 latency 飙升排查，以及 RLHF reward hacking 的检测与缓解。

本文是 ML Systems 系列 Chapter 7。正文 markdown 渲染，60 道面试题以可交互题库（隔离 iframe，支持筛选/搜索/展开）通过自定义 `{% anim %}` 标签嵌入，源自 Arkive 教程。