ML Systems 面试题库:60 道高频题

精选 60 道 ML Systems 高频面试题,覆盖 Transformer、GPU & CUDA、分布式训练、推理系统、RLHF、系统设计与 Debugging 七大方向。下面是一个可交互题库:支持按分类、难度筛选与关键词搜索,点击题目可展开提示与解答。

如何使用

  • 分类筛选:Transformer / GPU & CUDA / 分布式训练 / 推理系统 / RLHF / 系统设计 / Debugging
  • 难度筛选:🟢 Easy / 🟡 Medium / 🔴 Hard
  • 搜索:在搜索框输入关键词(如 Flash AttentionPagedAttentionGRPO)实时过滤
  • 展开:点击任意题目卡片查看「提示」与「解答」

题目难度分布大致为 Easy / Medium / Hard 三档,建议先尝试自己作答,再展开解答对照。

知识地图

按主题速览每一类要点:

Transformer(题 1-10)

注意力数值稳定性(除以 控制点积方差)、Multi-Head 的多子空间表达、GQA/MQA 的 KV Cache 节省、Flash Attention 的 tiling + 在线 softmax、KV Cache 在 Prefill/Decode 的工作方式、RoPE 相对位置编码、Flash Attention 2 的并行维度优化,以及 Prefill(compute-bound)与 Decode(memory-bound)的 Arithmetic Intensity 分析。

注意力核心公式:

在线 softmax 的校正因子(处理新块时全局 max 更新):

GPU & CUDA(题 11-20)

Warp divergence、Shared Memory 与 L1 Cache 的关系、Roofline Model 判断瓶颈、CUDA Graph 三阶段与限制、Tensor Core MMA 条件、MFU 计算、Occupancy 影响因素、显存快照排查 OOM、CUDA Stream 同步,以及 GEMM 三级 Tiling(Thread Block → Warp → Thread)对应的内存层次。

Roofline 的脊点(ridge point):

H100 SXM 参考:FP16 峰值 989 TFLOPS,HBM 带宽 3.35 TB/s,脊点约 FLOPs/byte。

分布式训练(题 21-30)

Ring AllReduce 的 通信量(与 GPU 数无关)、ZeRO Stage 1/2/3 分片策略、Tensor Parallel 中 Column/Row 的 AllReduce 需求、Pipeline 的 bubble ratio、TP/PP/DP 组合设计、MoE 的 Expert Parallel All-to-All 开销、通信后端选择、梯度累积、通信计算 overlap,以及超大 MoE 模型的四维并行。

Pipeline bubble ratio( 为 stage 数, 为 microbatch 数):

Interleaved 1F1B 用 个 virtual stage 进一步降低:

推理系统(题 31-40)

Continuous Batching、PagedAttention、Radix Cache 前缀共享、Speculative Decoding 加速比、FP8 E4M3/E5M2 格式选择、10K QPS serving 设计、TTFT 与 TPOT、Chunked Prefill、量化校准,以及 SGLang 与 vLLM 的 Scheduler 设计差异。

Speculative Decoding 的期望接受 token 数( 为单 token 接受率, 为 draft 长度):

时, tokens/step。

RLHF 系统(题 41-50)

GRPO vs PPO(GRPO 用组内归一化免 Critic)、GAE 的 偏差-方差权衡、Training-Inference Mismatch、Weight Sync 策略、PPO clip 参数 的影响、multi-turn tool calling RL 系统设计、Reward Model 与 Bradley-Terry loss、veRL Hybrid Engine、Partial Rollout,以及 veRL/SLIME/OpenRLHF 框架对比。

GRPO 的组内归一化 advantage:

Bradley-Terry 偏好建模与 reward model loss:

GAE:

系统设计(题 51-55)

LLM Serving System 四层架构(Router → Scheduler → Worker → Detokenizer)、100B 模型 RLHF Pipeline、支持 online learning 的推理系统、capacity planning,以及 LLM 的 A/B test framework。

Debugging(题 56-60)

GPU OOM 排查、训练 throughput 突降排查、分布式 loss 不收敛与 gradient norm 异常定位、推理 P99 latency 飙升排查,以及 RLHF reward hacking 的检测与缓解。


本文是 ML Systems 系列 Chapter 7。正文 markdown 渲染,60 道面试题以可交互题库(隔离 iframe,支持筛选/搜索/展开)通过自定义 `{% anim %}` 标签嵌入,源自 Arkive 教程。