ML Systems 面试题库:60 道高频题
精选 60 道 ML Systems 高频面试题,覆盖 Transformer、GPU & CUDA、分布式训练、推理系统、RLHF、系统设计与 Debugging 七大方向。下面是一个可交互题库:支持按分类、难度筛选与关键词搜索,点击题目可展开提示与解答。
如何使用
- 分类筛选:Transformer / GPU & CUDA / 分布式训练 / 推理系统 / RLHF / 系统设计 / Debugging
- 难度筛选:🟢 Easy / 🟡 Medium / 🔴 Hard
- 搜索:在搜索框输入关键词(如
Flash Attention、PagedAttention、GRPO)实时过滤 - 展开:点击任意题目卡片查看「提示」与「解答」
题目难度分布大致为 Easy / Medium / Hard 三档,建议先尝试自己作答,再展开解答对照。
知识地图
按主题速览每一类要点:
Transformer(题 1-10)
注意力数值稳定性(除以
注意力核心公式:
在线 softmax 的校正因子(处理新块时全局 max 更新):
GPU & CUDA(题 11-20)
Warp divergence、Shared Memory 与 L1 Cache 的关系、Roofline Model 判断瓶颈、CUDA Graph 三阶段与限制、Tensor Core MMA 条件、MFU 计算、Occupancy 影响因素、显存快照排查 OOM、CUDA Stream 同步,以及 GEMM 三级 Tiling(Thread Block → Warp → Thread)对应的内存层次。
Roofline 的脊点(ridge point):
H100 SXM 参考:FP16 峰值 989 TFLOPS,HBM 带宽 3.35 TB/s,脊点约
分布式训练(题 21-30)
Ring AllReduce 的
Pipeline bubble ratio(
Interleaved 1F1B 用
推理系统(题 31-40)
Continuous Batching、PagedAttention、Radix Cache 前缀共享、Speculative Decoding 加速比、FP8 E4M3/E5M2 格式选择、10K QPS serving 设计、TTFT 与 TPOT、Chunked Prefill、量化校准,以及 SGLang 与 vLLM 的 Scheduler 设计差异。
Speculative Decoding 的期望接受 token 数(
当
RLHF 系统(题 41-50)
GRPO vs PPO(GRPO 用组内归一化免 Critic)、GAE 的
GRPO 的组内归一化 advantage:
Bradley-Terry 偏好建模与 reward model loss:
GAE:
系统设计(题 51-55)
LLM Serving System 四层架构(Router → Scheduler → Worker → Detokenizer)、100B 模型 RLHF Pipeline、支持 online learning 的推理系统、capacity planning,以及 LLM 的 A/B test framework。
Debugging(题 56-60)
GPU OOM 排查、训练 throughput 突降排查、分布式 loss 不收敛与 gradient norm 异常定位、推理 P99 latency 飙升排查,以及 RLHF reward hacking 的检测与缓解。
本文是 ML Systems 系列 Chapter 7。正文 markdown 渲染,60 道面试题以可交互题库(隔离 iframe,支持筛选/搜索/展开)通过自定义 `{% anim %}` 标签嵌入,源自 Arkive 教程。