| Mengyang Liu's Blog

GPU 并行策略详解：TP / PP / EP / SP

2026-06-03 ML Systems

训练和推理大模型时，单卡显存和算力远远不够。本文系统梳理四种主流并行策略 —— Tensor Parallelism、Pipeline Parallelism、Expert Parallelism、Sequence Parallelism，关键机制配有可交互动画。

...

GEMM Tiling：矩阵乘法如何拆到 Tensor Core

2026-06-03 ML Systems

矩阵乘法（GEMM）是深度学习里占绝大多数算力的算子。本文从一个具体的 C[64, 24576] = A[64, 8192] × B[8192, 24576] 出发，一层层拆解它如何映射到 GPU 的 Grid / Block / Warp / Tensor Core，以及为什么 Decode 阶段会浪费算力。正文为 markdown，关键机制配有可交互动画。

...

CUDA Graph 深度解析

2026-06-03 ML Systems

一份交互式可视化指南，帮助你理解 GPU 执行优化。每次 GPU kernel launch 都有 CPU 开销，CUDA Graph 把整个 kernel 序列录制成一张图，一次 launch 即可重放。本文正文为 markdown，关键机制配有可交互动画。

...

位运算 Bit Manipulation

2026-06-02 Algorithm

面试出现率不高，但一旦出现完全靠记忆。背下来就是送分题。

...

快速选择 Quickselect

2026-06-02 Algorithm

找第 K 个不用排全数组。Partition 一次,pivot 自动落到它最终该在的位置,然后只递归 K 所在的那一边。期望 ,完爆排序的。

...

链表核心操作

2026-06-02 Algorithm

链表所有错都从一句话来：改 cur.next 之前,先把 cur.next 存下来,否则后面那一截就丢了。记住这句,再配 dummy / 双指针 / 头插反转三招,80% 链表题就是模板题。

...

堆 / 优先队列

2026-06-02 Algorithm

一句话：堆是用数组下标隐式表达的完全二叉树。看着是树,内存是平的。每次 O(log n) 拿到当前最值,建堆只要 O(n)。

...

哈希表 Hash Table

2026-06-02 Algorithm

哈希表本质不是数据结构，是一种算法套路：用 O(1) 查询换 O(N) 遍历。看到”找两个元素满足某关系”就该条件反射。

...

单调队列

2026-06-02 Algorithm

滑动窗口最大/最小值的关键 — 把窗口里以后永远不可能成为答案的元素提前丢掉。一句话讲完: 新人比队尾大,队尾就该退休;窗口左端滑出去,队头就该过期。每个元素最多进队一次出队一次,总。

...

单调栈

2026-06-02 Algorithm

栈里只留”还在等下一个更大元素”的候选人。新人进来,把所有的栈顶通通弹掉 —— 它们的”下一个更大”就是。每个元素进栈一次出栈一次, 收工。

...