welcome.md
GPU 并行策略详解:TP / PP / EP / SP

训练和推理大模型时,单卡显存和算力远远不够。本文系统梳理四种主流并行策略 —— Tensor Parallelism、Pipeline Parallelism、Expert Parallelism、Sequence Parallelism,关键机制配有可交互动画。

...
GEMM Tiling:矩阵乘法如何拆到 Tensor Core

矩阵乘法(GEMM)是深度学习里占绝大多数算力的算子。本文从一个具体的 C[64, 24576] = A[64, 8192] × B[8192, 24576] 出发,一层层拆解它如何映射到 GPU 的 Grid / Block / Warp / Tensor Core,以及为什么 Decode 阶段会浪费算力。正文为 markdown,关键机制配有可交互动画。

...
CUDA Graph 深度解析

一份交互式可视化指南,帮助你理解 GPU 执行优化。每次 GPU kernel launch 都有 CPU 开销,CUDA Graph 把整个 kernel 序列录制成一张图,一次 launch 即可重放。本文正文为 markdown,关键机制配有可交互动画。

...
位运算 Bit Manipulation

面试出现率不高,但一旦出现完全靠记忆。背下来就是送分题。

...
快速选择 Quickselect

找第 K 个不用排全数组。Partition 一次,pivot 自动落到它最终该在的位置,然后只递归 K 所在的那一边。期望 ,完爆排序的

...
链表核心操作

链表所有错都从一句话来:cur.next 之前,先把 cur.next 存下来,否则后面那一截就丢了。记住这句,再配 dummy / 双指针 / 头插反转三招,80% 链表题就是模板题。

...
堆 / 优先队列

一句话:堆是用数组下标隐式表达的完全二叉树。看着是树,内存是平的。每次 O(log n) 拿到当前最值,建堆只要 O(n)。

...
哈希表 Hash Table

哈希表本质不是数据结构,是一种算法套路:用 O(1) 查询换 O(N) 遍历。看到”找两个元素满足某关系”就该条件反射。

...
单调队列

滑动窗口最大/最小值 的关键 — 把窗口里以后永远不可能成为答案的元素提前丢掉。一句话讲完: 新人比队尾大,队尾就该退休;窗口左端滑出去,队头就该过期。每个元素最多进队一次出队一次,总

...
单调栈

栈里只留”还在等下一个更大元素”的候选人。新人 进来,把所有 的栈顶通通弹掉 —— 它们的”下一个更大”就是 。每个元素进栈一次出栈一次, 收工。

...