训练和推理大模型时,单卡显存和算力远远不够。本文系统梳理四种主流并行策略 —— Tensor Parallelism、Pipeline Parallelism、Expert Parallelism、Sequence Parallelism,关键机制配有可交互动画。
...矩阵乘法(GEMM)是深度学习里占绝大多数算力的算子。本文从一个具体的 C[64, 24576] = A[64, 8192] × B[8192, 24576] 出发,一层层拆解它如何映射到 GPU 的 Grid / Block / Warp / Tensor Core,以及为什么 Decode 阶段会浪费算力。正文为 markdown,关键机制配有可交互动画。
一份交互式可视化指南,帮助你理解 GPU 执行优化。每次 GPU kernel launch 都有 CPU 开销,CUDA Graph 把整个 kernel 序列录制成一张图,一次 launch 即可重放。本文正文为 markdown,关键机制配有可交互动画。
...面试出现率不高,但一旦出现完全靠记忆。背下来就是送分题。
...找第 K 个不用排全数组。Partition 一次,pivot 自动落到它最终该在的位置,然后只递归 K 所在的那一边。期望
链表所有错都从一句话来:改 cur.next 之前,先把 cur.next 存下来,否则后面那一截就丢了。记住这句,再配 dummy / 双指针 / 头插反转三招,80% 链表题就是模板题。
一句话:堆是用数组下标隐式表达的完全二叉树。看着是树,内存是平的。每次 O(log n) 拿到当前最值,建堆只要 O(n)。
...哈希表本质不是数据结构,是一种算法套路:用 O(1) 查询换 O(N) 遍历。看到”找两个元素满足某关系”就该条件反射。
...滑动窗口最大/最小值
栈里只留”还在等下一个更大元素”的候选人。新人