Mengyang Liu's Blog
Home
ML Systems
算法
Archives
Categories
Tags
Search
About
EN
ARCHIVES
2026
(31)
06-05 单调阈值 + 堆:把 O(N²) 摊成 O(N log N)
06-03 从 Self-Attention 到 Flash Attention
06-03 ML Systems 面试题库:60 道高频题
06-03 大规模 ML 系统的高级优化技术
06-03 RLHF 系统:从理论到生产
06-03 LLM 推理系统:SGLang 深度解析
06-03 分布式训练与通信原语
06-03 GPU 计算与 CUDA 基础
06-03 GPU 解剖与 LLM Token 数据流
06-03 DP Attention:让 KV Cache 不再复制
06-03 GPU 并行策略详解:TP / PP / EP / SP
06-03 GEMM Tiling:矩阵乘法如何拆到 Tensor Core
06-03 CUDA Graph 深度解析
06-02 位运算 Bit Manipulation
06-02 快速选择 Quickselect
06-02 链表核心操作
06-02 堆 / 优先队列
06-02 哈希表 Hash Table
06-02 单调队列
06-02 单调栈
06-02 滑动窗口
06-02 双指针技巧
06-02 贪心算法
06-02 差分数组与前缀和
06-02 树形 DP
06-02 区间 DP
06-02 动态规划
06-02 Trie 前缀树
06-02 拓扑排序 Topological Sort
06-02 Dijkstra 最短路径算法
06-02 BFS 广度优先搜索
2025
(3)
04-20 Parameter Efficient Fine-Tuning
04-19 Model Quantization
04-17 MLSys 学习笔记 1
2023
(16)
09-17 括号问题
09-09 限流算法
09-02 Backtracking Template
08-15 Docker 杂记
08-08 Linux系统概述
08-08 随机算法
08-06 并查集
08-06 树状数组
08-06 线段树
08-06 一致性哈希
08-06 系统设计基础
08-06 二叉树主题
08-06 二进制快速幂
08-06 KV Cache
08-06 耐心排序
08-06 二分查找模板
archives.md
Archives
50 posts
2026
(31 posts)
06-05
单调阈值 + 堆:把 O(N²) 摊成 O(N log N)
Algorithm
优先队列
,
堆
,
贪心
06-03
从 Self-Attention 到 Flash Attention
ML Systems
attention
,
flash-attention
,
kv-cache
,
mlsys
,
transformer
06-03
ML Systems 面试题库:60 道高频题
ML Systems
distributed
,
gpu
,
inference
,
interview
,
mlsys
,
rlhf
,
transformer
06-03
大规模 ML 系统的高级优化技术
ML Systems
long-context
,
mlsys
,
moe
,
optimization
,
quantization
,
speculative-decoding
06-03
RLHF 系统:从理论到生产
ML Systems
grpo
,
llm
,
mlsys
,
ppo
,
rlhf
06-03
LLM 推理系统:SGLang 深度解析
ML Systems
inference
,
kv-cache
,
llm
,
mlsys
,
quantization
,
sglang
06-03
分布式训练与通信原语
ML Systems
distributed-training
,
fsdp
,
mlsys
,
nccl
,
parallelism
,
ring-allreduce
06-03
GPU 计算与 CUDA 基础
ML Systems
cuda
,
gpu
,
mlsys
,
tensor-core
,
triton
06-03
GPU 解剖与 LLM Token 数据流
ML Systems
gpu
,
h100
,
llm-inference
,
memory-hierarchy
,
mlsys
06-03
DP Attention:让 KV Cache 不再复制
ML Systems
dp-attention
,
expert-parallel
,
kv-cache
,
mlsys
,
moe
06-03
GPU 并行策略详解:TP / PP / EP / SP
ML Systems
expert-parallel
,
mlsys
,
parallelism
,
pipeline-parallel
,
sequence-parallel
,
tensor-parallel
06-03
GEMM Tiling:矩阵乘法如何拆到 Tensor Core
ML Systems
gemm
,
gpu
,
mlsys
,
tensor-core
,
tiling
,
triton
06-03
CUDA Graph 深度解析
ML Systems
cuda
,
cuda-graph
,
gpu
,
mlsys
,
pytorch
06-02
位运算 Bit Manipulation
Algorithm
位运算
,
算法
06-02
快速选择 Quickselect
Algorithm
分治
,
算法
06-02
链表核心操作
Algorithm
数据结构
,
链表
06-02
堆 / 优先队列
Algorithm
堆
,
数据结构
06-02
哈希表 Hash Table
Algorithm
哈希表
,
数据结构
06-02
单调队列
Algorithm
单调队列
,
双端队列
,
滑动窗口
06-02
单调栈
Algorithm
单调栈
,
数组
,
栈
06-02
滑动窗口
Algorithm
双指针
,
字符串
,
滑动窗口
06-02
双指针技巧
Algorithm
双指针
,
数组
,
链表
06-02
贪心算法
Algorithm
贪心
06-02
差分数组与前缀和
Algorithm
前缀和
,
数据结构
06-02
树形 DP
Algorithm
动态规划
,
树
06-02
区间 DP
Algorithm
动态规划
06-02
动态规划
Algorithm
动态规划
06-02
Trie 前缀树
Algorithm
字符串
,
数据结构
06-02
拓扑排序 Topological Sort
Algorithm
图论
,
拓扑排序
06-02
Dijkstra 最短路径算法
Algorithm
图论
,
最短路
06-02
BFS 广度优先搜索
Algorithm
图论
,
搜索
2025
(3 posts)
04-20
Parameter Efficient Fine-Tuning
ML System
LLM
,
Peft
04-19
Model Quantization
ML System
LLM
,
ML System
,
Quantization
04-17
MLSys 学习笔记 1
ML System
ECC
,
GPU
,
Reduce-Scatter
,
Ring Reduce
,
持久化模式
2023
(16 posts)
09-17
括号问题
Algorithm
字符串
09-09
限流算法
System Design
限流
09-02
Backtracking Template
Algorithm
回溯
08-15
Docker 杂记
Cloud Computing
Docker
08-08
Linux系统概述
OS
Linux
08-08
随机算法
Algorithm
随机化
08-06
并查集
Algorithm
数据结构
08-06
树状数组
Algorithm
位运算技巧
,
数据结构
,
数组
08-06
线段树
Algorithm
数据结构
,
线段树
08-06
一致性哈希
System Design
一致性哈希
,
分布式
,
负载均衡
08-06
系统设计基础
System Design
理论
,
系统设计
08-06
二叉树主题
Algorithm
二叉树
08-06
二进制快速幂
Algorithm
快速幂
08-06
KV Cache
ML System
KV Cache
,
LLM
,
ML System
08-06
耐心排序
Algorithm
分治法
,
最长递增子序列
08-06
二分查找模板
Algorithm
二分查找
,
分治法