tag: gpu.md

Tag: gpu

5 posts
ML Systems 面试题库:60 道高频题

精选 60 道 ML Systems 高频面试题,覆盖 Transformer、GPU & CUDA、分布式训练、推理系统、RLHF、系统设计与 Debugging 七大方向。下面是一个可交互题库:支持按分类、难度筛选与关键词搜索,点击题目可展开提示与解答。

...
GPU 计算与 CUDA 基础

从硬件架构到编程模型,理解 GPU 并行计算的核心概念。本文正文为 markdown,关键机制配有可交互动画(点击、悬停或逐步演示)。

...
GPU 解剖与 LLM Token 数据流

要理解 LLM 推理为什么慢、瓶颈在哪,必须先看清一个 token 在 GPU 硬件里走过的完整路径。本文从 H100 芯片全貌、SM 内部结构、内存层级,一直讲到一个 token 从输入到输出的数据流动,配有可交互图示。

...
GEMM Tiling:矩阵乘法如何拆到 Tensor Core

矩阵乘法(GEMM)是深度学习里占绝大多数算力的算子。本文从一个具体的 C[64, 24576] = A[64, 8192] × B[8192, 24576] 出发,一层层拆解它如何映射到 GPU 的 Grid / Block / Warp / Tensor Core,以及为什么 Decode 阶段会浪费算力。正文为 markdown,关键机制配有可交互动画。

...
CUDA Graph 深度解析

一份交互式可视化指南,帮助你理解 GPU 执行优化。每次 GPU kernel launch 都有 CPU 开销,CUDA Graph 把整个 kernel 序列录制成一张图,一次 launch 即可重放。本文正文为 markdown,关键机制配有可交互动画。

...