tag: llm-inference.md

Tag: llm-inference

1 posts
GPU 解剖与 LLM Token 数据流

要理解 LLM 推理为什么慢、瓶颈在哪,必须先看清一个 token 在 GPU 硬件里走过的完整路径。本文从 H100 芯片全貌、SM 内部结构、内存层级,一直讲到一个 token 从输入到输出的数据流动,配有可交互图示。

...