tag: quantization.md

Tag: quantization

2 posts
大规模 ML 系统的高级优化技术

本章覆盖大规模 ML 系统中的前沿优化技术:从 Zero-Overhead 调度、DP Attention、在线权重更新,到 FP8/INT4 训练、投机解码、长上下文优化与 Diffusion LLM。正文为 markdown,关键机制配有可交互动画。

...
LLM 推理系统:SGLang 深度解析

一个 LLM 推理请求从用户输入到最终输出的完整链路:请求生命周期、Continuous Batching、KV Cache 管理、Scheduler 设计、Quantization、Speculative Decoding 等。本文正文为 markdown,关键机制配有可交互动画(点按钮演示)。

...