tag: ML%20System.md

Tag: ML System

2 posts
Model Quantization
Model Quantization量化是一种用来减少模型大小和加速推理的技术。主要是通过把模型权重从较高精度的数据类型如FP32转换为较低精度的数据类型如FP16/INT8来实现的。当然也有更加激进的量化方式,比如把权重量化到INT4,甚至是二值化,BitNet恐怖如斯。 这里可能要注意一下,量化到INT8和FP8是不一样的,INT8是整数,FP8是浮点数,两者的表示范围和精度是不一样的。一般来...
KV Cache
KV Cache在LLM推理时,在attention层中计算attention score时,需要计算query和key的点积,然后进行softmax归一化,最后与value进行加权求和。由于自回归的特性,每次生成一个token都需要和之前的所有token进行attention计算,这个时候就需要将之前的key和value进行缓存,以便下一次计算时直接使用。是一种用来加速推理的技术。 但是KV ...