tag: KV%20Cache.md

Tag: KV Cache

1 posts
KV Cache
KV Cache在LLM推理时,在attention层中计算attention score时,需要计算query和key的点积,然后进行softmax归一化,最后与value进行加权求和。由于自回归的特性,每次生成一个token都需要和之前的所有token进行attention计算,这个时候就需要将之前的key和value进行缓存,以便下一次计算时直接使用。是一种用来加速推理的技术。 但是KV ...