tag: KV%20Cache.md

Tag: KV Cache

1 posts

KV Cache

2023-08-06 ML System

KV Cache在LLM推理时，在attention层中计算attention score时，需要计算query和key的点积，然后进行softmax归一化，最后与value进行加权求和。由于自回归的特性，每次生成一个token都需要和之前的所有token进行attention计算，这个时候就需要将之前的key和value进行缓存，以便下一次计算时直接使用。是一种用来加速推理的技术。但是KV ...