Idea Misc
最近看了一篇ICLR的文章,https://openreview.net/forum?id=GdXI5zCoAt
,里面提到的一个idea,感觉很有意思,记录一下。
Peft在减少参数方面的几种Principal
- Sparse Training: 只训练一部分参数,其余参数保持不变。这样可以减少计算量和内存占用,但需要设计合适的稀疏模式和更新策略。
- Low-Rank Training: 将参数矩阵分解为低秩矩阵的乘积,只训练低秩矩阵的参数。这样可以减少参数量,但需要设计合适的分解方法和更新策略。
- Quantized Training: 将参数量化为低精度(如8位或4位),只训练量化后的参数。这样可以减少内存占用和计算量,但需要设计合适的量化方法和更新策略。
- Rank Sharing: 将参数共享给多个层,这样和Low Rank结合起来在增加参数有限的情况下反而能够得到不错的一些效果。这个也是上面这篇文章主要讲的内容。通过在多个layer间share同一个high rank matrix,这样每个layer 的adapter rank能够提高。