Idea Misc

2025-04-17

最近看了一篇ICLR的文章，https://openreview.net/forum?id=GdXI5zCoAt
，里面提到的一个idea，感觉很有意思，记录一下。

Peft在减少参数方面的几种Principal

Sparse Training: 只训练一部分参数，其余参数保持不变。这样可以减少计算量和内存占用，但需要设计合适的稀疏模式和更新策略。
Low-Rank Training: 将参数矩阵分解为低秩矩阵的乘积，只训练低秩矩阵的参数。这样可以减少参数量，但需要设计合适的分解方法和更新策略。
Quantized Training: 将参数量化为低精度（如8位或4位），只训练量化后的参数。这样可以减少内存占用和计算量，但需要设计合适的量化方法和更新策略。
Rank Sharing: 将参数共享给多个层，这样和Low Rank结合起来在增加参数有限的情况下反而能够得到不错的一些效果。这个也是上面这篇文章主要讲的内容。通过在多个layer间share同一个high rank matrix，这样每个layer 的adapter rank能够提高。