tag: ECC.md

Tag: ECC

2 posts
MLSys 学习笔记 1
1. GPU ECC(Error‑Correcting Code) 原理:在显存(VRAM)中为每 N 位数据生成冗余校验位,常见为 SECDED(单错纠正、双错检测)。 实现: 专业级卡(Tesla/Quadro/A100、AMD Instinct)默认支持 ECC,消费级卡多关闭或不支持。 ECC 逻辑集成在内存控制器,对程序透明。 优缺点: 优点:避免显存位翻转导致的 S...
Idea Misc
最近看了一篇ICLR的文章,https://openreview.net/forum?id=GdXI5zCoAt,里面提到的一个idea,感觉很有意思,记录一下。 Peft在减少参数方面的几种Principal Sparse Training: 只训练一部分参数,其余参数保持不变。这样可以减少计算量和内存占用,但需要设计合适的稀疏模式和更新策略。 Low-Rank Training: 将参数矩阵...