tag: ECC.md

Tag: ECC

1 posts
MLSys 学习笔记 1
1. GPU ECC(Error‑Correcting Code) 原理:在显存(VRAM)中为每 N 位数据生成冗余校验位,常见为 SECDED(单错纠正、双错检测)。 实现: 专业级卡(Tesla/Quadro/A100、AMD Instinct)默认支持 ECC,消费级卡多关闭或不支持。 ECC 逻辑集成在内存控制器,对程序透明。 优缺点: 优点:避免显存位翻转导致的 S...