昨天,托管了无数代码的 GitHub 社区发生了一件令人啼笑皆非的事件。在一个题为《系统在调用 model.fit 时挂起》的讨论板中,程序员刚开始怀疑自己的代码出现了问题。但在一番检查之后,才发现罪魁祸首出现在不靠谱的硬件上 —— 一款购自“拼多多”、号称功率 550W、但实际连 200W 都稳不了的电源供应器。
好好的代码,咋没跑两步,就导致系统重启了呢?
为了排除故障,@geekan 还检查了 tensorflow 和 pytorch,发现它们都没有问题。8 个小时后,他终于找到了原因 —— 电源是“拼多多”(纳斯达克:PDD)买的!
为了供后来者参考(避免踩雷),@geekhan 特地撰写了如下内容:
● TensorFlow 和 PyTorch 的示例,都只有 100W 左右的功率;
● Fastai 示例(lesson1),需要用到 80~300W 的功率(不稳定、快速变化);
● 在监测 nvidia-smi 时,我发现当功耗接近 200W 时,系统就会死机并重启;
● 电源购自拼多多,标称功率 550W,实续没准 ~200W —— 我怀疑自己买到假货了!
● 更换电源适配器后 —— 问题顺利解决了!
网友们在评论区的留言很是欢乐(太秀了,电源没自爆,你就偷着乐吧!)
也有耿直的网友(老实人)觉得不能妄下定论,除非楼主晒出电源的功率标签,毕竟普通人看不懂 12V 之外的 3.3V / 5V / -12V 功率参数,与总功率之间的关系。
他贴出了一个典型的 550W 电源的标签:
12V 分成了两路,合起来应该有 408W(就算它 V1 + V2 都是 204W 好了)。
若是一款合格的电源,单看 12V 的数据就够了。没超过 400W 就扑街,就是见鬼了。
GitHub(吃瓜)传送门:
《系统在调用 model.fit 时挂起》(System halted when calling `model.fit`)