问题
使用PyTorch训练开始时报以下警告:
WARNING:root:NaN or Inf found in input tensor
训练中也会偶尔再报同样的警告,但是似乎不影响正常训练。
分析
查了一下其他人也有报这个警告的情况,一般的解释都是模型训练过程中出现梯度消失或者梯度爆炸,或者数据中或数据处理过程中出现了脏数据。但是经过调试,发现不管是改大改小学习率都仍然出现此警告,抓取脏数据也抓取不到,在数据集的构造、网络的计算中也都没有发现脏数据。
分步调试后发现该警告出现在第一个epoch结束之后,即train和validation的正向和反向传播都完成之后。怀疑是在tensorboardX使用中的问题(这个issue也被怀疑是tensorboard的问题:NaN or Inf found in input tensor #223),于是仔细检查了tensorboardX语句中可能出现问题的部分。发现有一处add_image中输入的image值超过了1,于是将这一句注释掉再运行,果然不报警告了。
结论
除了模型训练过程中出现梯度消失或者梯度爆炸,或者数据中或数据处理过程中出现了脏数据,还有可能是tensorboardX使用中数据格式不符合规范。
文章出处登录后可见!
已经登录?立即刷新