PyTorch训练“WARNING:root:NaN or Inf found in input tensor”问题

问题

使用PyTorch训练开始时报以下警告:

WARNING:root:NaN or Inf found in input tensor

训练中也会偶尔再报同样的警告,但是似乎不影响正常训练。

分析

查了一下其他人也有报这个警告的情况,一般的解释都是模型训练过程中出现梯度消失或者梯度爆炸,或者数据中或数据处理过程中出现了脏数据。但是经过调试,发现不管是改大改小学习率都仍然出现此警告,抓取脏数据也抓取不到,在数据集的构造、网络的计算中也都没有发现脏数据。

分步调试后发现该警告出现在第一个epoch结束之后,即train和validation的正向和反向传播都完成之后。怀疑是在tensorboardX使用中的问题(这个issue也被怀疑是tensorboard的问题:NaN or Inf found in input tensor #223),于是仔细检查了tensorboardX语句中可能出现问题的部分。发现有一处add_image中输入的image值超过了1,于是将这一句注释掉再运行,果然不报警告了。

结论

除了模型训练过程中出现梯度消失或者梯度爆炸,或者数据中或数据处理过程中出现了脏数据,还有可能是tensorboardX使用中数据格式不符合规范。

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
扎眼的阳光的头像扎眼的阳光普通用户
上一篇 2023年7月13日
下一篇 2023年7月13日

相关推荐