[Bug]Process finished with exit code -1073741819 (0xC0000005)

项目场景:

环境:Windows, Tensorflow 2.0 + python 3.6

问题描述

同样的一套代码, 在之前的数据集上运行无误,换了个新的数据集进行实验,结果在读取数据训练的时候报错然后程序自动终止:
错误信息: Process finished with exit code -1073741819 (0xC0000005)

通过调试定位错误的代码位置如下:

for idx,(train_x, train_y) in enumerate(train_data):
        train_epoch(parser, train_x, train_y,...)
        ...

确认train_data是没有问题的, 问题恰好出在遍历获取batch: (train_x, train_y)那儿。

尝试网上各种办法,都没有解决我的问题…

原因分析及解决方案:

该Bug编号应该与文件系统有关。 由于新的数据集很大,开始怀疑是不是内存/显存不够了,启动程序发现内存和显存都没到一半。

尝试各种方法无果后,最后,试探性的把数据量减到一半,发现上述问题消失了, 不过又爆出了新的Bug: OOM, xxxx, 这个很明显是显存的问题, batchsize减小之后OK.

回顾一下: 开始的Bug应该是数据量太大的缘故,导致在取Batch 数据是触发了Python的某个错误, 后面Bug是因为网络复杂再加上数据量大,从而导致在运行过程中显存不足。

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
社会演员多的头像社会演员多普通用户
上一篇 2023年9月2日
下一篇 2023年9月2日

相关推荐