timm使用之deepspeed多进程编译问题

最近使用timmtransformer的时候遇到了一个bug,特此记录一下。

遇到的bug如下:

timm使用之deepspeed多进程编译问题

代码会卡在箭头所示的位置,卡很长时间也不会继续运行。

键盘打断之后发现卡在了torch/utils/file_baton.pytime.sleep()的地方。

因为最开始运行的时候是好的,后来突然出现问题,因为我第一反应以为是环境出了问题,尝试了重建一个conda环境,或者pip uninstall/install deepspeed都没有解决。想摆烂不用deepspeed了,但是效果不理想,没办法,还是仔细研究了一下。

最后参考了这篇博客这篇博客,了解到了bug的原因是:

多进程对同一内容编译时,导致编译文件锁住了

解决办法清空缓存文件

我采用的代码如下:

rm -rf ~/.cache/torch_extensions

问题解决。

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
扎眼的阳光的头像扎眼的阳光普通用户
上一篇 2022年6月15日 上午11:53
下一篇 2022年6月15日 上午11:56

相关推荐