最近使用timm
跑transformer
的时候遇到了一个bug,特此记录一下。
遇到的bug如下:
代码会卡在箭头所示的位置,卡很长时间也不会继续运行。
键盘打断之后发现卡在了torch/utils/file_baton.py
的time.sleep()
的地方。
因为最开始运行的时候是好的,后来突然出现问题,因为我第一反应以为是环境出了问题,尝试了重建一个conda
环境,或者pip uninstall/install deepspeed
都没有解决。想摆烂不用deepspeed
了,但是效果不理想,没办法,还是仔细研究了一下。
多进程对同一内容编译时,导致编译文件锁住了。
解决办法:清空缓存文件
我采用的代码如下:
rm -rf ~/.cache/torch_extensions
问题解决。
文章出处登录后可见!
已经登录?立即刷新