在此记录以下本人历时一周的不断试错所得到的一点经验。
建议大家在进行深度学习训练时使用显卡,使用cpu跑实在是太慢了。
写在前面的话,大家所安装的所有一定要是对应的版本的!!!
1、首先要去Nvidia官网查看一下自己所用显卡的算力,例如本人的RTX3090ti的算力为8.5。
检查算力的目的是为了以防部分代码原作者所运行的环境显卡版本较低,在复现时如果使用算力较强的显卡会出错,比如原作者搭配的是2080ti上跑所需要的环境,你在3090上跑时就需要进行相应的调整。
2、安装与显卡算力对应的驱动系统
如果用的是实验室服务器的话这一步可以跳过,基本都有
3、安装对应的CUDA,系统支持的最高版本可以通过命令行
nvidia-smi
进行查询,然后选择对应的版本进行安装就好
CUDA Toolkit Archive | NVIDIA Developer
下载好以后,linux 安装cuda教程(图文)_软件测试李同学的博客-CSDN博客_linux安装cuda
可参考这篇文章进行安装
4、安装cudnn
NVIDIA cuDNN | NVIDIA Developer
cudnn和CUDA版本严格对应,下载好进行安装就可。
5、安装tensorflow
提前查询好和所安装CUDA和cudnn所匹配的版本,此时可以在anaconda中创建一个虚拟环境,例如安装tensorflow==2.5.0,可以使用
pip install tensorflow==2.5.0
进行安装,注意如果同时安装tensorflow和tensorflow-gpu,系统会默认使用版本高的,此处要特别注意
6、安装keras
查询与所安装的tensorflow版本匹配的keras进行安装,以keras2.3.1为例,可以使用
pip install keras==2.3.1
进行安装。
在上述步骤安装完后,就基本完成了tensorflow运行的环境搭建,如果在后续代码运行中出现什么问题,大概率是上述所安装的各项版本对应关系出现问题,可以重新检查,或者是对部分版本进行调整。
文章出处登录后可见!