1. 安装环境并测试
需要安装他们提供的pytorch,支持他们的DCU的:
- 激活自己的环境:
source acctivate 环境名
- 安装torch:
pip install /public/software/apps/DeepLearning/whl/dtk-22.04.2/torch-1.10.0a0_gitc7f69d6_dtk22.04.2-cp37-cp37m-manylinux2014_x86_64.whl
- 安装torchvision:
pip install /public/software/apps/DeepLearning/whl/dtk-22.04.2/torchvision-0.10.0a0_dtk22.04.2_e17f5ea-cp37-cp37m-manylinux2014_x86_64.whl
- 查看队列:
whichpartition
- 申请节点:
salloc -p 队列名 -N 1 --gres=dcu:2
- 根据申请到的节点登录节点:
ssh 节点
- 切换rocm编译器版本(加载dtk22.04驱动):
module switch compiler/dtk/22.04.1
- 添加环境变量
- 编辑存放环境变量的文本:
vi ~/pytorch_env.sh
- 添加如下内容:
export
LD_LIBRARY_PATH=/public/software/apps/DeepLearning/PyTorch_Lib/lib:/public/software/apps/DeepLearning/PyTorch_Lib/lmdb-0.9.24-build/lib:/public/software/apps/DeepLearning/PyTorch_Lib/opencv-2.4.13.6-build/lib:/public/software/apps/DeepLearning/PyTorch_Lib/openblas-0.3.7-build/lib:$LD_LIBRARY_PATH
- 保存 ESC + :+ w+ q
- 激活环境变量:
source ~/pytorch_env.sh
- 激活环境:
source acctivate 环境名
- 执行如下语句验证:
python
import torch
torch.cuda.is_available()
torch.__version__
- 登出节点
exit
2. 作业操作
第一步的一系列的操作是在验证你的云服务器是否好用,接下来就不用在像上面一样操作,直接使用提交作业的模板,所有的指令放在模板中,直接一行指令,运行模板,就能够做所有的事情。
- 首先,自己建立.sh作业提交脚本
- 作业脚本模板:
- 作业脚本中要加载驱动,但是并没有配置环境变量
- 编辑文件:vi 文件名 (例如 vi fastrcnn.sh) 或者直接打开该文件
- 通过
sbatch 作业名.sh
提交(例如 sbatch fastrcnn.sh)
终端输入: squeue
终端输入: scancel 作业号
(作业号就是执行squeue,jobid下面的数字号码)
终端输入:tail -f 输出文件名(输出文件在和脚本文件在同一个目录下,终端输入字母 ls
或者 ll
就可以看见)
3. 测试总结
曲线拟合的效果有点不太好。同样的配置下(单卡 8核心),每次计算时间和结果都很不稳定,有很大的差别。这个看情况用吧。
1. 安装环境并测试
需要安装他们提供的pytorch,支持他们的GPU的:
- 激活自己的环境:
source activate 环境名
-
安装torch: 直接像工程师询问应该装什么版本的pytorch,然后到pytorch【官网】找到对应的版本。按照官网给的指令即可。
-
查看队列:
whichpartition
- 申请节点:
salloc -p 队列名 -N 1 --gres=gpu:1
- 根据申请到的节点登录节点:
ssh 节点
- 激活cuda :
module load apps/cuda/10.2
- 激活环境:
source activate 环境名
- 执行如下语句验证:
python
import torch
torch.cuda.is_available()
torch.__version__
- 登出节点
exit
2. 作业操作
- 首先,自己建立.sh作业提交脚本
- 作业脚本模板:
- 作业脚本中要加载驱动,但是并没有配置环境变量
- 编辑文件:vi 文件名 (例如 vi fastrcnn.sh) 或者直接打开该文件
- 通过
sbatch 作业名.sh
提交(例如 sbatch fastrcnn.sh)
终端输入: squeue
终端输入: scancel 作业号
(作业号就是执行squeue,jobid下面的数字号码)
终端输入:tail -f 输出文件名(输出文件在和脚本文件在同一个目录下,终端输入字母 ls
或者 ll
就可以看见)
3. 测试总结
曲线拟合的很好,时间很快。能用这个还是用这个啊。
Original: https://blog.csdn.net/baobao135/article/details/126924428
Author: SMORE_Bob
Title: 曙光超算平台操作之深度学习
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/719859/
转载文章受原作者版权保护。转载请注明原作者出处!