曙光超算平台操作之深度学习

1. 安装环境并测试

需要安装他们提供的pytorch,支持他们的DCU的:

  • 激活自己的环境: source acctivate 环境名
  • 安装torch:
pip install /public/software/apps/DeepLearning/whl/dtk-22.04.2/torch-1.10.0a0_gitc7f69d6_dtk22.04.2-cp37-cp37m-manylinux2014_x86_64.whl
  • 安装torchvision:
pip install /public/software/apps/DeepLearning/whl/dtk-22.04.2/torchvision-0.10.0a0_dtk22.04.2_e17f5ea-cp37-cp37m-manylinux2014_x86_64.whl
  • 查看队列: whichpartition
  • 申请节点: salloc -p 队列名 -N 1 --gres=dcu:2
  • 根据申请到的节点登录节点: ssh 节点
  • 切换rocm编译器版本(加载dtk22.04驱动): module switch compiler/dtk/22.04.1
  • 添加环境变量
  • 编辑存放环境变量的文本: vi ~/pytorch_env.sh
  • 添加如下内容:
export
LD_LIBRARY_PATH=/public/software/apps/DeepLearning/PyTorch_Lib/lib:/public/software/apps/DeepLearning/PyTorch_Lib/lmdb-0.9.24-build/lib:/public/software/apps/DeepLearning/PyTorch_Lib/opencv-2.4.13.6-build/lib:/public/software/apps/DeepLearning/PyTorch_Lib/openblas-0.3.7-build/lib:$LD_LIBRARY_PATH
  • 保存 ESC + :+ w+ q
  • 激活环境变量: source ~/pytorch_env.sh
  • 激活环境: source acctivate 环境名
  • 执行如下语句验证:
 python

import torch
torch.cuda.is_available()
torch.__version__
  • 登出节点 exit

2. 作业操作

第一步的一系列的操作是在验证你的云服务器是否好用,接下来就不用在像上面一样操作,直接使用提交作业的模板,所有的指令放在模板中,直接一行指令,运行模板,就能够做所有的事情。

  • 首先,自己建立.sh作业提交脚本
  • 作业脚本模板:
  • 作业脚本中要加载驱动,但是并没有配置环境变量
  • 编辑文件:vi 文件名 (例如 vi fastrcnn.sh) 或者直接打开该文件
  • 通过 sbatch 作业名.sh 提交(例如 sbatch fastrcnn.sh)

终端输入: squeue

终端输入: scancel 作业号 (作业号就是执行squeue,jobid下面的数字号码)

终端输入:tail -f 输出文件名(输出文件在和脚本文件在同一个目录下,终端输入字母 ls或者 ll就可以看见)

3. 测试总结

曲线拟合的效果有点不太好。同样的配置下(单卡 8核心),每次计算时间和结果都很不稳定,有很大的差别。这个看情况用吧。

1. 安装环境并测试

需要安装他们提供的pytorch,支持他们的GPU的:

  • 激活自己的环境: source activate 环境名
  • 安装torch: 直接像工程师询问应该装什么版本的pytorch,然后到pytorch【官网】找到对应的版本。按照官网给的指令即可。

  • 查看队列: whichpartition

  • 申请节点: salloc -p 队列名 -N 1 --gres=gpu:1
  • 根据申请到的节点登录节点: ssh 节点
  • 激活cuda : module load apps/cuda/10.2
  • 激活环境: source activate 环境名
  • 执行如下语句验证:
 python

import torch
torch.cuda.is_available()
torch.__version__
  • 登出节点 exit

2. 作业操作

  • 首先,自己建立.sh作业提交脚本
  • 作业脚本模板:
  • 作业脚本中要加载驱动,但是并没有配置环境变量
  • 编辑文件:vi 文件名 (例如 vi fastrcnn.sh) 或者直接打开该文件
  • 通过 sbatch 作业名.sh 提交(例如 sbatch fastrcnn.sh)

终端输入: squeue

终端输入: scancel 作业号 (作业号就是执行squeue,jobid下面的数字号码)

终端输入:tail -f 输出文件名(输出文件在和脚本文件在同一个目录下,终端输入字母 ls或者 ll就可以看见)

3. 测试总结

曲线拟合的很好,时间很快。能用这个还是用这个啊。

Original: https://blog.csdn.net/baobao135/article/details/126924428
Author: SMORE_Bob
Title: 曙光超算平台操作之深度学习

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/719859/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球