微软自动调参工具 NNI 使用事例教程

2023年7月1日下午3:07 • 人工智能 • 阅读 126

第一步：安装

nni的安装通过pip命令就可以安装了。并且提供了example供参考学习。

系统配置要求：tensorflow，python >= 3.5


    python3 -m pip install --upgrade nni

    git clone https://github.com/Microsoft/nni.git

    python3 -m pip install tensorflow

第二步：设置超参数的搜索范围

NNI的示例程序如下：

cd ./nni/examples/trials/mnist/

三个文件

config.yml
mnist.py
search_space.json

这三个文件决定了NNI配置文件，main.py和超参数搜索空间。

1.打开 search_space.json文件

{
    "batch_size": {"_type":"choice", "_value": [16, 32, 64, 128]},
    "hidden_size":{"_type":"choice","_value":[128, 256, 512, 1024]},
    "lr":{"_type":"choice","_value":[0.0001, 0.001, 0.01, 0.1]},
    "momentum":{"_type":"uniform","_value":[0, 1]}
}

在这里可以定义我们的超参数和搜索范围，可以根据自己的需要随意调整。
搜索的类型有很多种，常用的有uniform，choice等。
本案例只做了uniform，choice，其他所有案例根据git显示如下：

{"_type": "choice", "_value": options}

{"_type": "uniform", "_value": [low, high]}

{"_type": "quniform", "_value": [low, high, q]}

{"_type": "normal", "_value": [mu, sigma]}

{"_type": "randint", "_value": [lower, upper]}

第二步：配置config.yaml
打开config.yaml

authorName: default
experimentName: example_mnist
trialConcurrency: 1
maxExecDuration: 1h
maxTrialNum: 20

trainingServicePlatform: local
searchSpacePath: search_space.json

useAnnotation: false
tuner:

  builtinTunerName: TPE
  classArgs:

    optimize_mode: maximize
trial:
  command: python mnist.py
  codeDir: .
  gpuNum: 0


authorName: az
experimentName: demo

trialConcurrency: 5

maxExecDuration: 24h
maxTrialNum: 10
trainingServicePlatform: local

searchSpacePath: search_space.json
useAnnotation: false

logDir: ./log
logLevel: info

tuner:
  builtinTunerName: TPE

trial:
  command: python3 run_demo.py
  codeDir: .
  gpuNum: 1

localConfig:
  gpuIndices: 0,3

  maxTrialNumPerGpu: 2
  useActiveGpu: false

除了command，maxExecDuration，trialConcurrency，gpuNum，optimize_mode需要更改，这里的参数一般不需要更改。

command是nni的运行后将要执行的指令，mnist.py改为你的main.py或者train.py等等主程序。

maxExecDuration是整个NNI自动调参的时间，注意不是一次训练的时间。
trialConcurrency是trail的并发数，这个需要根据自己的GPU数量设置， 而不是下面的gpuNum，trail代表一次调参的过程，理解为用一种超参数在运行你的train.py，并发数设为x，就有x个trainer在训练！
gpuNum是每个trail所需要的gpu个数，而不是整个nni调参所需要的gpu个数。对于大型任务，单独训练一次需要N个GPU的话，这个值就设置为N；如果单次训练，一个GPU就足够，请把这个值设置为1。
需要的GPU总数为trialConcurrency _gpuNum，即 trail的个数_每个trail需要的gpu个数
optimize_mode对应着优化的方向，有最大和最小两种方式，具体如何设置在下一步中提到。

第三步修改我们的代码

"""
A deep MNIST classifier using convolutional layers.

This file is a modification of the official pytorch mnist example:
https://github.com/pytorch/examples/blob/master/mnist/main.py
"""

import os
import argparse
import logging
import nni
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from nni.utils import merge_parameter
from torchvision import datasets, transforms

logger = logging.getLogger('mnist_AutoML')

class Net(nn.Module):
    def __init__(self, hidden_size):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(1, 20, 5, 1)
        self.conv2 = nn.Conv2d(20, 50, 5, 1)
        self.fc1 = nn.Linear(4*4*50, hidden_size)
        self.fc2 = nn.Linear(hidden_size, 10)

    def forward(self, x):
        x = F.relu(self.conv1(x))
        x = F.max_pool2d(x, 2, 2)
        x = F.relu(self.conv2(x))
        x = F.max_pool2d(x, 2, 2)
        x = x.view(-1, 4*4*50)
        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return F.log_softmax(x, dim=1)

def train(args, model, device, train_loader, optimizer, epoch):
    model.train()
    for batch_idx, (data, target) in enumerate(train_loader):
        if (args['batch_num'] is not None) and batch_idx >= args['batch_num']:
            break
        data, target = data.to(device), target.to(device)
        optimizer.zero_grad()
        output = model(data)
        loss = F.nll_loss(output, target)
        loss.backward()
        optimizer.step()
        if batch_idx % args['log_interval'] == 0:
            logger.info('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
                epoch, batch_idx * len(data), len(train_loader.dataset),
                100. * batch_idx / len(train_loader), loss.item()))

def test(args, model, device, test_loader):
    model.eval()
    test_loss = 0
    correct = 0
    with torch.no_grad():
        for data, target in test_loader:
            data, target = data.to(device), target.to(device)
            output = model(data)

            test_loss += F.nll_loss(output, target, reduction='sum').item()

            pred = output.argmax(dim=1, keepdim=True)
            correct += pred.eq(target.view_as(pred)).sum().item()

    test_loss /= len(test_loader.dataset)

    accuracy = 100. * correct / len(test_loader.dataset)

    logger.info('\nTest set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)\n'.format(
        test_loss, correct, len(test_loader.dataset), accuracy))

    return accuracy

def main(args):
    use_cuda = not args['no_cuda'] and torch.cuda.is_available()

    torch.manual_seed(args['seed'])

    device = torch.device("cuda" if use_cuda else "cpu")

    kwargs = {'num_workers': 1, 'pin_memory': True} if use_cuda else {}

    data_dir = args['data_dir']

    train_loader = torch.utils.data.DataLoader(
        datasets.MNIST(data_dir, train=True, download=True,
                       transform=transforms.Compose([
                           transforms.ToTensor(),
                           transforms.Normalize((0.1307,), (0.3081,))
                       ])),
        batch_size=args['batch_size'], shuffle=True, **kwargs)
    test_loader = torch.utils.data.DataLoader(
        datasets.MNIST(data_dir, train=False, transform=transforms.Compose([
            transforms.ToTensor(),
            transforms.Normalize((0.1307,), (0.3081,))
        ])),
        batch_size=1000, shuffle=True, **kwargs)

    hidden_size = args['hidden_size']

    model = Net(hidden_size=hidden_size).to(device)
    optimizer = optim.SGD(model.parameters(), lr=args['lr'],
                          momentum=args['momentum'])

    for epoch in range(1, args['epochs'] + 1):
        train(args, model, device, train_loader, optimizer, epoch)
        test_acc = test(args, model, device, test_loader)

        nni.report_intermediate_result(test_acc)
        logger.debug('test accuracy %g', test_acc)
        logger.debug('Pipe send intermediate result done.')

    nni.report_final_result(test_acc)
    logger.debug('Final result is %g', test_acc)
    logger.debug('Send final result done.')

def get_params():

    parser = argparse.ArgumentParser(description='PyTorch MNIST Example')
    parser.add_argument("--data_dir", type=str,
                        default='./data', help="data directory")
    parser.add_argument('--batch_size', type=int, default=64, metavar='N',
                        help='input batch size for training (default: 64)')
    parser.add_argument("--batch_num", type=int, default=None)
    parser.add_argument("--hidden_size", type=int, default=512, metavar='N',
                        help='hidden layer size (default: 512)')
    parser.add_argument('--lr', type=float, default=0.01, metavar='LR',
                        help='learning rate (default: 0.01)')
    parser.add_argument('--momentum', type=float, default=0.5, metavar='M',
                        help='SGD momentum (default: 0.5)')
    parser.add_argument('--epochs', type=int, default=10, metavar='N',
                        help='number of epochs to train (default: 10)')
    parser.add_argument('--seed', type=int, default=1, metavar='S',
                        help='random seed (default: 1)')
    parser.add_argument('--no_cuda', action='store_true', default=False,
                        help='disables CUDA training')
    parser.add_argument('--log_interval', type=int, default=1000, metavar='N',
                        help='how many batches to wait before logging training status')

    args, _ = parser.parse_known_args()
    return args

if __name__ == '__main__':
    try:

        tuner_params = nni.get_next_parameter()
        logger.debug(tuner_params)
        params = vars(merge_parameter(get_params(), tuner_params))
        print(params)
        main(params)
    except Exception as exception:
        logger.exception(exception)
        raise

第四步代码运行

nnictl create --config examples\trials\mnist-pytorch\config_windows.yml --port 8088

切换到代码的目录下，直接运行。
-p代表使用的端口号。注意如果代码使用的是conda虚拟环境，需要激活conda虚拟环境。

第五步查看训练过程

打开命令行给的网站，如下图

图中，左上脚， select space，Config，logfiles 点击，体现出设置的参数。如下图所示

Hyper-parameter 体现参数训练结果

Trial jobs 体现每一次参数调整测试结果与测试图

; 第六步停止

nnictl stop

常见基本操作
参考网站：https://nni.readthedocs.io/en/latest/Tutorial/WebUI.html

`python
The Web UI urls are: http://223.255.255.1:8080 http://127.0.0.1:8080
commands description

nnictl experiment show show the information of experiments
nnictl trial ls list all of trial jobs
nnictl top monitor the status of running experiments
nnictl log stderr show stderr log content
nnictl log stdout show stdout log content
nnictl stop stop an experiment
nnictl trial kill kill a trial job by id
nnictl –help get help information about nnictl

Original: https://blog.csdn.net/weixin_38353277/article/details/121250088
Author: 中科哥哥
Title: 微软自动调参工具 NNI 使用事例教程

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/663547/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

（学习笔记1）可见光与红外图像的特征融合（Feature Fusion）

一、可见光与红外图像以及融合图像的特征 *可见光图像：纹理细节高空间分辨率 *红外图像：区分热辐射忽略照明 *融合图像：突出辐射信息（亮度和对比度）详细的纹理信息（渐变…

人工智能 2023年6月17日
00112
疫情反复，学校如何组织在线考试？

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月26日
0099
Python每日一练—–打家劫舍

⛅ （day13） 🖍题目：题目分析：解题思路： 🌈动态规划解法 🌈代码注释 🌈优化假设你是一个专业的小偷，计划偷窃沿街的房屋。每间房内都藏有一定的现金，影响你偷窃的唯一制约…

人工智能 2023年6月17日
00102
【前端技术】从零开始在github创建个人主页或技术博客

@ 1、注册github账号 2、创建个人主页专属仓库 3、了解主页框架css代码并下载 3、修改index.html文件 4、把修改好的index.html文件连同css文件夹上…

人工智能 2023年6月4日
00131
Matlab中镜头畸变矫正

matlab中其实自己带了镜头畸变矫正的代码。找了很久才发现原来兜兜转转还是回到原点 %% Correct Image for Lens Distortion%%%close al…

人工智能 2023年6月22日
0082
基于深度模型Out of Distribution(OOD)基础技术路线研究

在工业检测领域，将训练好的模型部署到实际场景时，常会碰到一个问题：如果输入的图片是一个新的类别，模型之前根本没见过，那么，无论模型的预测结果是什么，都必会是错误的。这种情况下，有两…

人工智能 2023年6月15日
0093
RTSP H264 流 MSE 播放

elsampsa/websocket-mse-demo 项目介绍： It this demo we’re streaming live video from an RT…

人工智能 2023年6月4日
00147
YOLO Hyperparameter Evolution

1. HyperScratch @ /data/hyps/hyp.scratch.yaml lr0: 0.01 # initial learning rate (SGD=1E-2,…

人工智能 2023年7月10日
0076
（三）学习目标检测的第3个月

第一周写图片裁剪代码了解darknet框架，安装GPU，搭建环境 (1) cygwin编译darknet windows下编译darknet-跑yolov3__g_y_的博客-…

人工智能 2023年7月11日
00123
卷积神经网络文本分类算法

随着这几年深度学习的出现,人工智能也得到了更好的发展, 不知不觉已进入我们的生活,并且一点一点地影响着我们.之前待过一家公司里面主要是做ai算法项目.虽然负责的工程这块,几十种算法…

人工智能 2023年5月31日
0097
双边滤波（Bilateral Filtering）

双边滤波（Bilateral Filtering） 1、基本思路双边滤波（Bilateral Filtering）的基本思路是同时考虑像素点的空域信息和值域信息。即先根据像素值对…

人工智能 2023年6月17日
00103
get_lr()调整学习率踩坑

在复原USRNet的过程中，总是训练不出理想模型，10w+次效果还很差，并且学习率调整很奇怪。最后发现是学习率调整策略中get_lr()有很大问题！！！！！网上很少有这方面的内容，…

人工智能 2023年7月22日
0078
YOLOV7开源代码讲解–训练参数解释

目录训练参数说明： –weights: — cfg: –data: –hpy: –epoch: –batc…

人工智能 2023年7月29日
00114
AttributeError: module ‘cv2.cv2‘ has no attribute ‘face‘

AttributeError: module ‘cv2.cv2’ has no attribute ‘face’解决方案今天运行一…

人工智能 2023年6月18日
00117
花了一周时间，终于搭建好了Excel和Python交互数据分析平台

Python是很强大的数据分析利器，Excel同样也是一款很大强的数据分析，但二者都有自己的优势主战场。Python优势在于有这海量开源数据分析包，Excel优势在于用户体量大，数…

人工智能 2023年7月16日
00105
深度学习中拟合是什么意思？

前言拟合从数学图像角度来说就是将一组平面图像上的点用平滑的曲线连接起来。在深度学习中平面图像上的点就是数据特征（验证集样本特征值），然后用线将已经学到的数据特征连接起来，这样才…

人工智能 2023年5月28日
00112

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

微软自动调参工具 NNI 使用事例教程

大家都在看