SSD训练数据集流程（学习记录）

2023年7月26日下午10:45 • 人工智能 • 阅读 166

关于理论部分我看的是b站”霹雳吧啦Wz”的SSD理论讲解，作为入门小白表示能听懂，需要的同学可以自行观看

1.训练环境

2.训练步骤

1.训练环境

我的环境是win11+anaconda+python3.6.13+pytorch1.10.2+cuda11.6

2.训练步骤

（1）下载SSD源码

可到github进行下载

GitHub – amdegroot/ssd.pytorch: A PyTorch Implementation of Single Shot MultiBox Detector

（2）下载模型文件

VGG16_reducedfc.pth预训练模型下载地址：https://s3.amazonaws.com/amdegroot-models/vgg16_reducedfc.pth

将下载的模型文件放置于ssd源码目录中 wights/vgg16_reducedfc.pth

（3）数据集准备

与大多数训练模型一样，ssd支持的训练格式为VOC和coco，这里采用voc2007作为演示，制作自己的数据集以及labimg的使用可自行观看yolo数据集标注软件安装+使用流程_道人兄的博客-CSDN博客_yolo数据集标注工具

voc2007的具体下载方式我也不多赘述，网络上百度也有，或者直接看我之前写的也有提到使用Faster—RCNN训练数据集流程（学习记录）_道人兄的博客-CSDN博客

将下载后的voc2007数据集放置于./data/VOCdevkit/中

然后到ssd.pytorch-master/data/中的voc0712.py进行修改其中的VOC_ROOT = osp.join(HOME, “data/VOCdevkit/”)，他这里的HOME老是读取我的C盘位置，所以一直报错，我直接把数据集的绝对路径写上去了就没报错

将 voc0712.py文件中 VOCDetection类的 __init__函数，将 image_sets修改为 [('2007', 'train'), ('2007', 'val'),('2007','test')]，修改后的结果如下。

def __init__(self, root,
             image_sets=[('2007', 'train'), ('2007', 'val'),('2007','test')],
             transform=None, target_transform=VOCAnnotationTransform(),
             dataset_name='VOC0712'):

其中如果是训练自己的数据集，记得修改 voc0712.py文件中的 VOC_CLASSES 变量。例如，将VOC_CLASSES修改为person类， 注意如果只有一类则需要加方括号，修改后的结果如下。

VOC_CLASSES = [('person')

如果训练自己的数据集，还需要修改 config.py文件中的 voc字典变量。将其中的 num_classes修改为2（以person为例）（背景类+你训练集的种类个数），第一次调试时可以将 max_iter调小至1000，修改后的结果如下。

voc = {
    'num_classes': 2,
    'lr_steps': (80000, 100000, 120000),
    'max_iter': 1000,
    'feature_maps': [38, 19, 10, 5, 3, 1],
    'min_dim': 300,
    'steps': [8, 16, 32, 64, 100, 300],
    'min_sizes': [30, 60, 111, 162, 213, 264],
    'max_sizes': [60, 111, 162, 213, 264, 315],
    'aspect_ratios': [[2], [2, 3], [2, 3], [2, 3], [2], [2]],
    'variance': [0.1, 0.2],
    'clip': True,
    'name': 'VOC',
}

最后一步，把 coco_labels.txt放在 ssd.pytorch-master/data/coco/目录下，也可以通过修改 coco.py文件中的 COCO_ROOT = osp.join(HOME, 'data/coco/')来指定存放路径。

（4）修改源码

①修改 ssd.py文件中 SSD类的 __init__函数和 forward函数，修改后的结果如下。

if phase == 'test':
    self.softmax = nn.Softmax(dim=-1)
    self.detect = Detect(num_classes, 0, 200, 0.01, 0.45)
&#x4FEE;&#x6539;&#x4E3A;:
if phase == 'test':
    self.softmax = nn.Softmax()
    self.detect = Detect()

if self.phase == "test":
    output = self.detect(
        loc.view(loc.size(0), -1, 4),                   # loc preds
        self.softmax(conf.view(conf.size(0), -1,
                     self.num_classes)),                # conf preds
        self.priors.type(type(x.data))                  # default boxes
    )
&#x4FEE;&#x6539;&#x4E3A;&#xFF1A;
if self.phase == "test":
    output = self.detect.apply(21, 0, 200, 0.01, 0.45,
        loc.view(loc.size(0), -1, 4),                   # loc preds
        self.softmax(conf.view(-1,21)),                 # conf preds
        self.priors.type(type(x.data))                  # default boxes
    )

②修改 train.py中187至189行代码，原因是 .data[0]写法适用于低版本Pytorch，否则会出现 IndexError:invalid index of a 0-dim tensor...错误，修改后的结果如下。

loc_loss += loss_l.item()
conf_loss += loss_c.item()

if iteration % 10 == 0:
    print('timer: %.4f sec.' % (t1 - t0))
    print('iter ' + repr(iteration) + ' || Loss: %.4f ||' % (loss.item()), end=' ')

③交换 layers/modules/multibox_loss.py中97行和98代码位置，否则会出现 IndexError: The shape of the mask [14, 8732] at index 0does...错误，修改后的结果如下。

loss_c = loss_c.view(num, -1)
loss_c[pos] = 0  # filter out pos boxes for now

④根据自己的需要对 train.py中预训练模型、batch_size、学习率、模型名字和模型保存的次数等参数进行修改。建议学习率修改为 1e-4（原因是原版使用1e-3可能会出现loss为nan情况），第一次调试时可以修改为每迭代100次保存，方便调试。

&#x52A0;&#x8F7D;&#x6A21;&#x578B;&#x521D;&#x59CB;&#x53C2;&#x6570;
parser = argparse.ArgumentParser(
    description='Single Shot MultiBox Detector Training With Pytorch')
train_set = parser.add_mutually_exclusive_group()
&#x9ED8;&#x8BA4;&#x52A0;&#x8F7D;VOC&#x6570;&#x636E;&#x96C6;
parser.add_argument('--dataset', default='VOC', choices=['VOC', 'COCO'],
                    type=str, help='VOC or COCO')
&#x8BBE;&#x7F6E;VOC&#x6570;&#x636E;&#x96C6;&#x6839;&#x8DEF;&#x5F84;
parser.add_argument('--dataset_root', default=VOC_ROOT,
                    help='Dataset root directory path')
&#x8BBE;&#x7F6E;&#x9884;&#x8BAD;&#x7EC3;&#x6A21;&#x578B;vgg16_reducedfc.pth
parser.add_argument('--basenet', default='vgg16_reducedfc.pth',
                    help='Pretrained base model')
&#x8BBE;&#x7F6E;&#x6279;&#x5927;&#x5C0F;&#xFF0C;&#x6839;&#x636E;&#x81EA;&#x5DF1;&#x663E;&#x5361;&#x80FD;&#x529B;&#x8BBE;&#x7F6E;&#xFF0C;&#x9ED8;&#x8BA4;&#x4E3A;32&#xFF0C;&#x6B64;&#x5904;&#x6211;&#x6539;&#x4E3A;16
parser.add_argument('--batch_size', default=16, type=int,
                    help='Batch size for training')
&#x662F;&#x5426;&#x6062;&#x590D;&#x4E2D;&#x65AD;&#x7684;&#x8BAD;&#x7EC3;&#xFF0C;&#x9ED8;&#x8BA4;&#x4E0D;&#x6062;&#x590D;
parser.add_argument('--resume', default=None, type=str,
                    help='Checkpoint state_dict file to resume training from')
&#x6062;&#x590D;&#x8BAD;&#x7EC3;iter&#x6570;&#xFF0C;&#x9ED8;&#x8BA4;&#x4ECE;&#x7B2C;0&#x6B21;&#x8FED;&#x4EE3;&#x5F00;&#x59CB;
parser.add_argument('--start_iter', default=0, type=int,
                    help='Resume training at this iter')
&#x6570;&#x636E;&#x52A0;&#x8F7D;&#x7EBF;&#x7A0B;&#x6570;&#xFF0C;&#x6839;&#x636E;&#x81EA;&#x5DF1;CPU&#x4E2A;&#x6570;&#x8BBE;&#x7F6E;&#xFF0C;&#x9ED8;&#x8BA4;&#x4E3A;4
parser.add_argument('--num_workers', default=4, type=int,
                    help='Number of workers used in dataloading')
&#x662F;&#x5426;&#x4F7F;&#x7528;CUDA&#x52A0;&#x901F;&#x8BAD;&#x7EC3;&#xFF0C;&#x9ED8;&#x8BA4;&#x5F00;&#x542F;&#xFF0C;&#x5982;&#x679C;&#x6CA1;&#x6709;GPU&#xFF0C;&#x53EF;&#x6539;&#x6210;False&#x76F4;&#x63A5;&#x7528;CPU&#x8BAD;&#x7EC3;
parser.add_argument('--cuda', default=True, type=str2bool,
                    help='Use CUDA to train model')
&#x5B66;&#x4E60;&#x7387;&#xFF0C;&#x9ED8;&#x8BA4;0.001
parser.add_argument('--lr', '--learning-rate', default=1e-3, type=float,
                    help='initial learning rate')
&#x6700;&#x4F73;&#x52A8;&#x91CF;&#x503C;&#xFF0C;&#x9ED8;&#x8BA4;0.9&#xFF08;&#x52A8;&#x91CF;&#x662F;&#x68AF;&#x5EA6;&#x4E0B;&#x964D;&#x6CD5;&#x4E2D;&#x4E00;&#x79CD;&#x5E38;&#x7528;&#x7684;&#x52A0;&#x901F;&#x6280;&#x672F;&#xFF0C;&#x7528;&#x4E8E;&#x52A0;&#x901F;&#x68AF;&#x5EA6;&#x4E0B;&#x964D;&#xFF0C;&#x51CF;&#x5C11;&#x6536;&#x655B;&#x8017;&#x65F6;&#xFF09;
parser.add_argument('--momentum', default=0.9, type=float,
                    help='Momentum value for optim')
&#x6743;&#x91CD;&#x8870;&#x51CF;&#xFF0C;&#x5373;&#x6B63;&#x5219;&#x5316;&#x9879;&#x524D;&#x9762;&#x7684;&#x7CFB;&#x6570;&#xFF0C;&#x7528;&#x4E8E;&#x9632;&#x6B62;&#x8FC7;&#x62DF;&#x5408;&#xFF1B;SGD&#xFF0C;&#x5373;mini-batch&#x68AF;&#x5EA6;&#x4E0B;&#x964D;
parser.add_argument('--weight_decay', default=1e-4, type=float,
                    help='Weight decay for SGD')
gamma&#x66F4;&#x65B0;&#xFF0C;&#x9ED8;&#x8BA4;&#x503C;0.1
parser.add_argument('--gamma', default=0.1, type=float,
                    help='Gamma update for SGD')
&#x4F7F;&#x7528;visdom&#x5C06;&#x8BAD;&#x7EC3;&#x8FC7;&#x7A0B;loss&#x56FE;&#x50CF;&#x53EF;&#x89C6;&#x5316;
parser.add_argument('--visdom', default=False, type=str2bool,
                    help='Use visdom for loss visualization')
&#x6743;&#x91CD;&#x4FDD;&#x5B58;&#x4F4D;&#x7F6E;&#xFF0C;&#x9ED8;&#x8BA4;&#x5B58;&#x5728;weights/&#x4E0B;
parser.add_argument('--save_folder', default='weights/',
                    help='Directory for saving checkpoint models')
args = parser.parse_args()

if iteration != 0 and iteration % 100 == 0:
    print('Saving state, iter:', iteration)
    torch.save(ssd_net.state_dict(), 'weights/ssd300_VOC_' + repr(iteration) + '.pth')

⑤因为pytorch1.9以上版本在这份源代码中并不适用，一旦运行cuda方面会报错如下：

RuntimeError: Expected a &#x2018;cuda&#x2018; device type for generator but found &#x2018;cpu&#x2018;

参考github上的解决方法，有两种方法可成功运行：

第一种是重装pytorch1.8版本，就可以正常运行，但我觉得太麻烦了

第二种是修改源码：

在位于 anaconda 或任何地方的文件”site-packages/torch/utils/data/sampler.py”中。

[&#x4FEE;&#x6539;&#x7B2C; 116 &#x884C;]&#xFF1A;generator = torch.Generator()
&#x6539;&#x6210;generator = torch.Generator(device='cuda')
[&#x4FEE;&#x6539;&#x7B2C; 126 &#x884C;]&#xFF1A;yield from torch.randperm(n, generator=generator).tolist()
&#x6539;&#x6210;yield from torch.randperm(n, generator=generator, device='cuda').tolist()

在train.py文件中，data.DataLoader处进行添加generator

data_loader = data.DataLoader(dataset, args.batch_size,
                                  num_workers=args.num_workers,
                                  shuffle=True, collate_fn=detection_collate,
                                  pin_memory=True, generator=torch.Generator(device='cuda'))

（5）运行train.py，如下图

参考资料：

SSD训练自己的数据集（pytorch版）_Kellenn的博客-CSDN博客_ssd训练自己的数据集pytorch

【目标检测实战】Pytorch—SSD模型训练（VOC数据集） – 知乎 (zhihu.com)

2.1SSD算法理论_哔哩哔哩_bilibili

Original: https://blog.csdn.net/hhb3329/article/details/126860115
Author: 道人兄
Title: SSD训练数据集流程（学习记录）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/717489/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

[GAN]CelebA&CelebAMask-HQ数据集

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月13日
0046
疫情分析（4）基于流动模型的SEIR病毒模型

之前我们已经获得了疫情数据和百度迁徙的相关数据。接下来就要针对疫情进行数据建模和数据分析。本次我们使用到的数学模型是SEIR病毒传播动力学的模型，其具体模型的内容不在本次记录中。…

人工智能 2023年6月16日
0085
OpenCV

图像读取与显示知识点：imread — 读取图像 imshow — 显示图像 imshow只支持浮点数类型跟字节类型图像显示示例： #include #…

人工智能 2023年6月22日
0080
从零学习 InfiniBand-network架构（七） ——IB协议中数据如何传输

从零学习 InfiniBand-network架构（七） —— IB协议中数据如何传输 🔈声明：😃博主主页：王_嘻嘻的CSDN主页🔑未经作者允许，禁止转载🚩本专题部分内容源于《In…

人工智能 2023年6月27日
0098
霍夫变换——HoughLines、HoughLinesP和HoughCircles

一、霍夫变换 1、霍夫变换是一种在图像中寻找直线、圆形及其他简单形状的方法。2、笛卡尔空间与霍夫空间映射关系笛卡尔空间内的一条直线确定了霍夫空间内的一个点。霍夫空间内的一个点确…

人工智能 2023年6月20日
0082
Numpy教程：Numpy.random模块使用（新）

目录前言创建使用 * 1、创建指定维度数组 2、创建随机一维整数 3、随机选择 4、随机排列分布前言本文介绍版本：Numpy1.22 在numpy1.17开始，Gene…

人工智能 2023年7月15日
00103
从感知机到神经网络

从感知机到神经网络 1、感知机感知机接收x1和x2两个输入信号，输出y。b是被称为偏置的参数，用于控制神经元被激活的容易程度；而w1和w2 是表示各个信号的权重的参数。这个感知机…

人工智能 2023年7月14日
0058
LeetCode136. 只出现一次的数字

给定一个非空整数数组，除了某个元素只出现一次以外，其余每个元素均出现两次。找出那个只出现了一次的元素。说明：你的算法应该具有线性时间复杂度。你可以不使用额外空间来实现吗？…

人工智能 2023年6月26日
00123
自然语言处理（十五）：Transformer介绍

论文地址：Attention Is All You Need Transformer的优势 Transformer能够利用分布式GPU进行并行训练，提升模型训练效率在分析预测更长…

人工智能 2023年5月30日
00110
什么是零填充操作？它在张量中的应用是什么

什么是零填充操作？在深度学习中，卷积神经网络（Convolutional Neural Network, CNN）通常用于图像处理任务。在CNN中，输入图像通常表示为一个多维数组…

人工智能 2024年1月1日
0051
3.3 Fashion-MNIST softmax分类、tensorflow2实现——python实战

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月1日
0085
Elasticsearch：使用向量搜索来查询及比较文字 – NLP text embedding

Elastic Stack 机器学习功能可以生成嵌入（embeddings），你可以使用它在非结构化文本中搜索或比较不同的文本片段。传统上，我们在搜索文本的时候，更加倾向于把文字进…

人工智能 2023年5月27日
00113
(Matlab)遗传算法优化的BP神经网络实现回归预测

目录摘要： 1.BP神经网络介绍： 2.遗传算法原理介绍： 3.遗传算法优化的BP神经网络： 4.算例分析： 5.Matlab代码实现摘要：基于Matalb平台，将遗传算法（…

人工智能 2023年6月18日
0068
opencv小笔记（IndexError: too many indices for array分析和UserWarning：missing from current font分析）

今天在测试下边代码时出现了报错 IndexError: too many indices for array: array is 2-dimensional, but 3 were…

人工智能 2023年6月20日
0069
SAR学习笔记-代码部分

摘要没有想到2021年11月底写的《SAR学习笔记》观看量还挺多的。接下来我将承接上篇文章内容，整理上篇文章中涉及到的代码实现部分：包括目标检测、一维距离像、二维距离像以及SAR…

人工智能 2023年7月15日
0079
【好数推荐】自然对话语音数据集来啦！

目前，行业提供的人工智能数据大多基于阅读训练数据。然而，人与机器之间的互动不应该仅仅是简单的问答对话或命令控制，而是理解语言的语境。认清他人的情感需求，并给予相应的反馈。 [En]…

人工智能 2023年5月25日
0060

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

SSD训练数据集流程（学习记录）

大家都在看