目标检测Faster-RCNN代码的使用及训练

2023年7月21日下午11:24 • 人工智能 • 阅读 115

本博客讲解如何利用Faster-RCNN去训练Pascol VOC数据集或者训练自定义数据集。

Faster-RCNN原理，参考博文：RCNN、Fast-RCNN、Faster-RCNN理论合集

如何在pytorch中找到Faster-RCNN源码

通过import detection.faster_rcnn, 然后按 Ctr + 鼠标左键，就可以参考faster_rcnn所实现的一些源码了

import torchvision.models.detection.faster_rcnn

但这里其实只是代码的一部分，和 训练相关的代码这里并没有，根据官方的提示。可以在pytorch github中找到
目标检测Faster-RCNN代码的使用及训练

可以看到训练相关的源代码了，如果自己想看faster-cnn源代码可以结合这两部分。

; 训练准备

环境配置

Python3.6/3.7/3.8
Pytorch1.7.1(注意：必须是1.6.0或以上，因为使用官方提供的混合精度训练1.6.0后才支持)
pycocotools(Linux:pip install pycocotools; Windows:pip install pycocotools-windows(不需要额外安装vs))
Ubuntu或Centos(不建议Windows)
最好使用GPU训练
详细环境配置见requirements.txt

这里有使用到coco的评价准则，所以需要安装 pycocotools,系统的话建议使用Linux，训练最好也是使用GPU训练

文件结构

  ├── backbone: 特征提取网络(分类网络)，可以根据自己的要求选择
  ├── network_files: Faster R-CNN网络（包括Fast R-CNN以及RPN等模块）
  ├── train_utils: 训练验证相关模块（包括cocotools）
  ├── my_dataset.py: 自定义dataset用于读取VOC数据集
  ├── train_mobilenet.py: 以MobileNetV2做为backbone进行训练
  ├── train_resnet50_fpn.py: 以resnet50+FPN做为backbone进行训练
  ├── train_multi_GPU.py: 针对使用多GPU的用户使用
  ├── predict.py: 简易的预测脚本，使用训练好的权重进行预测测试
  ├── validation.py: 利用训练好的权重验证/测试数据的COCO指标，并生成record_mAP.txt文件
  └── pascal_voc_classes.json: pascal_voc标签文件

其中 backbone就是一系列分类网络，可以根据自己的需求进行选择，我这边根据官方的样例使用了两个backbone: mobienetv2 和resnet50+fpn(特征金字塔结构) ；
train_utils就是pytorch github官方给出的训练代码，我这边将他们放在 train_utils文件中。
my_dataset.py :自定义dataset去读取VOC数据集，官方也提供了直接读取VOC数据集的工具，我这里主要是强调如何自己读取dataset，了解自定义数据集的原理之后就可以按照自己的需求创建自定义数据集，编写相应的脚本去读取就可以了。
train_mobilenet.py: 以MobileNetV2做为backbone进行训练，该backbone预测特征层只有一层，和Faster-RCNN论文描述的方法基本上保持一致
train_resnet50_fpn.py: 以resnet50+FPN做为backbone进行训练,个人比较推荐用这个脚本，因为该脚本的训练效果是很好的，如果你要在实际应用去使用的话，尽可能去使用该脚本。对于 train_mobilenet.py: 以MobileNetV2做为backbone进行训练，准确率相比要低很多，不建议在实际项目中去使用，主要原因一方面是训练数据不够多，另外该官方没有提供完整的预训练模型权重，但官方给出了完整的 resnet50+FPN的预训练权重。基于 resnet50+FPN预训练权重进行迁移学习，就能很快迭代到属于自己的模型了。
train_multi_GPU.py: 针对使用多GPU的用户使用,它的训练方法和单GPU训练方法是不一样的，单GPU可以直接在IDE环境中 run脚本文件进行训练。但 train_multi_GPU.py需要在终端命令行窗口输入指令进行训练。
validation.py: 利用训练好的权重验证/测试数据的COCO指标，并生成record_mAP.txt文件
pascal_voc_classes.json: pascal_voc标签文件,标签文件如下：

{
    "aeroplane": 1,
    "bicycle": 2,
    "bird": 3,
    "boat": 4,
    "bottle": 5,
    "bus": 6,
    "car": 7,
    "cat": 8,
    "chair": 9,
    "cow": 10,
    "diningtable": 11,
    "dog": 12,
    "horse": 13,
    "motorbike": 14,
    "person": 15,
    "pottedplant": 16,
    "sheep": 17,
    "sofa": 18,
    "train": 19,
    "tvmonitor": 20
}

标签为啥没有从0开始? 因为在我们目标检测当中，一般0是专门留给我们的背景的。虽然我们说pascal_voc只有20个类别，其实实际训练过程中给出了21个类别，专门为背景设了一个类别。

预训练权重下载

预训练权重下载地址（下载后放入backbone文件夹中）

MobileNetV2 backbone:https://download.pytorch.org/models/mobilenet_v2-b0353104.pth,在faster-rcnn中MobileNetV2预训练权重只有backbone权重，其中RPN和fast-rcnn部分的权重是没有的，所以训练效果也不是特别的好
ResNet50+FPN backbone:https://download.pytorch.org/models/fasterrcnn_resnet50_fpn_coco-258fb6c6.pth， 给的是完整的模型权重，不仅包括back_bone 部分，还包括RPN和Fast-RCNN后半部分的权重。所以针对ResNet50+FPN 给出的权重，可以针对自己的数据集进行较好的迁移学习,并且很快能得到一个比较理想的结果
注意，下载的预训练权重记得要重命名，比如在train_resnet50_fpn.py中读取的是 fasterrcnn_resnet50_fpn_coco.pth文件，不是 fasterrcnn_resnet50_fpn_coco-258fb6c6.pth

数据集

本例程使用的是 PASCAL VOC2012数据集

Pascal VOC2012 train/val数据集下载地址：http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar
如果不了解数据集或者想使用自己的数据集进行训练，请参考bilibili：https://b23.tv/F1kSCK
使用ResNet50+FPN以及迁移学习在VOC2012数据集上得到的权重: 链接:https://pan.baidu.com/s/1ifilndFRtAV5RDZINSHj5w 提取码:dsz8

训练方法

确保提前准备好数据集
确保提前下载好对应预训练模型权重,下载好后放在项目的 backbone文件夹中，代码中是从backbone文件中寻找预训练权重的。
若要训练mobilenetv2+fasterrcnn，直接使用train_mobilenet.py训练脚本，建议在学术研究中使用
若要训练resnet50+fpn+fasterrcnn，直接使用train_resnet50_fpn.py训练脚本，建议在工程应用中使用
若要使用多GPU训练，使用

python -m torch.distributed.launch --nproc_per_node=8 --use_env train_multi_GPU.py

指令,nproc_per_node参数为使用GPU数量

如果想指定使用哪些GPU设备可在指令前加上 CUDA_VISIBLE_DEVICES=0,3(例如我只要使用设备中的第1块和第4块GPU设备)

CUDA_VISIBLE_DEVICES=0,3 python -m torch.distributed.launch --nproc_per_node=2 --use_env train_multi_GPU.py

其中 torch.distributed.launch是一个多进程的工具，可以开启多个进程执行python脚本，同时调用多个GPU进行加速训练。 nproc_per_node指定GPU的个数， train_multi_GPU.py就是项目中训练多GPU的代码

注意事项

在使用训练脚本时，注意要将 --data-path(VOC_root)设置为自己存放VOCdevkit文件夹所在的根目录
由于带有 FPN结构的Faster RCNN 很吃显存，如果GPU的显存不够(如果batch_size小于8的话)建议在create_model函数中使用默认的 norm_layer，即不传递norm_layer变量，默认去使用FrozenBatchNorm2d(即不会去更新参数的bn层),使用中发现效果也很好。
训练过程中保存的 results.txt是每个epoch在验证集上的 COCO指标，前12个值是 COCO指标，后面两个值是训练平均损失以及学习率
在使用预测脚本时，要将 train_weights设置为你自己生成的权重路径。
使用 validation文件时，注意确保你的验证集或者测试集中必须包含每个类别的目标，并且使用时只需要修改 --num-classes、 --data-path和 --weights-path即可，其他代码尽量不要改动

训练脚本讲解

这里以 train_mobienet.py代码进行讲解

定义训练的设备类型，是 gpu还是 cpu

 device = torch.device(parser_data.device if torch.cuda.is_available() else "cpu")
 print(device)

定义图像预处理的函数

 data_transform = {
        "train": transforms.Compose([transforms.ToTensor(),
                                     transforms.RandomHorizontalFlip(0.5)]),
        "val": transforms.Compose([transforms.ToTensor()])
    }

ToTensor():包含了两个功能：1. 图片归一化到(0,1) 2.将nd.array数据转换为tensor

目标检测图像预处理和分类网络的预处理是不一样的，比如 transforms.RandomHorizontalFlip(0.5)，因为在我们目标检测中，我们对图片水平方向进行随机翻转的话，我们所标注的 GT Box坐标也同样需要进行水平翻转。

自定义数据集

 VOC_root = parser_data.data_path

    train_data_set = VOC2012DataSet(VOC_root, data_transform["train"], True)

并通过dataloader载入数据集：


    train_data_loader = torch.utils.data.DataLoader(train_data_set,
                                                    batch_size=4,
                                                    shuffle=True,
                                                    num_workers=0,
                                                    collate_fn=utils.collate_fn)

其中 collate_fn代码

def collate_fn(batch):
    return tuple(zip(*batch))

batch_size的大小需要根据你电脑的GPU显存去设计，如果提示显存不够就需要减小 batch_size的大小。

同理验证集的数据集


    val_data_set = VOC2012DataSet(VOC_root, data_transform["val"], False)
    val_data_set_loader = torch.utils.data.DataLoader(val_data_set,
                                                      batch_size=2,
                                                      shuffle=False,
                                                      num_workers=0,
                                                      collate_fn=utils.collate_fn)

num_class类别是加上背景的，所以这里是21


    model = create_model(num_classes=21)
    print(model)

    model.to(device)

Faster-RCNN还有点麻烦，是分开两部分进行训练的
阶段1：冻结前置特征提取网络权重(backbone),训练rpn以及fast-rcnn最终预测网络部分

以backbone为mobienet为例，训练第一阶段载入 mobienet v2的 backbone模型初始化backbone这块，然后冻结 backbone去训练RPN以及Fast-RCNN的后半部分。通过固定backbone权重去微调RPN和Fast-RCNN的后半部分。
这里通过 5个epoch对网络进行微调,并保存模型


    for param in model.backbone.parameters():
        param.requires_grad = False

    params = [p for p in model.parameters() if p.requires_grad]
    optimizer = torch.optim.SGD(params, lr=0.005,
                                momentum=0.9, weight_decay=0.0005)

    num_epochs = 5
    for epoch in range(num_epochs):

        utils.train_one_epoch(model, optimizer, train_data_loader,
                              device, epoch, print_freq=50)

        utils.evaluate(model, val_data_set_loader, device=device)

    torch.save(model.state_dict(), "./save_weights/pretrain.pth")

阶段2：解冻前置特征提取网络权重（backbone），接着训练整个网络权重。
这里代码借鉴pytorch 上实现的resnet50+fpn代码来实现的。


    for name, parameter in model.backbone.named_parameters():
        split_name = name.split(".")[0]
        if split_name in ["0", "1", "2", "3"]:
            parameter.requires_grad = False
        else:
            parameter.requires_grad = True

冻结了backbone的部分底层权重，比如前一两层都是相对通用的特征。而且我们的pascal_voc的训练数据不是很大，也就5000多张图片，训练整个网络其实是远远不够的。最终的结果来看，它比训练整个模型的效果要好一点。

对 require_grad=True对需要训练的参数进行训练，学习率策略 lr_scheduler，设置为每隔5步，将学习率降低为原来的0.33倍。


    params = [p for p in model.parameters() if p.requires_grad]
    optimizer = torch.optim.SGD(params, lr=0.005,
                                momentum=0.9, weight_decay=0.0005)

    lr_scheduler = torch.optim.lr_scheduler.StepLR(optimizer,
                                                   step_size=5,
                                                   gamma=0.33)

这里迭代了 20 个 epoch，每迭代一个 epoch，将学习率的调整策略 lr_scheduler，执行一个 step方法，这样就记录了已经执行了一步了，每隔5步，它将会降低一次学习率。

 num_epochs = 20
    for epoch in range(num_epochs):

        utils.train_one_epoch(model, optimizer, train_data_loader,
                              device, epoch, print_freq=50, warmup=True)

        lr_scheduler.step()

保存权重这块，我这里是从第10个 epoch开始保存的，在我训练过程中，我发现基本上在第10个epoch就开始收敛了。

注意这里保存的权重，并不光指模型的权重，之前在训练分类网络的时候，基本上就将 model.state_dict()权重进行保存。这里除了保存模型权重之外，还保存了有关优化器optimizer的状态以及学习策略lr_sheduler以及epoch数，这样我们再后面如果想接着你上次训练的话，可以载入这些参数，接着上次的方法继续训练了。

 for epoch in range(num_epochs):

        utils.train_one_epoch(model, optimizer, train_data_loader,
                              device, epoch, print_freq=50, warmup=True)

        lr_scheduler.step()

        utils.evaluate(model, val_data_set_loader, device=device)

        if epoch > 10:
            save_files = {
                'model': model.state_dict(),
                'optimizer': optimizer.state_dict(),
                'lr_scheduler': lr_scheduler.state_dict(),
                'epoch': epoch}
            torch.save(save_files, "./save_weights/mobile-model-{}.pth".format(epoch))

Faster RCNN框架图

Original: https://blog.csdn.net/weixin_38346042/article/details/125044860
Author: @BangBang
Title: 目标检测Faster-RCNN代码的使用及训练

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/707991/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

OpenCV-Python实战（3）——OpenCV中绘制图形与文本

[ OpenCV_是一款非常强大的计算机视觉库，其 _中_包含了很多功能强大的 _图像处理_和计算机视觉算法。而在这个系列的第三篇文章 _中，我们将重点介绍如何在 OpenCV 中…

人工智能 2023年6月17日
0076
python-opencv学习笔记（八）：判断是否雾天与图像能见度测算

引言本篇是最近碰到的一个关于雾天能见度的问题，然后查阅到很多资料，顺便记录一下思考过程，进行总结归类成笔记。主要参考资料是华为杯2020年E题论文，结合一下自己的实际情况，做出了…

人工智能 2023年6月19日
0082
情感分析与观点挖掘第五章笔记（上）/基于方面的情感分析/SentimentAnalysis-and-OpinionMining by Bing Liu

Chapter 5 基于方面的情感分析_Aspect-based Sentiment Analysis 5.1 方面情感分类 5.2 观点和构成语义学的基本规则随着各章的自然发展…

人工智能 2023年5月31日
0091
语谱图（四） Mel spectrogram 梅尔语谱图

; 1. 语谱图的产生前文介绍了语谱图的产生这里在简单小结如下，信号预处理，预加重，分帧，加窗，进行STFT 变换，生成频谱图；对单帧信号的频谱进行映射，（2,3…

人工智能 2023年6月16日
0092
Pytorch实战 | 第P1周：实现mnist手写数字识别

### 回答1： PyTorch_是一种 _深度学习_框架，可以用来 _实现 MNIST 手写数字识别。 MNIST_是一个常用的数据集，包含了大量手写数字的图像和对应的标签。我们…

人工智能 2023年7月23日
0052
Dataset和Dataloader|读取图片

Dataset 加载数据集-使之支持索引 DataLoader方便使用的时候拿出一个Mini-Batch来使用 1.为什么是Mini-Batch 罗翔老师喜欢说”正说…

人工智能 2023年7月24日
0074
【PyTorch_VGG16】Pytorch实现VGG16，在Cifar10上做分类，91%精度

实验目的是为后续的转换SNN网络，写一个基础的ANN，所以ANN的结构存在一些限制 1.均没有使用偏置Bias（在Conv2d和Linear） 2.没有使用Batch Norma…

人工智能 2023年7月22日
0082
R语言大作业

2022春期末总结报告题目：要求：1. 数据要求：自己任意选择一个数据集，数据量不少于4000条。（1.可在数据集网站中选择，如kaggle等。2.从网上爬取数据） 2. 数据…

人工智能 2023年7月15日
00131
Tensorflow的安装

Tensorflow用于搭建神经网络。目录参考链接查看显卡版本信息开始安装 * 创建新环境安装cudatoolkit 安装cuDNN 安装tensorflow 测试参考…

人工智能 2023年6月23日
00101
基于qt的人脸识别

文章目录前言一、Ubuntu中运行效果二、代码部分 * 1.工程结构 2.camera代码移植到linux板子上面的思路前言 提&#x793…

人工智能 2023年6月19日
00100
BDD100K自动驾驶数据集格式转YOLO格式

说明：为了用BDD100K数据集训练YOLOV5模型，首先需要将BDD100K数据集格式转成YOLOV5支持的输入格式。转换代码如下：一、BDD100K转YOLO格式 #!/u…

人工智能 2023年6月2日
0070
目标检测：Generalized Focal Loss（NIPS2020）

Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object…

人工智能 2023年7月12日
0060
pandas行列转换的4大技巧

公众号：尤而小屋作者：Peter编辑：Peter 大家好，我是Peter~ 本文介绍的是Pandas中4个行列转换的方法，包含： melt 转置T或者transpose wide_…

人工智能 2023年6月19日
0085
神经网络——线性层中Linear函数及torch.flatten()的使用

线性层中Linear函数可以将输入的样本大小，输出成我们需要的大小，在构建神经网络是经常会使用到，torch.flatten()，可以将数据展成一维的，相比较reshape函数，使…

人工智能 2023年7月27日
0075
pytorch之常用函数整理

pytorch之常用函数整理一、图像预处理函数 * 1.1 torchvision.datasets.ImageFolder()函数二、参数优化函数 * 2.1 torch.o…

人工智能 2023年6月16日
0091
Python分类实例之猫狗大战

目录作者介绍编程实战指南比赛数据集介绍（Dogs vs cats）环境配置模型定义数据加载训练和测试结果展示参考作者介绍周新龙，男，西安工程大学电子信息学院…

人工智能 2023年6月24日
0082

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31