目标检测——paddleYOLOv3

2023年7月12日下午4:15 • 人工智能 • 阅读 80

导入包，配置参数

import time
import os
import paddle

ANCHORS = [10, 13, 16, 30, 33, 23, 30, 61, 62, 45, 59, 119, 116, 90, 156, 198, 373, 326]

ANCHOR_MASKS = [[6, 7, 8], [3, 4, 5], [0, 1, 2]]

IGNORE_THRESH = .7
NUM_CLASSES = 7

def get_lr(base_lr = 0.0001, lr_decay = 0.1):
    bd = [10000, 20000]
    lr = [base_lr, base_lr * lr_decay, base_lr * lr_decay * lr_decay]
    learning_rate = paddle.optimizer.lr.PiecewiseDecay(boundaries=bd, values=lr)
    return learning_rate

TrainDataset类设置

初始的数据集数据组成：安全帽数据集共有5000张图片和5000个标注文件xml，每个xml文件对应一张图片。xml文件中含有图片路径，图片高宽，标注框位置信息（x1,y1,x2,y2）和类别（[‘helmet’, ‘head’, ‘person’] 共3类）

该类属于自定义类，主要完成如下工作：

解析xml文件得到字典列表存储图片和标注信息。通过公式x = (x1 + x2)/2, y = (y1 + y2)/2, w = x2 – x1 +1, h = y2 – y1 + 1将（x,y,x,y）格式转化为（x,y,w,h）格式
根据字典列表的字典返回一张图片数据 img，及标注 gt_boxes, gt_labels和图片高宽 (h, w)。注意这里的真实框（x,y,w,h）使用的是相对值，所以要返回图片的高宽（h,w）用于恢复。
数据增强，包括明亮变化、缩放、归一化等。注意缩放后处于统一大小，便于批量读取。经过图像增广后， img的shape被缩放了大小，但 （h, w）存储的还是原来的大小。

具体实现：目标检测–数据集处理

 TRAINDIR = '/home/aistudio/work/insects/train'
 TESTDIR = '/home/aistudio/work/insects/test'
 VALIDDIR = '/home/aistudio/work/insects/val'
 paddle.set_device("gpu:0")
 # &#x521B;&#x5EFA;&#x6570;&#x636E;&#x8BFB;&#x53D6;&#x7C7B;
 train_dataset = TrainDataset(TRAINDIR, mode='train')
 valid_dataset = TrainDataset(VALIDDIR, mode='valid')
 test_dataset = TrainDataset(VALIDDIR, mode='valid')

使用Dataloader加载数据，返回的格式为：img(batch, channel, w, h), 真实框gt_boxs(batch, num_boxs, location), 类别gt_labels(batch, num_boxs), 高宽w_h(batch, 2)
例如：([2, 3, 400, 400], [2, 10, 4], [2, 10], [2, 2])

 # &#x4F7F;&#x7528;paddle.io.DataLoader&#x521B;&#x5EFA;&#x6570;&#x636E;&#x8BFB;&#x53D6;&#x5668;&#xFF0C;&#x5E76;&#x8BBE;&#x7F6E;batchsize&#xFF0C;&#x8FDB;&#x7A0B;&#x6570;&#x91CF;num_workers&#x7B49;&#x53C2;&#x6570;
train_loader = paddle.io.DataLoader(train_dataset, batch_size=10, shuffle=True,num_workers=0, drop_last=True, use_shared_memory=False)

valid_loader = paddle.io.DataLoader(valid_dataset, batch_size=10, shuffle=False,num_workers=0, drop_last=False, use_shared_memory=False)

网络

YOLOV3由darknet53做骨干网络，输出3个层级的特征图。

model = YOLOv3(num_classes = NUM_CLASSES)  #&#x521B;&#x5EFA;&#x6A21;&#x578B;
learning_rate = get_lr()
opt = paddle.optimizer.Momentum(
                 learning_rate=learning_rate,
                 momentum=0.9,
                 weight_decay=paddle.regularizer.L2Decay(0.0005),
                 parameters=model.parameters())  #&#x521B;&#x5EFA;&#x4F18;&#x5316;&#x5668;
opt = paddle.optimizer.Adam(learning_rate=learning_rate, weight_decay=paddle.regularizer.L2Decay(0.0005), parameters=model.parameters())

实现训练函数

重点是get_loss的实现，目标检测的损失，首先要根据真实框计算出预测框，预测框标注了锚框与真实框的中心点和高宽的偏差，物体的类别。模型预测出的是这些偏差值，损失由这些偏差值来建立。

单尺度损失的计算步骤：目标检测YOLOv3的loss计算

虽然这里使用的是多尺度的目标检测，但损失的计算是在单层计算的基础上得到的。

############# &#x8FD9;&#x6BB5;&#x4EE3;&#x7801;&#x5728;&#x672C;&#x5730;&#x673A;&#x5668;&#x4E0A;&#x8FD0;&#x884C;&#x8BF7;&#x614E;&#x91CD;&#xFF0C;&#x5BB9;&#x6613;&#x9020;&#x6210;&#x6B7B;&#x673A;#######################
    MAX_EPOCH = 200
    for epoch in range(MAX_EPOCH):
        for i, data in enumerate(train_loader()):
            img, gt_boxes, gt_labels, img_scale = data
            gt_scores = np.ones(gt_labels.shape).astype('float32')
            gt_scores = paddle.to_tensor(gt_scores)
            img = paddle.to_tensor(img)
            gt_boxes = paddle.to_tensor(gt_boxes)
            gt_labels = paddle.to_tensor(gt_labels)
            outputs = model(img)  #&#x524D;&#x5411;&#x4F20;&#x64AD;&#xFF0C;&#x8F93;&#x51FA;[P0, P1, P2]
            loss = model.get_loss(outputs, gt_boxes, gt_labels, gtscore=gt_scores,
                                  anchors = ANCHORS,
                                  anchor_masks = ANCHOR_MASKS,
                                  ignore_thresh=IGNORE_THRESH,
                                  use_label_smooth=False)        # &#x8BA1;&#x7B97;&#x635F;&#x5931;&#x51FD;&#x6570;

            loss.backward()    # &#x53CD;&#x5411;&#x4F20;&#x64AD;&#x8BA1;&#x7B97;&#x68AF;&#x5EA6;
            opt.step()  # &#x66F4;&#x65B0;&#x53C2;&#x6570;
            opt.clear_grad()
            if i % 10 == 0:
                timestring = time.strftime("%Y-%m-%d %H:%M:%S",time.localtime(time.time()))
                print('{}[TRAIN]epoch {}, iter {}, output loss: {}'.format(timestring, epoch, i, loss.numpy()))

        # save params of model
        if (epoch % 5 == 0) or (epoch == MAX_EPOCH -1):
            paddle.save(model.state_dict(), 'yolo_epoch{}'.format(epoch))

        # &#x6BCF;&#x4E2A;epoch&#x7ED3;&#x675F;&#x4E4B;&#x540E;&#x5728;&#x9A8C;&#x8BC1;&#x96C6;&#x4E0A;&#x8FDB;&#x884C;&#x6D4B;&#x8BD5;
        model.eval()
        for i, data in enumerate(valid_loader()):
            img, gt_boxes, gt_labels, img_scale = data
            gt_scores = np.ones(gt_labels.shape).astype('float32')
            gt_scores = paddle.to_tensor(gt_scores)
            img = paddle.to_tensor(img)
            gt_boxes = paddle.to_tensor(gt_boxes)
            gt_labels = paddle.to_tensor(gt_labels)
            outputs = model(img)
            loss = model.get_loss(outputs, gt_boxes, gt_labels, gtscore=gt_scores,
                                  anchors = ANCHORS,
                                  anchor_masks = ANCHOR_MASKS,
                                  ignore_thresh=IGNORE_THRESH,
                                  use_label_smooth=False)
            if i % 1 == 0:
                timestring = time.strftime("%Y-%m-%d %H:%M:%S",time.localtime(time.time()))
                print('{}[VALID]epoch {}, iter {}, output loss: {}'.format(timestring, epoch, i, loss.numpy()))
        model.train()

部分截图如下：

5.总结

5.1数据到真实框

这部分主要是数据处理，由 标号文件和图片得到 图片数据、真实框位置、类别。

重点是图片数据要经过 增强处理，而 真实框的位置和类别 不能直接用于计算损失，要经过与锚框的偏差计算，得到的偏差才是标号，放在后面一步。

在YOLOv3中该步骤会将真实框位置处理为xywh格式的相对值[0~1]。

5.2 YOLOv3模型

各种框架下的该模型的开源实现代码网上都有，重点是要调整各层级的输出形状，要与划分锚框的网格大小要一致，这样模型的输出才能与锚框的位置相对应。

5.3损失的计算

实现由真实框和锚框计算预测框是难点之一。

首先要设定下采样率(图片划分为多少网格)，得到的锚框要与真实框做计算得到预测框，预测框的类别由真实框给出， 位置由真实框和锚框的偏差公式给出，该公式的实现比较复杂。经由网络预测得到的值与预测框做损失计算。飞桨的API： paddle.vision.ops.yolo_loss实现了上述过程，直接调用即可。

主体程序

数据增强

Original: https://blog.csdn.net/qq_55796594/article/details/123091392
Author: 午夜零时
Title: 目标检测——paddleYOLOv3

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/687958/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

dlib各个版本的下载以及安装教程和使用

dlib 库是一个用来人脸关键点检测的 python 库。dlib是一个包含机器学习算法的C++开源工具包。dlib可以帮助您创建很多复杂的机器学习方面的软件来帮助解决实际问题。 …

人工智能 2023年6月25日
0079
Jenkins一站成魔【1】传统安装与说明

Jenkins一站成魔【1】传统安装与说明Jenkins一站成魔【2】传统项目CI/CDJenkins一站成魔【3】Docker平台CI/CDJenkins一站成魔【4】K8S平台…

人工智能 2023年6月27日
0080
【PyTorch教程】07-PyTorch如何使用多块GPU训练神经网络模型

本期目录 1. 绪论 2. 导入Pytoch模块并声明参数 3. 创建虚拟数据集 4. 搭建一个简单的模型 5. 多GPU并行计算 6. 运行模型 ; 1. 绪论在本篇博文中，你…

人工智能 2023年7月26日
0072
YOLOX改进之损失函数修改（下）

文章内容：如何在YOLOX官网代码中修改– 定位损失环境：pytorch1.8 修改内容：（1）置信度预测损失更换：二元交叉熵损失替换为FocalLoss或者VariFocal…

人工智能 2023年7月9日
0058
7段均衡器最佳参数_人声录制和处理中均衡器 (EQ)频点参数详解

[摘要] 基于人声在各频率范围内的特点，详细给出了各频段对人声特性的影响，近而给出了采用均衡器的调整方法。 1 均衡器使用的必要性在节目的制作中，人声录制是最基本的一项工作。一…

人工智能 2023年5月27日
00301
STM32外部Flash移植FATFS笔记

FatFs是面向小型嵌入式系统的一种通用的FAT 文件系统。它完全是由AISI C 语言编写并且完全独立于底层的I/O 介质。因此它可以很容易地不加修改地移植到其他的处理器当中，如…

人工智能 2023年6月28日
0086
pytorch复现U-Net 及常见问题汇总（2021.11.14亲测可行）

目录 2021.11.14复现过程：训练过程常见问题整理：之前简单地写了一个pytorch的U-net 复现过程，有很多小伙伴在评论里有很多疑问，抽空又复现了一遍，简单整理了常…

人工智能 2023年6月23日
0078
BeamManagement

微信公众号同步更新欢迎关注同名modem协议笔记 NR中所有的上下行信道的发送和接收都是基于波束。基站通过对信道质量的测量来动态选择UE和基站之间波束的方向和频率，进而完成通信。N…

人工智能 2023年6月26日
0045
谈谈机器学习AI模型测试与评估方法分析

随着数字化转型与人工智能发展，AI应用软件层出不穷，人们虽然理解人工智能趋势，但是，企业往往很难接受这样AI应用软件，其中质疑点主要有：预测或识别的准确性模型相关性鲁棒性安…

人工智能 2023年6月16日
0085
下载markdown软件Obsidian（解决官网下载速度慢）

Typora要钱了，不想每次都点稍后再买。 Obsidian也很好用，官网是：https://obsidian.md/ 但是不太好下载，直接下载速度只有10kb/s左右，总共60多…

人工智能 2023年6月4日
00143
Ubuntu16.04 安装 OPENCV详细教程避坑

1.首先大家需要下载一个Opencv压缩包，选择source版本。下载官网：Releases – OpenCV 本教程内采用的opencv-4.5.4这个版本 2.如果…

人工智能 2023年5月26日
0083
线性回归原理推导及代码实现

1.线性回归概述实例：数据：工资和年龄（2个特征）目标：预测银行会贷款给我多少钱（标签）考虑：工资和年龄都会影响最终银行贷款的结果那么它们各自有多大的影响呢？（参数） X1…

人工智能 2023年6月18日
0093
【ResNet】Pytorch从零构建ResNet18

Pytorch从零构建ResNet 第一章从零构建ResNet18第二章从零构建ResNet50 文章目录 Pytorch从零构建ResNet 前言一、ResNet是什么？ …

人工智能 2023年7月29日
0046
偶数科技入选 IDC 中国分布式数据库报告，获 Innovator 殊荣

近日，全球知名咨询研究机构 IDC 发布了《中国分布式关系型数据库》研究报告，通过调研 CIO、IT 负责人、投资机构和众多厂商，评选出该领域综合表现突出的创新型厂商。偶数科技凭借…

人工智能 2023年6月28日
0071
作业3-食物图片分类

李宏毅课程作业三项目描述训练一个简单的卷积神经网络，实现食物图片的分类。数据集介绍本次使用的数据集为food-11数据集，共有11类 Bread, Dairy produc…

人工智能 2023年7月3日
0099
python数据分析的一些基础性知识（一）

1、pandas中的数据读写文本文件是由若干行字符构成的计算机文件，csv是一种用分隔符分隔的文件格式，相对简单，比较通用，是以纯文本形式存储表格数据（数字和文本），应用于程序之…

人工智能 2023年7月7日
0069

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

目标检测——paddleYOLOv3

5.1数据到真实框

5.2 YOLOv3模型

5.3损失的计算

大家都在看