DL目标检测

2023年7月10日下午3:19 • 人工智能 • 阅读 82

目标检测

YOLO系列
*
PANet
spp
2.cspnet
focus
yolov5网络结构
yolo Loss
yolov8
nms相关
*
nms
soft nms
nms的IOU
centerNet
FCOS
*
锚点的分类分支与回归分支
center-ness分支
目标检测的loss
*
focal loss

YOLO系列

PANet

Path-Aggregation Net，如下图所示，(a)蓝色部分是fpn，网络正常下采样后，又有一次上采样，然后进行特征融合。PANet认为fpn中比较大的特征图，左边的特征深度和右边的差距太大，特征不够精细，不易融合，因此又添加了一个下采样的过程(b)，再进行融合一次。

; spp

yolov3以后使用列spp网络，使用后mAP有了好几个百分点的提升，在加了SPP模块之后的YOLOv3为何有这么大的提升？

1 可能会有全连接层，这就要求输入尺寸固定，但是resize会导致图片信息丢失
2 使用全局最大池化代替全连接
3 使用spp后，无论输入为任何尺寸图片，都可以转为固定维度的向量，然后再全连接
如下图所示，降输入分成三个分支，分别分成N块进行全局最大池化，然后将池化后的值进行concat，如下图可以得到21×256的固定长度向量

实现的配置代码如下，几个池化层的stride都是1，都没有改变尺寸：


[maxpool]
stride=1
size=5

[route]
layers=-2

[maxpool]
stride=1
size=9

[route]
layers=-4

[maxpool]
stride=1
size=13

[route]
layers=-1,-3,-5,-6

2.cspnet

CSPNet（Cross Stage Partial Network）就是从网络结构设计的角度来解决以往工作在推理过程中需要很大计算量的问题。
作者认为推理计算过高的问题是由于网络优化中的梯度信息重复导致的。 大量的梯度信息被重复用来更新不同dense block的权重。这将导致不同dense block反复学习相同的梯度信息。
CSPNet通过将梯度的变化从头到尾地集成到特征图中，在减少了计算量的同时可以保证准确率。CSPNet是一种处理的思想，可以和ResNet、ResNeXt和DenseNet结合。个人觉得是加强版的resnet

下面是实现的cfg文件可视化图，可视化的内容是cspesnet50中的一个基本模块:

; focus

yolov5输入有一个fucos操作，其实就是一次下采样的过程，不同于粗暴的下采样，他是将原始图片按照像素排布间隔抽取，并组成四张新的图片，并将新图片进行concat。好处是完成了下采样降低了计算量，并且比粗暴的下采样效果好。

yolov5网络结构

anchor与GT匹配机制，需了解
yolov4和5是用的cspdarknet，darknet类似于残差网络，darknet的残差块与csp结合后，就是下图的CSP1_x和CSP2_x模块，就是加了一个路径更长的残差，理解了这个cspDarknet就比较容易看懂了。

结合代码来分析下，yolov5源码model下面有各个模型（x l m s）的配置文件，不同模型的大小是通过控制cspBottleneck内卷积块的重复次数（depth）和通道数量来控制的，因此这几个模型唯一不同的就是这两个缩放因子


nc: 80
depth_multiple: 0.33
width_multiple: 0.50

anchors:
  - [10,13, 16,30, 33,23]
  - [30,61, 62,45, 59,119]
  - [116,90, 156,198, 373,326]

backbone:

  [[-1, 1, Focus, [64, 3]],
   [-1, 1, Conv, [128, 3, 2]],
   [-1, 3, BottleneckCSP, [128]],
   [-1, 1, Conv, [256, 3, 2]],
   [-1, 9, BottleneckCSP, [256]],
   [-1, 1, Conv, [512, 3, 2]],
   [-1, 9, BottleneckCSP, [512]],
   [-1, 1, Conv, [1024, 3, 2]],
   [-1, 1, SPP, [1024, [5, 9, 13]]],
   [-1, 3, BottleneckCSP, [1024, False]],
  ]

head:
  [[-1, 1, Conv, [512, 1, 1]],
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 6], 1, Concat, [1]],
   [-1, 3, BottleneckCSP, [512, False]],

   [-1, 1, Conv, [256, 1, 1]],
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 4], 1, Concat, [1]],
   [-1, 3, BottleneckCSP, [256, False]],

   [-1, 1, Conv, [256, 3, 2]],
   [[-1, 14], 1, Concat, [1]],
   [-1, 3, BottleneckCSP, [512, False]],

   [-1, 1, Conv, [512, 3, 2]],
   [[-1, 10], 1, Concat, [1]],
   [-1, 3, BottleneckCSP, [1024, False]],

   [[17, 20, 23], 1, Detect, [nc, anchors]],
  ]

yolo Loss

DOU loss
比较传统的bbox损失，如ssd或yolo早期版本使用L1或L2损失，或者两者结合的smooth L1 Loss。yolov4开始使用IOU loss衡量预测框和GT框的差距。L = 1 – IOU
IOU的一个问题是当两个框没有重合区域时，IOU永远是0，因此无法衡量两个框离得到底多远多近，这样也没有梯度。因此提出了改进的DIOU，yolov5的边框损失是L = 1- DIOU

其中，b , bgt分别代表了预测框和真实框的中心点，且 ρ 代表的是计算两个中心点间的欧式距离。c 代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离。

yolov3 loss
bbox使用L2，是否是目标使用BCE（仅计算有目标的anchor），类别使用L2
DL目标检测

objectness score的损失BCEWithLogitsLoss
class probability score的损失BCEWithLogitsLoss
bounding box的损失1-CIOU

参考博客：yolov5学习总结

; yolov8

还没时间仔细研究，运行yolov8代码，是两种方式，一种是用它线程的库（不推荐，无法改代码），另一种是运行代码，但是要在test或train文件加上以下三行

nms相关

nms

NMS算法的大致思想：对于有重叠的候选框：若大于规定阈值（某一提前设定的置信度）则删除，低于阈值的保留。对于无重叠的候选框：都保留。
所谓非极大值抑制：先假设有6个输出的矩形框(即proposal_clip_box)，根据分类器类别分类概率做排序，从小到大分别属于车辆的概率(scores)分别为A、B、C、D、E、F。
(1)从最大概率矩形框F开始，分别判断A~E与F的重叠度IOU是否大于某个设定的阈值;
(2)假设B、D与F的重叠度超过阈值，那么就扔掉B、D；并标记第一个矩形框F，是我们保留下来的。
(3)从剩下的矩形框A、C、E中，选择概率最大的E，然后判断E与A、C的重叠度，重叠度大于一定的阈值，那么就扔掉；并标记E是我们保留下来的第二个矩形框。
就这样一直重复，找到所有被保留下来的矩形框。

; soft nms

普通的nms有两个问题，一方面有很多重合度较高的两个框，实际上确实是两个目标，却错误的被删除了，另一方面，由于情况的复杂性，阈值不好设定。
soft NMS思路：不要粗鲁地删除所有IOU大于阈值的框，而是降低其置信度。
算法的大致思路为：M为当前得分最高框，bi 为待处理框，bi 和M的IOU越大，bi 的得分si 就下降的越厉害。下降的方式包括线性衰减和高斯衰减。
普通的nms：

线性衰减的soft nms：

高斯加权：

nms的IOU

普通的IOU是计算交并比，上文讲了DIOU（考虑非重合情况下的距离，回归时使用），此外还有CIOU，在DIOU基础上，进一步考虑了框的长宽比的相似性。yolov4使用了CIOU loss

; centerNet

anchor free检测算法，Objects as Points 2019CVPR，和openpose原理有点相似，都是利用关键点检测，来实现目标检测。损失函数分为三个部分，中心点/目标尺寸/偏置，论文中所使用的backbone都有三个head layer，分别产生[1,80,128,128]、[1,2,128,128]、[1,2,128,128]，也就是每个坐标点产生C+4个数据（即关键点类别C, 中心偏移量的x,y，尺寸的w,h）
中心偏移使用L1 loss，尺寸回归使用L2 loss，热图类别损失（有C个heat map，相当于多个二分类）使用facol loss

anchor三个缺点
1.正负样本不均衡，背景多，大量简单负样本
2.超参难调，anchor数量尺寸比例等
3.匹配耗时严重，每个anchor要与所有的gt进行iiu匹配
centernet没有anchor，直接预测中心点位置，不存在匹配，以及正负样本筛选
每个目标仅选择一个中心点作为正阳本，在关键点热图上选择一个峰值，没有nms
专注关键点检测，可以使用更大的特征图，下采样为4，无需大小不同的特征图，不用fpn什么的，只在一个特征图上回归就行
改进点：
1、高斯核，线性核，代码GT部分，实际没有所谓的核，只有目标中心点被标1，其他零
2、上面说，回归C+4个数据，实际上不同的类别是公用位置信息的，可以增加通道数，不同类别分别回归，C+C*4

FCOS

FCOS是anchor free的思想，方法是将原有的对锚框进行分类与回归，变为了对锚点进行分类与回归，其中回归是预测锚点到检测框上下左右四条边界的距离

相比centerNet在一个特征图上回归，fcos在五个特征图上回归，它没有预设anchor，怎么分配大小目标呢？

空间限制：将位于物体真实标注框中的锚点作为候选正样本；
尺度限制：FCOS为每个检测层人为设置了一个尺度范围，P3~P7检测层对应的尺度范围分别是(0, 64)、(64,128)、(128, 256)、(256, 512)、(512, +∞)，锚点回归目标（锚点到边框四条边界的距离）的最大值如果在这个范围内则是最终的正样本。这样可以使得各检测层上关联的锚点用于不同尺度物体的检测。（基本上还是小目标在浅层，大目标在深且小的层）

; 锚点的分类分支与回归分支

锚点的分类采用了多分类Focal Loss作为损失函数，锚点的回归采用了SmoothL1作为损失函数
锚点的回归目标值计算公式如下图所示，其中l t r b是锚点距离物体真实标注框左、上、右、下边界的距离，值得注意的是这些距离都通过锚点关联的检测层的下采样倍数S进行了归一化，使得不同尺度的物体，回归目标值都在一定范围内

center-ness分支

回归一个值，目标中心偏离锚点的值，如果目标中心正好落在锚点，这个值就是0，极端情况，如果锚点处在目标边界上，这个值就是1

训练的时候，使用BCE loss回归训练这个值。预测的时候，这个值会乘以目标的分类置信度，因此目的是当目标中心落在锚点上的时候，预测就越准确，反之回归的就不准确，对于不准确的，添加上一个惩罚项，后续nms可能就会被滤掉，提升检测效果。

; 目标检测的loss

focal loss

解决目标检测中的正负样本不均衡以及较多容易样本影响loss的问题

alfa是不同类别权重，gamma是难负样本参数
既然有了出发点，那么就要找one-stage detector的准确率不如two-stage detector的原因，作者认为原因是：样本的类别不均衡导致的。我们知道在object detection领域，一张图像可能生成成千上万的candidate locations，但是其中只有很少一部分是包含object的，这就带来了类别不均衡。那么类别不均衡会带来什么后果呢？引用原文讲的两个后果：
(1) training is inefficient as most locations are easy negatives that contribute no useful learning signal;
(2) en masse, the easy negatives can overwhelm training and lead to degenerate models.

什么意思呢？负样本数量太大，占总的loss的大部分，而且多是容易分类的，因此使得模型的优化方向并不是我们所希望的那样。其实先前也有一些算法来处理类别不均衡的问题，比如OHEM（online hard example mining），OHEM的主要思想可以用原文的一句话概括：In OHEM each example is scored by its loss, non-maximum suppression (nms) is then applied, and a minibatch is constructed with the highest-loss examples。OHEM算法虽然增加了错分类样本的权重， 但是OHEM算法忽略了容易分类的样本。

Original: https://blog.csdn.net/henyaoyuancc/article/details/121771233
Author: henyaoyuancc
Title: DL目标检测

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/683051/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Hackthebox Shared 利用cookie进行sql注入，Redis沙盒逃逸漏洞提权

题目地址： https://app.hackthebox.com/machines/Shared 枚举使用nmap枚举靶机 nmap -sC -sV 10.10.11.172 机…

人工智能 2023年6月29日
0092
你给文字描述，AI艺术作画，精美无比！附源码，快来试试！

💡 作者：韩信子@ShowMeAI📘 深度学习实战系列：https://www.showmeai.tech/tutorials/42📘 TensorFlow 实战系列：https:…

人工智能 2023年6月16日
0073
YOLOV5：数据集制作【照着做你也能训练自己的神经网络】

YOLOV5：数据集制作总体流程：labellmg标记（.xml）-> split.py （生成四个集的txt）-> txt2yolo.py -> 各个图像的t…

人工智能 2023年7月13日
0063
安装pytorch深度学习环境（GPU版）和pycharm

1.安装或更新显卡驱动根据自己的电脑的配置和需求，安装或更新显卡驱动，nvidia显卡驱动下载地址：官方驱动 | NVIDIA 下载可能比较慢，有梯子的话会好些。下载完成后安装e…

人工智能 2023年7月21日
0064
TPH-YOLOv5简述

引言无人机捕获场景下的目标检测技术已广泛应用于植物保护、野生动物保护和城市监测等实际应用中，在无人机捕获的图像上的目标检测性能，并为上述众多的应用提供洞察力。本文专注于在无人机上…

人工智能 2023年5月28日
0061
电影知识图谱和基于模板的问答系统构建

目录前言一.知识图谱的构建二.问答系统的构建 1.数据准备 1.1数据获取 1.2数据处理 1.3数据读入 1.4代码 2.问答系统设计 2.1整体流程 2.2实体识别和问题…

人工智能 2023年6月5日
00121
手把手带你Yolov5 (v6.1)添加注意力机制(二)（在C3模块中加入注意力机制）

🌟想了解更多YOLO系列算法更多进阶教程欢迎订阅我的专栏🌟 基础不好的同学可以试试看一下我的《目标检测蓝皮书》🚀 ，里面包含超多目标检测实用知识，想速通目标检测，看这本就对了！ …

人工智能 2023年5月31日
00105
影响因素分析论文用什么模型好?

如果赶时间可直接看小结部分，再返回看正文。在此，以【解决影响煤炭价格的主要因素】为例，对影响因素分析可采用的模型进行简单介绍。本文语言会尽量简单，在便于理解的同时，不可避免的会失去…

人工智能 2023年6月16日
0091
Deformable DETR源码解读

文章目录一：网络创新点二：流程详解【part 1】deformable_detr模块 * 【part 2】deformable_transformer模块 – +…

人工智能 2023年6月16日
0091
NVIDIA-VPI(Vision Programming Interface)

Vision Programming Interface(VPI)是英伟达高性能计算机视觉计算机视觉计算机视觉/图像处理算法库。VPI这个新库, 能自动利用CPU, 能利用GPU,…

人工智能 2023年6月20日
00204
聚类生成anchor框的尺寸和比例

前言： anchor是锚的意思，就是固定船的大铁块儿。在目标检测中，anchor box意为预设固定尺寸的参考框。目标检测要解决的问题是图像中哪个位置有什么样的物体，传统算法的解决…

人工智能 2023年5月31日
0087
数据分析师的必备能力—样本数据异常值识别的4种经典方法

对于从事数据分析岗位的小伙伴，日常工作中可能会接触到很多类型的维度数据，而在开展任务的具体实践过程中，需要我们只有具备较好的数据分析能力，才能根据实际业务需求得到有价值的分析结果。…

人工智能 2023年5月31日
0092
多尺度特征提取模块 Multi-Scale Module及代码

即插即用的多尺度特征提取模块及代码小结 Inception Module[2014] SPP[2014] PPM[2017] ASPP[2017] DCN[2017、2018] R…

人工智能 2023年6月16日
0089
（保姆教程)Spyder 配置Tensorflow(2.5.0)和keras(2.4.3)

（保姆教程)Spyder 配置Tensorflow(2.5.0)和keras(2.4.3) 前言其实安装Tensorflow和keras的过程不难，但是寻找匹配的版本，以及使得S…

人工智能 2023年5月23日
0072
torch.nn.Parameter()函数的讲解和使用

在学习SSD网络的时候发现源码里使用 nn.Parameter()这个函数，故对其进行了解。 1.1 语法 torch.nn.parameter.Parameter(data=No…

人工智能 2023年7月20日
0066
Google Earth Engine——250米处美国农业部土壤分类的预测数据集

Predicted USDA soil great group probablities at 250m Distribution of the USDA soil great g…

人工智能 2023年7月3日
00119

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31