基于深度学习的复杂背景下目标检测研究—论文解读

2023年7月10日下午12:51 • 人工智能 • 阅读 73

创新点

论文主要针对模型训练中出现的正负样本不均衡问题，根据困难样本挖掘原理，在原有的损失函数中引入 调制因子，将背景部分视为简单样本， 减小背景损失在置信损失中的占比，使得模型收敛更快速，模型训练更充分，从而提高了复杂背景下的目标检测精度。同时，通过构建 特征金字塔和融合多层特征图的方式，实现对低层特征图的语义信息融合增强，以提高对小目标检测的精度，从而提高整体的检测精度。

实现方法

本文检测模型以传统的基础网络 VGG16 为基础，并添加深层卷积网络而构成。前部分浅层网络采用卷积神经网络提取图像特征，包括输入层、卷积层和下采样层。后部分深层网络用卷积层代替原始的全连接层。卷积层尺寸逐层递减，分类和定位回归在多尺度特征图上完成。

2.1 引入调制因子的损失函数

损失函数用来计算模型预测值与真实值的不一致程度。对样本集合（x,y），本文采用了 多任务损失函数（Multi-Task Loss Function），可以在损失函数中完成置信度判别和位置回归，两者加权求和，得到最终的损失函数。

图1 损失函数表达式

为解决正负样本不平衡问题，本文首先将所有的待训练先验框进行排序，按照置信度得分情况从大到小排列，取前四分之一为正样本，其余为负样本，以减少负样本比重。同时，在原损失函数中引入调制因子，增加困难样本对参数的贡献值。

; 2.2 多层特征融合结构

SSD 网络分别在conv4_3 至conv11 的6 层特征图上进行分类回归，即使用conv4_3，conv7，conv8_2，conv9_2，conv10_2 和conv11_2 这6 层特征图进行检测，比较大的特征图来用来检测相对较小的目标，而小的特征图负责检测大目标。
针对SSD 仅利用少量浅层特征图来检测目标，缺少足够的语义信息所导致的小目标检测精度低的问题，本文提取并融合浅层特征图，加强浅层特征图的语义信息，即选取conv4_3 到conv7 之间的特征图进行特征融合，多层特征融合结构图如图2 所示。

图2 多层特征融合结构

实验结果分析

本文采用 PASCAL VOC 数据集（VOC2007 和VOC2012） 进行训练和测试，该数据集组成为：目标真值区域，类别标签，包含目标的图像，标注像素类别和标注像素所属的物体。本文采用随机梯度下降法进行模型优化，输入图片大小为300 × 300 300\times 300 3 0 0 ×3 0 0，设定初始学习速率为0.001，权值衰减为0.0005，动量为0.9; 卷积核大小为3×3，IOU 设置为0.5。表1 给出了Fast R-CNN、Faster R-CNN、YOLO、YOLO v3、SSD300、DSSD321 和本文算法的目标检测精度。

表1 不同检测算法结果对比

其在检测精度方面较Fast R-CNN、Faster R-CNN、YOLO、YOLOv3 和SSD300 有优势，但是对比基础网络为ResNet-101 的DSSD 算法来说，精度稍有下降。主要原因是，VGGNet 网络较浅，而ResNet-101 是非常深的网络，网络越深，目标特征就能够更好的被提取出来，因此检测精度就越高。但是本文算法预测框数量更少，算法复杂度更低。

图3 各类别检测结果对比

图3给出了不同算法在20 个种类的测试集上的目标检测结果。从实验结果可以看出，本文算法对于bicycle、bus、car、cat、dog、horse、motorbike、train这8 类目标检测效果较好，都已达到了85% 以上。
综合上述表1 和图3 可以看出，本文算法在多数类别上的检测精度均能获得较好表现，尤其是对于bicycle、bus、car、person 等复杂背景下的目标，相比于SSD 网络提升较为明显，mAP 分别提高了5.4%、7.3%、3.5%、4%。但相比DSSD 网络在bird、bottle、cow、table、sofa、TV 这些类别，检测精度稍有下降，可能原因是基础网络的不同而导致的特征提取信息不足。
为验证本文算法对不同大小目标的检测精度，实验中随机选取了100 张图片，其中包含198 个目标，将其分为大、中、小三类。由于该网络的输入图像尺寸为300×300，因此，将图像中的检测目标按照其面积占图像总面积的比例分为三类：目标面积占图像总面积5% 以下的认为是小目标，目标面积占图像面积5% 至25% 的是中等目标，目标面积占图像总面积20% 以上的是大目标。表2 给出了SSD 算法和本文算法的检测结果（其中，A 方法为SSD 算法，B 方法为本文算法。

表2 随机检测结果对比

由上表可知，本文算法对不同尺寸的目标检测精度均有不同程度的提高，尤其是对于小目标的检测率由原来的47.1% 增加到58.3%。

Original: https://blog.csdn.net/oijdkd/article/details/120467009
Author: 寂静之地
Title: 基于深度学习的复杂背景下目标检测研究—论文解读

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/682821/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

对公知识图谱-资金流向风险图谱

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月1日
0069
从0开始学视觉（2）——用Anaconda安装Pytorch环境和opencv

目录一、创建Pytorch环境 1.创建虚拟环境 2.安装对应版本的pytorch 二、安装opencv 一、创建Pytorch环境 1.创建虚拟环境创建虚拟环境condacr…

人工智能 2023年7月19日
0074
安装CUDA ToolKit 11.4和cuDNN 8

注意！如果你使用的是pytorch，只需要装好CUDA，不需要装cuDNN。而且完全可以等到报错了再装CUDA，一般情况系统都已经装好CUDA Toolkit了。除非你只装了低版本…

人工智能 2023年5月23日
00117
python数据分析apply(),map(),applymap()用法归纳

在python的数据分析中，使用apply(),map(),applymap()，可以方便地实现对批量数据的自定义操作。其用法归纳如下。文章目录作用简介 apply()方法 m…

人工智能 2023年7月9日
0075
分割与attention

1.s elf-attention Ian goodfellow 2018年新作，在GAN生成中加入了attention的机制，同时将SNgan的思想引入到生成器当中。 2. C…

人工智能 2023年5月28日
00107
在ubuntu18.04上安装以及运行Faster-lio

Faster_lio是今年高博在fast_lio上改进的开源SLAM，使得SLAM的效率更高，代码地址为：Faster—LIO；高博的介绍为：Faster-LIO：快速激光IMU里…

人工智能 2023年6月2日
00103
TransE，知识图谱嵌入（KGE）论文精读

TransE 写作目的：在学习论文时，参考查阅许多博客，我认为大多在照搬原文翻译中的话，另外，按此顺序的写作手法，对于我或其他读者仍旧晦涩难懂，甚至这些博客中出现很多错误的理解，…

人工智能 2023年6月1日
0096
人脑部神经网络分布特点,人脑部神经网络分布图

人的大脑的怎么分配的大脑(Brain)包括左、右两个半球及连接两个半球的中间部分，即第三脑室前端的终板。大脑半球被覆灰质，称大脑皮质，其深方为白质，称为髓质。髓质内的灰质核团为基…

人工智能 2023年7月13日
0092
TensorFlow2.8.0代码分析之例子wav_to_spectrogramwav_to_spectrogram之WavToSpectrogram函数

// Runs a TensorFlow graph to convert an audio file into a visualization. tensorflow::Stat…

人工智能 2023年5月25日
0060
朴素贝叶斯实现垃圾邮件分类

1.贝叶斯的基本思想：已知公式： p（y|x）=p（x|y）*p（y）/p（x）可以将x看做特征向量，y为结果，那么p（y|x）就是在x特征出现的情况下，结果为y的概率。在机…

人工智能 2023年6月25日
0081
中文语音识别数据集总结

目录 OpenSLR国内镜像 1.Free ST Chinese Mandarin Corpus 2.Primewords Chinese Corpus Set 1 3.爱数智慧中…

人工智能 2023年6月24日
00100
乘风破浪的Seq2Seq模型：在事件抽取上的应用

©PaperWeekly 原创 · 作者 |王增志单位 |南京理工大学硕士生研究方向 | 情感分析与观点挖掘引言 2020 年自然语言处理方向出现了很多令人印象深刻的工作, …

人工智能 2023年5月28日
0075
因子分析后如何进行聚类分析？

一、案例说明 1.案例背景研究短视频平台用户行为的分类情况，调查搜集了200份数据其中20项可分为品牌活动，品牌代言人，社会责任感，品牌赞助和购买意愿品牌五个维度。案例数据中还包…

人工智能 2023年7月15日
0089
Yaml详解

目录 1. Yaml格式简介 1.1 Python搭建Yaml环境 2. Yaml基本语法 2.1 基本规则 2.2 yaml转字典 2.3 yaml转列表 2.4 复合结构 2….

人工智能 2023年7月5日
0072
【模式识别】SVM实现人脸表情分类

import os import numpy as np import cv2 import matplotlib.pyplot as plt import seaborn fro…

人工智能 2023年7月1日
0098
耗时2天，我自制了一台体感游戏机

大家好，欢迎来到 Crossin的编程教室~ 几天不见，Crossin 又去做什么游戏去了呢？这次我做的不是游戏，而是游戏机！而且是体感游戏机。但往前几年，其实还有另一个非常火的…

人工智能 2023年6月4日
00102

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

基于深度学习的复杂背景下目标检测研究—论文解读

2.1 引入调制因子的损失函数

; 2.2 多层特征融合结构

大家都在看