解决目标检测中的小目标问题

2023年7月12日上午6:04 • 人工智能 • 阅读 95

《解决目标检测中的小目标问题》

目标检测的前身是滑窗 + 图像分类，如果想要对图像进行鲁棒的分类，首先特征要能够覆盖整幅图像，而且编码的前景信息要比噪声背景信息更加显著。这对于小目标来说比较难做到，所以小目标检测一直是目标检测中的一个难点，2015年的一篇论文 Deep Proposal 中对浅层语义特征和深层语义特征在目标检测中的作用做了分析，结论是深层语义特征能够以较高的查全率找到感兴趣的对象，浅层语义特征可以更好地定位感兴趣的对象，但召回率降低。从感受野来说，浅层语义的感受野可能存在无法覆盖整个目标的特征导致无法准确的进行分类。而理论上小目标只存在于浅层语义中，所以小目标的召回就会存在问题。本文根据自身的经验以及参考一些大神的帖子记录一下目标检测中小目标问题的解决方案。

Key Words：小目标、深层语义特征、浅层语义特征、特征融合、数据增强

Beijing, 2021.02

作者：RaySue

Code：

Agile Pioneer

相对尺度定义，根据国际组织 SPIE 的定义，小目标为在 256 × 256 256×256 2 5 6 ×2 5 6 的图像中目标面积小于 80 80 8 0 个像素，即小于 256 × 256 256×256 2 5 6 ×2 5 6 的 0.12 0.12%0 .1 2 就为小目标，此为相对尺寸的定义。
绝对尺寸定义，根据COCO数据集定义，尺寸小于 32 ∗ 32 32 * 32 3 2 ∗3 2 像素的目标即可认为是小目标。
Oversampling

一个最直接的方法是对包含小目标的图像样本进行重采样，因为小目标出现的样本还是占少数的，可以通过重采样来增加带有小目标的图像样本。

DataAugmentation

论文 Augmentation for small object detection 大致原理就是将小目标 matting 出来，然后随机的融合在背景区域，从而增加小目标出现的频数。在实际中使用的时候可以利用 泊松融合 ，先将小目标抠出来，然后可以任意的融合到不同样本的背景上。

增强规则：将目标粘贴到新位置之前，我们对其进行随机变换。目标缩放范围为 ± 20 ±20%±2 0，旋转范围为 ± 15 ° ±15°±1 5 °。复制时我们只考虑无遮挡的目标， 泊松融合 能够让融合的结果非常真实。粘贴时确保新粘贴的目标不会与任何现有的对象发生重叠，并且距离图像边界至少有 5 5 5 个像素。

特征融合

这篇是 ECCV2018 关于目标检测的文章，提出了RFB Net网络用于目标检测，可以在兼顾速度的同时达到良好的效果。该网络主要在SSD网络中引入 Receptive Field Block (RFB)，引入RFB的出发点通过模拟人类视觉的感受野加强网络的特征提取能力，在结构上RFB借鉴了Inception的思想，主要是在Inception的基础上加入了dilated卷积层（dilated convolution），从而有效增大了感受野（receptive field）。整体上因为是基于SSD网络进行改进，所以检测速度还是比较快，同时精度也有一定的保证。

利用空洞卷积来增大感受野即在参数量不变的情况下，使得 feature map 获得更多的上下文信息
借鉴 Inception 思想
最后利用 1×1 Conv 减少了 feature map 的通道数，做通道上的信息融合

不同阶段的特征图对应的感受野不同，它们表达的信息抽象程度也不一样。浅层的特征图感受野小，比较适合检测小目标（要检测大目标，则其只”看”到了大目标的一部分，有效信息不够）；深层的特征图感受野大，适合检测大目标（要检测小目标，则其”看”到了太多的背景噪音，冗余噪音太多）。所以，有人就提出了将不同阶段的特征图，都融合起来，来提升目标检测的性能，这就是特征金字塔网络 FPN(Feature Pyramid Networks for Object Detection[3])。

FPN 多加了一条从 深层语义 到 浅层语音 进行特征融合的路径，让浅层语义特征和深层语义特征进行融合，从而更好的对目标进行分类和回归。

小目标检测存在两个问题：

通过这一观察，作者就提出了一种新的邻域擦除和传输(NET)机制来重新配置金字塔特征和探索尺度感知特征。在NET中，设计了一个邻域擦除模块(NEM)，用于擦除大目标的显著特征，并强调浅层小目标的特征。引入了一个邻域传输模块(NTM)来传输被擦除的特征，并在深层突出显示大目标。利用这种机制，构建了一个名为 NETNet 的 Single-shot 网络，用于感知尺度的对象检测。

&#x90BB;&#x57DF;&#x64E6;&#x9664;&#x6A21;&#x5757;&#xFF08;NEM&#xFF09;&#x7684;&#x6B65;&#x9AA4;&#xFF1A;

1. &#x6D45;&#x5C42;&#x8BED;&#x4E49;&#x65E2;&#x6709;&#x5C0F;&#x76EE;&#x6807;&#x7279;&#x5F81;&#x53C8;&#x6709;&#x5927;&#x76EE;&#x6807;&#x7279;&#x5F81;&#xFF0C;&#x800C;&#x6DF1;&#x5C42;&#x8BED;&#x4E49;&#x53EA;&#x5305;&#x542B;&#x5927;&#x76EE;&#x6807;&#x7684;&#x7279;&#x5F81;

2. &#x5C06;&#x6DF1;&#x5C42;&#x8BED;&#x4E49;&#x4E0A;&#x91C7;&#x6837;&#x5230;&#x548C;&#x6D45;&#x5C42;&#x8BED;&#x4E49;&#x7279;&#x5F81;&#x4E00;&#x6837;&#x7684;&#x5927;&#x5C0F;&#xFF08;&#x53EA;&#x5305;&#x542B;&#x5927;&#x76EE;&#x6807;&#x7684;&#x7279;&#x5F81;&#xFF09;

3. &#x5C06;&#x4E0A;&#x91C7;&#x6837;&#x7684;&#x6DF1;&#x5C42;&#x8BED;&#x4E49;&#x7279;&#x5F81;&#x7ED3;&#x679C;&#x51CF;&#x53BB;&#x6D45;&#x5C42;&#x8BED;&#x4E49;&#x7279;&#x5F81;&#x7684;&#x7ED3;&#x679C;&#xFF0C;&#x8FD9;&#x6837;&#x5C0F;&#x76EE;&#x6807;&#x5C31;&#x66F4;&#x52A0;&#x660E;&#x663E;&#x4E86;

&#x90BB;&#x57DF;&#x4F20;&#x8F93;&#x6A21;&#x5757;(NTM)&#x7684;&#x6B65;&#x9AA4;&#xFF1A;

1. &#x5C06; NEM &#x5F97;&#x5230;&#x7684;&#x7279;&#x5F81;&#x8FDB;&#x884C;&#x4E0B;&#x91C7;&#x6837;&#x5F97;&#x5230;&#x7279;&#x5F81; f

2. &#x5C06; f &#x5229;&#x7528; 1x1 Conv &#x8FDB;&#x884C;&#x7279;&#x5F81;&#x63D0;&#x53D6;

3. &#x518D;&#x548C;&#x4E0A;&#x9762;&#x63D0;&#x5230;&#x7684;&#x6DF1;&#x5C42;&#x8BED;&#x4E49;&#x7279;&#x5F81;&#x505A; element wise sum

SSH 模块

SSH中的上下文模块也是特征融合的的一种。上下文网络模块的作用是用于增大感受野，SSH通过单层卷积层的方法对上下文（context）信息进行了合并，其结构图如下图所示：

通过2个3×3的卷积层和3个3×3的卷积层并联，从而增大了卷积层的感受野，并作为各检测模块的目标尺寸。
通过该方法构造的上下文的检测模块比候选框生成的方法具有更少的参数量，并且上下文模块可以在 WIDER FACE 数据集上的AP提升0.5个百分点。

小目标，特别是像人脸这样的目标，不会单独地出现在图片中（想想单独一个脸出现在图片中，而没有头、肩膀和身体也是很恐怖的）。像PyramidBox方法，加上一些头、肩膀这样的上下文Context信息，那么目标就相当于变大了一些，上下文信息加上检测也就更容易了。利用小目标周围的信息来加强小目标的召回。

超分也是做小目标的一个思路，利用GAN网络对小目标的细节进行重建，然后得到更为丰富的特征是利于目标检测的。

比如小目标比较多，那么这种场景可以使用关键点估计的算法来解决。即对每个小目标标注一个点，然后以这个点为中心做一个高斯分布，类似于 CenterNet，然后用MSE loss来训练就可以。

Original: https://blog.csdn.net/racesu/article/details/113945170
Author: Mr.RottenPeach
Title: 解决目标检测中的小目标问题

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/687078/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python – sklearn 计算准确率

因为最近写的分类模型需要性能评价，常用的分类性能评价有准确率、查准率、召回率、F1 分类问题的常用的包 sklearn ，下面对准确率所用的方法进行介绍前提知识对于我们的二…

人工智能 2023年7月5日
0087
ROS简介（新手入门须知）

一、背景随着机器人领域的快速发展和复杂化，代码的复用性和模块化的需求原来越强烈，而已有的开源机器人系统又不能很好的适应需求。2010年Willow Garage公司发布了开源机…

人工智能 2023年7月26日
00160
上传项目代码到Github|Gitee

上传项目代码到Github|Gitee 文章目录上传项目代码到Github|Gitee * 1、前置准备 – 1.1 Git 安装 1.2 在 Git 中设置用户名 …

人工智能 2023年7月30日
0085
广义线性模型（Generalized Linear Model）之三：Poisson回归

广义线性模型（Generalized Linear Model）之三：Poisson回归一、泊松回归（Poisson regression）简介 * （一）泊松回归（二）计数数…

人工智能 2023年6月16日
0055
【Java刷题进阶】基础入门篇⑧

📩很多朋友都问我学完基础知识以后怎样提高编程水平？当然是刷题啦！很多小伙伴都在纠结从哪里开始，今天给大家推荐一个身边朋友都在使用的刷题网站：点击进入牛客网刷题吧！各大互联网大厂…

人工智能 2023年5月30日
0089
ConvNet—20年代的卷积神经网络

A ConvNet for the 2020s 摘要 1. 引言 2. ConvNet 现代化：路线图 * 2.1 训练技巧 2.2 宏观设计 2.3 ResNeXt-ify 2….

人工智能 2023年6月24日
0082
pytorch 实现逻辑回归

目录 1. 导入库 2. 定义数据集 2.1 生成数据 2.2 设置label 3. 搭建网络+优化器 4. 训练 5. 绘制决策边界 6. 代码导入库机器学习的任务分为两大类…

人工智能 2023年6月15日
0099
【机器学习】9种回归算法及实例总结，建议学习收藏

我相信很多人跟我一样，学习机器学习和数据科学的第一个算法是线性回归，它简单易懂。由于其功能有限，它不太可能成为工作中的最佳选择。大多数情况下，线性回归被用作基线模型来评估和比较研究…

人工智能 2023年6月13日
00100
TensorFlow的自动微分功能是什么，并如何使用

介绍 TensorFlow是一个开源机器学习框架，内置了自动微分（automatic differentiation）功能。自动微分是指通过计算图的前向和反向传播过程，自动计算函数…

人工智能 2023年12月30日
0036
Affinity Mattrix 亲和矩阵总结

*什么是Affinity Matrix? An Affinity Matrix, also called a Similarity Matrix, is an essential …

人工智能 2023年7月17日
0098
张量的降维操作如何实现

问题描述在张量计算中，降维操作是指将高维张量转换为低维张量的过程。给定一个张量，如何实现降维操作？详细介绍降维操作是张量分析中常见的数据处理技术之一。在实际应用中，我们经常遇…

人工智能 2024年1月1日
0029
论文理解【图像处理

《CycleISP: Real Image Restoration via Improved Data Synthesis》论文地址：https://ieeexplore.ieee…

人工智能 2023年6月22日
0070
运行stable diffusion

1、stable diffusion git下载代码 https://github.com/CompVis/stable-diffusion 安装环境ldm 2、下载模型从网站中…

人工智能 2023年7月30日
0058
[ML]（回归和分类）

文章目录误差从哪来？ * Error的来源估测 – 估测变量x的偏差和方差为什么会有很多的模型? 怎么判断？ – 偏差大-欠拟合方差大-过拟合模型…

人工智能 2023年6月17日
00102
pytorch中的所有随机数（normal、rand、randn、randint、randperm) 以及随机数种子(seed、manual_seed、initial_seed)

torch的所有随机数官方已经整理在torch — PyTorch 1.10.0 documentation这个页面了，我又重新整理到了本blog中，用中文进行了部分解释，方便理解…

人工智能 2023年6月24日
0093
Python绘制时序图，ACF和PACF图

在时序分析众多模型中，最为基础也是最为重要的有AR§模型，MA(q)模型，以及两者的结合ARMA(p,q)模型，同时考虑ARMA模型的平稳性，若有一个或多个根落于单位圆上，则此时的…

人工智能 2023年7月15日
0090

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

解决目标检测中的小目标问题

大家都在看