【学习-目标检测】目标检测之—FPN+Cascade+Libra

2023年7月11日下午10:12 • 人工智能 • 阅读 58

文章目录

FPN-多尺度
*
FPN整体结构
FPN的RoI Align
Cascade-合理阈值
Libra-融合+采样、loss平衡
*
问题：
解决方法
–

FPN-多尺度

FPN相比faster RCNN,在特征提取和训练的过程中考虑到 多尺度的问题，使用 不同尺度上的特征并进行充分融合，得到最终 多个层级的预测结果。
从上图中可以看到，在图像进入backbone进行特征提取后，分别在C2\C3\C4\C5四个尺度上继续1×1特征提取和组合，最终进行四个尺度的预测输出。其中在每一个环节中的输出有1*1conv进行通道调整和上采样进行特征融合。

; FPN整体结构

从上图的结果可以看到：

backbone提取特征通过FPN得到 四个维度的输出（特征图）
RPN在FPN输出特征基础上生成anchor并进行采样
ROI Align将ROI 生成区域分配到对应特征层并进行降维和训练，得到最终预测结果。

FPN的RoI Align

分配方法：多个roi进行面积计算（不同层的feature size不同），根据面积大小来区别是来自第几层的roi，分配到对应尺度的特征层进行roi align。

; Cascade-合理阈值

Cascade网络针对faster rcnn筛选正负样本的 阈值IoU进行了分析，发现使用 合理的阈值对于训练中的RoI非常关键，而faster rcnn仅使用0.7、0.3和0.5作为正负样本阈值选择是不合适的。

通过上图进行实验结果对比分析可知：

单一阈值训练出的结果非常有限
使用合理的阈值（RoI自身的IoU和训练器一致时性能最优）可以有效增加训练结果

所以，下一步的思路是 增加多个header从而让训练器使用不同的阈值得到预测结果。

Cascade rcnn使用三种不同结构的网络结构，有：

串联分开参数训练
串联共享参数巡训练
并联公用roi分开参数的结构

最终的结果是，使用Cascade级联的结构可以获得最好结果。
Cascade RCNN使用 三个header分开参数，使用 不同的IoU训练器，每层使用上一层学习的RoI进行训练，最终回归分支结果作为最终回归结果，而 三个分类结果平均作为最终分类结果。

Libra-融合+采样、loss平衡

问题：

不同尺度特征层如何有效利用？
采样不平衡
损失函数不合理

解决方法

不同尺度特征层如何有效利用

针对不同尺度特征问题，先进行 上采样或者下采样进行尺度统一，使用 平均方法进行图像融合成为一张图，之后使用 non-local方法进行相同特征强化，最后将相同特征融合到原特征以增强特征作用。

; 采样不平衡

针对采样不平衡问题，采用 分类分区域采样的思路。对于 正样本采样，原来是从正样本中随机采样，现在是在正样本中 根据类别数量进行均匀采样；对于 负样本采样，先根据阈值划分为 两个分段， 高于阈值在进行分桶，计算落在每个桶的数量得到均匀分布的负样本，对于 低于阈值的样本进行 随机采样。

损失函数不合理

针对第三个问题loss，从smooth L1的损失函数可以看到，在从梯度小于1到1的过程中出现较大转折，使用此loss训练并不平滑，作者提出 balance loss可以增加训练过程的平滑性。

Original: https://blog.csdn.net/helloworld_Fly/article/details/124872257
Author: helloworld_Fly
Title: 【学习-目标检测】目标检测之—FPN+Cascade+Libra

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/686389/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

ElasticSearch-查询语法(结构化查询)

目录知识产权……………………………&#8230…

人工智能 2023年6月27日
0070
常用的图像处理标准图片汇总

常用的图像处理标准图片汇总在进行图像处理时，有一些常用的图像数据需要用到，这里总结一下这些图像。 1.Lena、Baboon等数据主要包括：Baboon、Barbara、Cam…

人工智能 2023年6月17日
0096
基于图像重建损失的无监督变化检测

阅读翻译：Unsupervised Change Detection Based on Image Reconstruction Loss Abstract: 为了训练变化检测器，…

人工智能 2023年6月16日
0078
内网穿透到公网,让你的小伙伴访问你本地的项目

简介: 内网穿透到公网想必…

人工智能 2023年6月2日
0071
Pandas(九)–数据采样

sample() 采样函数随机采样有条件采样恒定速率采样获取数据剩余部分 resample()采样函数降采样升采样频率转换asfreq() 插值处理随机采样随机抽…

人工智能 2023年7月16日
0053
猿创征文｜有了这8个开发工具，程序员可以早点下班了

📣📣📣📣📣📣📣🎍大家好，我是慕枫🎍前阿里巴巴高级工程师，InfoQ签约作者、阿里云专家博主，一直致力于用大白话讲解技术知识🎍在这里和大家分享一线互联网大厂面试经验、技术人成长路线以…

人工智能 2023年6月29日
0083
语义分割系列3-SegNet（pytorch实现）

SegNet手稿最早是在2015年12月投出，和FCN属于同时期作品。稍晚于FCN，既然属于后来者，又是与FCN同属于语义分割网络，SegNet论文中做出了许多与FCN网络的对比论…

人工智能 2023年7月13日
0061
将Python程序打包成exe文件

我新写了一篇更加完整的文章，与这篇文章相比，它新增了两种打包方式：多python文件打包和含有资源文件的打包方式，具体请戳链接：用 Pyinstaller 模块将 Python 程…

人工智能 2023年7月4日
0088
dataframe行列索引设置与转换

获取行列索引 Example df = pd.DataFrame([(‘bird’, 389.0), (‘bird’, 24.0), (‘mammal’, 80.5), (‘mam…

人工智能 2023年7月5日
0098
阿里云图数据库GDB V3引擎发布，加速开启“图智”未来

一、业务价值，为什么我们要用图数据库？随着互联网时代的快速发展，企业的数据呈现爆发式的增长，数据之间的关联也越来越复杂，图数据库应运而生。最重要的是如何运用技术方式帮助业务发挥辅…

人工智能 2023年6月1日
0071
NLP的Token embedding和位置embedding

Token Enbedding，也是字符转向量的一种常用做法。 import tensorflow as tf model_name = "ted_hrlr_transl…

人工智能 2023年5月24日
0099
Reversible Attack相关论文阅读

一、《Reversible Attack based on Local Visual Adversarial Perturbation》 *RAE(reversible adver…

人工智能 2023年6月22日
0069
Tensorflow2安装

啊哦~你想找的内容离你而去了哦内容不存在，可能是由于以下原因造成的： [En] The content does not exist and may be caused by t…

人工智能 2023年5月24日
0070
遥感影像数据集-DOTA

遥感影像的数据集大多数都包含了角度信息，并且目标相对较小，传统的目标检测在遥感影像的处理上效果不佳，比较常用的数据集有nwpu数据集和dota数据集，dota数据集来源谷歌地图，分…

人工智能 2023年6月10日
00119
ros中SLAM的EVO、APE测评——SLAM精度测评（一）

用于处理、评估和比较里程计和SLAM算法的轨迹输出。 evo是一款用于视觉里程计和slam问题的轨迹评估工具。核心功能是能够绘制相机的轨迹，或评估估计轨迹与真值的误差。支持多种数据…

人工智能 2023年6月24日
0070
神经符号回归：从数据中提取科学

（说明：如果您认为下面的文章对您有帮助，请您花费一秒时间点击一下最底部的广告以此来激励本人创作，谢谢）了解神经符号回归，数据科学家如何利用这些算法，以及深度学习的未来。宇宙是嘈…

人工智能 2023年6月18日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31