FPN（特征金字塔）论文详解

2023年7月12日上午10:57 • 人工智能 • 阅读 59

FPN（特征金字塔）

论文：Feature Pyramid Networks for Object Detection
下载链接：
github: Caffe

将多阶段的特征图融合在一起，这就相当于既拥有了高层的语义信息，又拥用了底层的轮廓信息。自下而上特征图与自上而下特征图（线性插值）做加法操作，

解决问题：
《Feature Pyramid Networks for Object Detection》这篇论文主要解决的问题是 目标检测在处理多尺度变化问题时的不足，现在的很多网络都使用了利用单个高层特征(比如说Faster R-CNN利用下采样四倍的卷积层——Conv4，进行后续的物体的分类和bounding box的回归)，但是这样做有一个明显的缺陷，即小物体本身具有的像素信息较少，在下采样的过程中极易被丢失，为了处理这种物体大小差异十分明显的检测问题，经典的方法是利用图像金字塔的方式进行多尺度变化增强，但这样会带来极大的计算量。所以这篇论文提出了特征金字塔的网络结构，能在增加极小的计算量的情况下，处理好物体检测中的多尺度变化问题。

Abstract

论文利用深度卷积网络固有的多尺度、金字塔层次结构来构建具有边际额外（极小）成本的特征金字塔。开发了一个具有横向连接的自顶向下体系结构，用于构建各种尺度的高级语义特征图。这种结构被称为特征金字塔网络(FPN)，作为一种通用特征提取器在许多应用中都有显著的改进.

; 1. Introduction

识别大小不同的物体是计算机存在的一个挑战，主要在于卷积过程中小目标的特征消失现象。

下图FIg1展示了4种利用特征的形式：
（a） 图像金字塔，即将图像做成不同的scale，然后不同scale的图像生成对应的不同scale的特征。这种方法的缺点在于增加了时间成本。有些算法会在测试时候采用图像金字塔。
（b）像 SPP net，Fast RCNN，Faster RCNN是采用这种方式，即仅采用网络最后一层的特征。
（c）像SSD（Single Shot Detector）采用这种多尺度特征融合的方式，没有上采样过程，即从网络不同层抽取不同尺度的特征做预测，这种方式不会增加额外的计算量。作者认为SSD算法中没有用到足够低层的特征（在SSD中，最低层的特征是VGG网络的conv4_3），而在作者看来足够低层的特征对于检测小物体是很有帮助的。
（d）本文作者是采用这种方式， 顶层特征通过上采样和低层特征做融合，而且每层都是独立预测的。

（a）Feature pyramids built upon image pyramids ( featurized image
pyramid）

通过图像金字塔来构建不同尺度的特征金字塔。

这种方法的优点有：

(1). 对每一种尺度的图像进行特征提取，能够产生多尺度的特征表示，并且所有等级的特征图都具有较强的语义信息，甚至包括一些高分辨率的特征图。

这种方法的缺点有：

(1). 推理时间大幅度增加；

(2). 由于内存占用巨大，用图像金字塔的形式训练一个端到端的深度神经网络变得不可行；

(3). 如果只在测试阶段使用图像金字塔，那么会造成一个问题：由于训练时，网络只是针对于某一个特点的分辨率进行训练，推理时运用图像金字塔，可能会在训练与推理时产生”矛盾”。

(b) 常见的目标检测网络

利用单个高层特征图进行预测。

例如Faster R-CNN中的RPN层就是利用单个高层特征图进行物体的分类和bounding box的回归。

© 金字塔型特征层级 ConvNet’s pyramidal feature hierarchy

比如SSD one-stage目标检测模型就是再次利用不同层多尺度的特征图。

但是SSD并没有解决以下问题：

低层特征图语义信息不够和低层特征图的分辨率也不高。

(d) 特征金字塔 Feature Pyramid Networks

为了解决以上三种结构的不足之处，这篇论文提出了FPN，即使每一层不同尺度的特征图都具有较强的语义信息。

这种网络结构，能够在增加较少计算量的前提下融合低分辨率语义信息较强的特征图和高分辨率语义信息较弱但空间信息丰富的特征图。

其实在这篇论文之前，也有人提到得出一张既具有高分辨率又具有较强语义信息的特征图进行预测，由于该方法只是对最后一层进行predict，导致输出结果有限。但FPN的独特之处在于，它是在以特征金字塔为基础结构上，对每一层级的特征图分别进行预测。

论文的思想其实影响了后序的很多网络，比较典型的有Yolov3，结构图如下：

以及Yolov4还进行了更进一步的升级

3.FPN网络详解

作者的算法大致结构如下Fig3：一个 自底向上的线路，一个 自顶向下的线路， 横向连接（lateral connection）。图中放大的区域就是横向连接，这里11的卷积核的主要作用是减少卷积核的个数，也就是减少了feature map的个数，并不改变feature map的尺寸大小。

(1). Bottom-up pathway*

前馈Backbone的一部分，每一级往上用step=2的降采样。

输出size相同的网络部分叫一级(stage)，选择每一级的最后一层特征图，作为Up-bottom pathway的对应相应层数，经过1 x 1卷积过后element add的参考。

例如，下图是fasterRCNN的网络结构，左列ResNet用每级最后一个Residual Block的输出，记为{C1,C2,C3,C4,C5}。

FPN用2~5级参与预测(因为第一级的语义还是太低了)，{C2,C3,C4,C5}表示conv2，conv3，conv4和conv5的输出层(最后一个残差block层)作为FPN的特征，分别对应于输入图片的下采样倍数为{4，8，16，32}。

(2). Top-down pathway and lateral connections

自顶向下的过程通过上采样(up-sampling)的方式将顶层的小特征图。放大到上一个stage的特征图一样的大小。

上采样的方法是最近邻插值法：

对于使用最近邻插值法的个人思考：使用最近邻值插值法，可以在上采样的过程中最大程度地保留特征图的语义信息(有利于分类)，从而与bottom-up 过程中相应的具有丰富的空间信息(高分辨率，有利于定位)的特征图进行融合，从而得到既有良好的空间信息又有较强烈的语义信息的特征图。

具体过程为：C5层先经过1 x 1卷积，改变特征图的通道数(文章中设置d=256，与Faster R-CNN中RPN层的维数相同便于分类与回归)。M5通过上采样，再加上(特征图中每一个相同位置元素直接相加)C4经过1 x 1卷积后的特征图，得到M4。这个过程再做两次，分别得到M3，M2。M层特征图再经过3 x 3卷积(减轻最近邻近插值带来的混叠影响，周围的数都相同)，得到最终的P2，P3，P4，P5层特征。

另外，和传统的图像金字塔方式一样，所有M层的通道数都设计成一样的，本文都用d=256。

; 应用

作者扩展了很多应用，在目标检测和语义分割上，这里就不详细介绍，从对比结果来看，确实得到了很好的提升，验证了方法的有效性。

总结

作者提出的FPN（Feature Pyramid Network）算法同时利用低层特征高分辨率和高层特征的高语义信息，通过融合这些不同层的特征达到预测的效果。并且预测是在每个融合后的特征层上单独进行的，这和常规的特征融合方式不同。

参考链接: https://zhuanlan.zhihu.com/p/92005927
参考链接: https://blog.csdn.net/WZZ18191171661/article/details/79494534

Original: https://blog.csdn.net/frighting_ing/article/details/121365765
Author: Fighting_1997
Title: FPN（特征金字塔）论文详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/687516/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

图像处理-图像滤波

文章目录 1、图像滤波 2、各滤波特点 * 2.1 均值滤波 2.2 高斯滤波 2.3中值滤波 3、案例分析 * 3.1 均值滤波 – 3.1.1 代码 3.1.2 b…

人工智能 2023年6月20日
00144
深度学习-nlp系列（3）文本分类（Bert+TextCNN）pytorch

在前面两章讲解了 bert 和 TextCNN 模型，用这两个模型来进行文本分类。那我们就可以试一下将这两个模型进行融合来进行文本分类。模型介绍我们知道在进行模型融合时，要注意…

人工智能 2023年7月20日
0044
Spark与Pandas中DataFrame对比（详细）

工作方式单机single machine tool，没有并行机制parallelism 不支持Hadoop，处理大量数据有瓶颈分布式并行计算框架，内建并行机制paralleli…

人工智能 2023年6月2日
00106
【知识图谱】知识图谱存储、查询、可视化

基于知识图谱_的智能问答机器⼈研究背景及意义研究背景及意义智能问答是计算机与⼈类以⾃然语⾔的形式进⾏交流的⼀种⽅式，是⼈⼯智能研究的⼀个分⽀。 _知识图谱_本质上是⼀种语义…

人工智能 2023年6月1日
0063
flask中使用redis做缓存

1.介绍缓存介绍如果您的应用运行很慢，那就尝试引入一些缓存吧。好吧，至少这是提高表现最简单的方法。缓存的工作是什么呢？比如说您有一个需要一段时间才能完成的函数，但是这个函数的返…

人工智能 2023年6月29日
0076
第三代人工智能即时寻优，在垃圾发电领域的应用

工业AI智能化控制系统RIDIC system垃圾发电用解决方案V5.6 技术咨询微信添加：dclyzihan 目录一、综述 4二、RIDIC system平台三、助力垃圾发电企业…

人工智能 2023年7月14日
0092
tensorflow笔记（6）

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年5月26日
0068
图片识别 python 神经网络,人工神经网络图像识别

人们识别图像是靠形状，那AI是怎么识别图像的？德国研究团队给出一个原因，这个原因出乎意料：人类会关注图中对象的形状，深度学习计算机系统所用的算法不一样，它会研究对象的纹理。首先人…

人工智能 2023年7月13日
00165
半监督3D医学图像分割（一）：Mean Teacher

Mean teachers are better role models: Weight-averaged consistency targets improve semi-sup…

人工智能 2023年7月27日
0066
人工智能实验1-波士顿房价预测

人工智能实验1-波士顿房价预测 1 实验内容 * 1.1 波士顿房价预测任务 1.2 线性回归模型 2 源代码 * 2.1 数据处理 – 2.1.1 读入数据 2.1….

人工智能 2023年6月19日
0084
Python实现秒杀抢购某宝商品，不再害怕双十一抢不到了

前言马上就要双十一咯，给你们展示一下我在618干的大事，直接用Python抢购商品今天就来分享给你们吧这又快要到付尾款的日子咯，有些哥们需要送礼物给对象的，赶紧买这些预售的商…

人工智能 2023年6月26日
0087
Python 机器学习4：sklearn 分类算法

数据集划分 sklearn为我们提供了datasets模块，其中包括很多经典的数据集： from sklearn import datasets 这里我们查看鸢尾花分类的数据集，其…

人工智能 2023年7月1日
0083
OpenCV中图像特征提取与描述

目录图像特征提取与描述 * 图像的特征 Harris和Shi-Tomas算法 – Harris角点检测 Shi-Tomasi角点检测小结 SIFT/SURF算法 &…

人工智能 2023年6月17日
0070
随机森林算法及贝叶斯优化调参Python实践

随机森林算法 1.1. 集成模型简介集成学习模型使用一系列弱学习器（也称为基础模型或基模型）进行学习，并将各个弱学习器的结果进行整合，从而获得比单个学习器更好的学习效果。集成学…

人工智能 2023年7月5日
0085
datawhale8月组队学习《pandas数据处理与分析》（下）（文本、分类、时序数据）

文章目录 * – 第八章文本数据 – + 8.1 str对象 + * 8.1.1 str对象的设计意图 * 8.1.3 string类型 + 8.2 正则…

人工智能 2023年7月15日
0069
opencv 直方图均衡化

文章目录前言一、原理 opencv 函数支持equalizeHist() 前言在图像直方图详解中详细讲解了图像直方图，这章来讲解一下直方图的均衡化。直方图均衡化是图像处理领域…

人工智能 2023年6月19日
0069

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

FPN（特征金字塔）论文详解

Abstract

; 1. Introduction

; 应用

总结

大家都在看