FPN(特征金字塔)-pytorch实践

2023年7月10日下午12:56 • 人工智能 • 阅读 96

1.FPN

FPN来源于论文《Feature Pyramid Networks for Object Detection》

1.1要解决的问题

传统的物体检测模型通常只在深度卷积网络的最后一个特征图上进行后续操作，而这一层对应的下采样率（图像缩小的倍数）通常又比较大，如16、32，造成小物体在特征图上的有效信息较少，小物体的检测性能会急剧下降，这个问题也被称为 多尺度问题。如图1所示，这样会导致小目标漏检检测，因为在下采样过程中小目标的像素较少，在下采样过程中会丢失。

图1 单一高层次特征

1.2常见解决方案

（1）经典的方法是利用图像金字塔的方式进行多尺度变化增强，使用不同尺度图片分别提取特征，如图2所示，但这样会带来极大的计算量。

图2 图片特征金字塔

（2）特征金字塔，使用一张图片，提取不同层次的特征，但是不同层次的特征图缺少融合。

（3）FPN，在（2）的基础上添加了上下层特征融合

2.FPN网络结构

FPN主要包含 自下而上网络、 自上而下网络、 横向连接与 卷积融合4个部分。

2.1自下而上

最左侧为普通的卷积网络，默认使用ResNet结构，用作提取语义信息。C1代表了ResNet的前几个卷积与池化层，而C2至C5分别为不同的ResNet卷积组，这些卷积组包含了多个 Bottleneck结构，组内的特征图大小相同， 组间大小递减。

2.2自上而下

首先对C5进行1×1卷积降低通道数得到P5，然后依次进行上采样得到P4、P3和P2，目的是得到与C4、C3与C2 长宽相同的特征，以方便下一步进行 逐元素相加。这里采用 2倍最邻近上采样，即直接 对临近元素进行复制，而非线性插值。·

2.3横向连接

目的是为了将上采样后的 高语义特征与浅层的定位细节特征进行融合。高语义特征经过上采样后，其长宽与对应的浅层特征相同， 而通道数固定为256，因此需要对底层特征C2至C4进行11卷积使得其通道数变为256，然后两者进行 逐元素相加*得到P4、P3与P2。由于C1的特征图尺寸较大且语义信息不足，因此没有把C1放到横向连接中。·

2.4卷积融合

在得到相加后的特征后，利用3×3卷积对生成的P2至P4再进行融合，目的是 消除上采样过程带来的重叠效应，以生成最终的特征图。对于实际的物体检测算法，需要在特征图上进行RoI提取，而FPN有4个输出的特征图，选择哪一个特征图上面的特征也是个问题。FPN给出的解决方法是，对于不同大小的RoI，使用不同的特征图， 大尺度的RoI在深层的特征图上进行提取，如P5，小尺度的RoI在 浅层的特征图上进行提取

3.FPN pytorch实现

3.1 Bottleneck类实现

import torch.nn as nn
import torch.nn.functional as F

ResNet基本的Bottleneck类
class Bottleneck(nn.Module):
    expansion = 4 #通道扩增倍数
    def __init__(self, in_planes, planes, stride=1, downsample=None):
        super(Bottleneck, self).__init__()
        self.bottleneck = nn.Sequential(
                nn.Conv2d(in_planes, planes, 1, bias=False),
                nn.BatchNorm2d(planes),
                nn.ReLU(inplace=True),
                nn.Conv2d(planes, planes, 3, stride, 1, bias=False),
                nn.BatchNorm2d(planes),
                nn.ReLU(inplace=True),
                nn.Conv2d(planes, self.expansion * planes, 1, bias=False),
                nn.BatchNorm2d(self.expansion * planes),
            )
        self.relu = nn.ReLU(inplace=True)
        self.downsample = downsample
    def forward(self, x):
        identity = x
        out = self.bottleneck(x)
        if self.downsample is not None:
            identity = self.downsample(x)
        out += identity# shortcut
        out = self.relu(out)
        return out

3.2FPN类

class FPN(nn.Module):
    '''
    FPN需要初始化一个list，代表ResNet每一个阶段的Bottleneck的数量
    '''
    def __init__(self, layers):
        super(FPN, self).__init__()
        #构建C1
        self.inplanes = 64
        self.conv1 = nn.Conv2d(3, 64, 7, 2, 3, bias=False)
        self.bn1 = nn.BatchNorm2d(64)
        self.relu = nn.ReLU(inplace=True)
        self.maxpool = nn.MaxPool2d(3, 2, 1)

        #自下而上搭建C2、C3、C4、C5
        self.layer1 = self._make_layer(64, layers[0])
        self.layer2 = self._make_layer(128, layers[1], 2)
        self.layer3 = self._make_layer(256, layers[2], 2)
        self.layer4 = self._make_layer(512, layers[3], 2)
        #对C5减少通道，得到P5
        self.toplayer = nn.Conv2d(2048, 256, 1, 1, 0)

        #3*3卷积融合
        self.smooth1 = nn.Conv2d(256, 256, 3, 1, 1)
        self.smooth2 = nn.Conv2d(256, 256, 3, 1, 1)
        self.smooth3 = nn.Conv2d(256, 256, 3, 1, 1)

        #横向连接，保证每一层通道数一致
        self.latlayer1 = nn.Conv2d(1024, 256, 1, 1, 0)
        self.latlayer2 = nn.Conv2d( 512, 256, 1, 1, 0)
        self.latlayer3 = nn.Conv2d( 256, 256, 1, 1, 0)

    #构建C2到C5
    def _make_layer(self, planes, blocks, stride=1):
        downsample  = None
        #如果步长不为1，进行下采样
        if stride != 1 or self.inplanes != Bottleneck.expansion * planes:
            downsample  = nn.Sequential(
                nn.Conv2d(self.inplanes, Bottleneck.expansion * planes, 1, stride, bias=False),
                nn.BatchNorm2d(Bottleneck.expansion * planes)
            )
        layers = []
        layers.append(Bottleneck(self.inplanes, planes, stride, downsample))
        #更新输入输出层
        self.inplanes = planes * Bottleneck.expansion
        #根据block数量添加bottleneck的数量
        for i in range(1, blocks):
            layers.append(Bottleneck(self.inplanes, planes))
        return nn.Sequential(*layers

    #自上而下上采样
    def _upsample_add(self, x, y):
        _,_,H,W = y.shape
        #逐个元素相加
        return F.upsample(x, size=(H,W), mode='bilinear') + y

    def forward(self, x):
        #自下而上
        c1 = self.maxpool(self.relu(self.bn1(self.conv1(x))))
        c2 = self.layer1(c1)
        c3 = self.layer2(c2)
        c4 = self.layer3(c3)
        c5 = self.layer4(c4)

        #自上而下，横向连接
        p5 = self.toplayer(c5)
        p4 = self._upsample_add(p5, self.latlayer1(c4))
        p3 = self._upsample_add(p4, self.latlayer2(c3))
        p2 = self._upsample_add(p3, self.latlayer3(c2))

        #卷积融合，平滑处理
        p4 = self.smooth1(p4)
        p3 = self.smooth2(p3)
        p2 = self.smooth3(p2)
        return p2, p3, p4, p5

Original: https://blog.csdn.net/thehappysheep/article/details/121095909
Author: thehappysheep
Title: FPN(特征金字塔)-pytorch实践

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/682827/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

从秦琼卖马说起

《隋唐演义》这本书，小时候没看过。之前从华为过来在燧原短暂逗留几个月走了的的某高层一直推崇唐史，虽然我不知道他说的唐史是《隋唐演义》这种野史，还是《二十四史》这种正史(从这位高层的…

人工智能 2023年6月4日
00107
MemSeg【异常检测：Embedding-based】

背景基于重建的方法利用的本质是网络无法重建异常，但随着重建网络性能提升，异常也能较好重建，这就违背了设计初衷。通过对比，基于嵌入的的方法能够实现更好的效果，但该类方法在训练时较快…

人工智能 2023年5月28日
0089
win10环境中多cuda版本的切换

多cuda版本的切换电脑中已经装了三个cuda版本一个是cuda11.4一个是cuda10.1 ，cuDNN7.6.5一个是cuda10.0,cuDNN7.4.2 首先检查系统环境…

人工智能 2023年5月25日
00103
目标检测回归损失函数总结

目标检测的预测框回归损失函数由Classificition Loss和Bounding Box Regeression Loss两部分构成，本文介绍Bounding Box Reg…

人工智能 2023年6月18日
00112
python面试题——抽象基类和接口

; 一、抽象基类与接口 1、抽象基类(abstract base class,ABC) 提到这个概念,我们应该会马上联想到面向对象、继承。作为继承的一种，它拥有继承中代码共享、提高…

人工智能 2023年7月5日
0067
【yolov4目标检测】(2) 多目标跟踪，案例：车辆行人的跟踪和计数，附python完整代码和数据集

各位同学好，今天和大家分享一下如何使用 YOLOv4 目标检测完成对道路上的车辆、行人的检测、跟踪和计数。先放张图看效果。绿框代表检测出的目标，粉色点代表每个检测框的中心点，红色…

人工智能 2023年6月17日
0074
机器学习——对数几率回归模型及python代码实现

《机器学习：公式推导与代码实践》鲁伟著读书笔记。上一章介绍了线性回归的数学推导过程以及python实现，可以知道线性回归模型就是对数据进行线性拟合或者说是回归，然后采用训练好的模型…

人工智能 2023年6月13日
0088
Learning Intents behind Interactions with Knowledge Graph for Recommendation www 2021

摘要知识图(KG)在推荐系统中发挥着越来越重要的作用。最近的一个技术趋势是开发基于图神经网络(GNN)的端到端模型。然而，现有的基于GNN的模型在关系建模中是粗粒度的，不能(1)…

人工智能 2023年6月10日
0071
ECCV 2020 | STAR:基于Transformer的行人轨迹预测模型（一）

这是一篇ECCV 2020 行人轨迹预测的文章，在这里对论文进行浅浅的翻译。当然，由于水平的局限，有些地方只能意译。论文链接：Spatio-Temporal Graph Tran…

人工智能 2023年6月17日
0083
从YOLOv5源码loss.py详细介绍Yolov5的损失函数

深度学习笔记:从YOLOv5源码loss.py详细介绍Yolov5的损失函数前言 class ComputeLoss主要代码分析 * 1 __init__函数 2 build_t…

人工智能 2023年7月22日
0080
（2022.4）Win10最新Anaconda安装Pytorch GPU环境(CUDA)教程（极其适合初学者）

目录前言一、CUDA的安装 1.确认自己的电脑是否可以使用CUDA 2.下载CUDA 二、cuDNN的安装 1.下载cuDNN 2.安装cuDNN 三、Anaconda环境的配…

人工智能 2023年7月4日
0080
语言模型(LM)介绍及实操

原文地址：https://medium.com/analytics-vidhya/a-comprehensive-guide-to-build-your-own-language-…

人工智能 2023年5月28日
0085
常见聚类算法总结

一 . 关于聚类什么是聚类：聚类(Clustering)是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇…

人工智能 2023年6月4日
0099
卷积神经网络发展现状,卷积神经网络发展历程

神经网络的历史是什么？沃伦·麦卡洛克和沃尔特·皮茨（1943）基于数学和一种称为阈值逻辑的算法创造了一种神经网络的计算模型。这种模型使得神经网络的研究分裂为两种不同研究思路。一…

人工智能 2023年7月13日
0092
《PROTOTYPICAL CONTRASTIVE LEARNING OF UNSUPERVISED REPRESENTATIONS》学习笔记

PROTOTYPICAL CONTRASTIVE LEARNING * – 引言 – 方法 – 实验 – + Low-shot cl…

人工智能 2023年5月31日
00121
【读点论文】PP-PicoDet: A Better Real-Time Object Detector on Mobile Devices，一种可在边缘设备上部署的深度学习目标检测

所有消融实验的结果如下表所示。所有实验结果都在COCO-2017验证集上。 CSP-PAN：先得到类似NanoDet的模型，主干采用ShuffleNetV2-1x，颈部采用无卷积的…

人工智能 2023年7月9日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31