FPN(特征金字塔)-pytorch实践

1.FPN

FPN来源于论文《Feature Pyramid Networks for Object Detection》

1.1要解决的问题

传统的物体检测模型通常只在深度卷积网络的最后一个特征图上进行后续操作,而这一层对应的下采样率(图像缩小的倍数)通常又比较大,如16、32,造成小物体在特征图上的有效信息较少,小物体的检测性能会急剧下降,这个问题也被称为 多尺度问题。如图1所示,这样会导致小目标漏检检测,因为在下采样过程中小目标的像素较少,在下采样过程中会丢失。

FPN(特征金字塔)-pytorch实践

图1 单一高层次特征

1.2常见解决方案

(1)经典的方法是利用图像金字塔的方式进行多尺度变化增强,使用不同尺度图片分别提取特征,如图2所示,但这样会带来极大的计算量。

FPN(特征金字塔)-pytorch实践

图2 图片特征金字塔

(2)特征金字塔,使用一张图片,提取不同层次的特征,但是不同层次的特征图缺少融合。

FPN(特征金字塔)-pytorch实践

(3)FPN,在(2)的基础上添加了上下层特征融合

FPN(特征金字塔)-pytorch实践

2.FPN网络结构

FPN主要包含 自下而上网络、 自上而下网络、 横向连接卷积融合4个部分。

FPN(特征金字塔)-pytorch实践

2.1自下而上

最左侧为普通的卷积网络,默认使用ResNet结构,用作提取语义信息。C1代表了ResNet的前几个卷积与池化层,而C2至C5分别为不同的ResNet卷积组,这些卷积组包含了多个 Bottleneck结构,组内的特征图大小相同, 组间大小递减

2.2自上而下

首先对C5进行1×1卷积降低通道数得到P5,然后依次进行上采样得到P4、P3和P2,目的是得到与C4、C3与C2 长宽相同的特征,以方便下一步进行 逐元素相加。这里采用 2倍最邻近上采样,即直接 对临近元素进行复制,而非线性插值。·

2.3横向连接

目的是为了将上采样后的 高语义特征与浅层的定位细节特征进行融合。高语义特征经过上采样后,其长宽与对应的浅层特征相同, 而通道数固定为256,因此需要对底层特征C2至C4进行11卷积使得其通道数变为256,然后两者进行 逐元素相加*得到P4、P3与P2。由于C1的特征图尺寸较大且语义信息不足,因此没有把C1放到横向连接中。·

2.4卷积融合

在得到相加后的特征后,利用3×3卷积对生成的P2至P4再进行融合,目的是 消除上采样过程带来的重叠效应,以生成最终的特征图。对于实际的物体检测算法,需要在特征图上进行RoI提取,而FPN有4个输出的特征图,选择哪一个特征图上面的特征也是个问题。FPN给出的解决方法是,对于不同大小的RoI,使用不同的特征图, 大尺度的RoI在深层的特征图上进行提取,如P5,小尺度的RoI在 浅层的特征图上进行提取

3.FPN pytorch实现

3.1 Bottleneck类实现

FPN(特征金字塔)-pytorch实践
import torch.nn as nn
import torch.nn.functional as F

ResNet基本的Bottleneck类
class Bottleneck(nn.Module):
    expansion = 4 #通道扩增倍数
    def __init__(self, in_planes, planes, stride=1, downsample=None):
        super(Bottleneck, self).__init__()
        self.bottleneck = nn.Sequential(
                nn.Conv2d(in_planes, planes, 1, bias=False),
                nn.BatchNorm2d(planes),
                nn.ReLU(inplace=True),
                nn.Conv2d(planes, planes, 3, stride, 1, bias=False),
                nn.BatchNorm2d(planes),
                nn.ReLU(inplace=True),
                nn.Conv2d(planes, self.expansion * planes, 1, bias=False),
                nn.BatchNorm2d(self.expansion * planes),
            )
        self.relu = nn.ReLU(inplace=True)
        self.downsample = downsample
    def forward(self, x):
        identity = x
        out = self.bottleneck(x)
        if self.downsample is not None:
            identity = self.downsample(x)
        out += identity# shortcut
        out = self.relu(out)
        return out

3.2FPN类

class FPN(nn.Module):
    '''
    FPN需要初始化一个list,代表ResNet每一个阶段的Bottleneck的数量
    '''
    def __init__(self, layers):
        super(FPN, self).__init__()
        #构建C1
        self.inplanes = 64
        self.conv1 = nn.Conv2d(3, 64, 7, 2, 3, bias=False)
        self.bn1 = nn.BatchNorm2d(64)
        self.relu = nn.ReLU(inplace=True)
        self.maxpool = nn.MaxPool2d(3, 2, 1)

        #自下而上搭建C2、C3、C4、C5
        self.layer1 = self._make_layer(64, layers[0])
        self.layer2 = self._make_layer(128, layers[1], 2)
        self.layer3 = self._make_layer(256, layers[2], 2)
        self.layer4 = self._make_layer(512, layers[3], 2)
        #对C5减少通道,得到P5
        self.toplayer = nn.Conv2d(2048, 256, 1, 1, 0)

        #3*3卷积融合
        self.smooth1 = nn.Conv2d(256, 256, 3, 1, 1)
        self.smooth2 = nn.Conv2d(256, 256, 3, 1, 1)
        self.smooth3 = nn.Conv2d(256, 256, 3, 1, 1)

        #横向连接,保证每一层通道数一致
        self.latlayer1 = nn.Conv2d(1024, 256, 1, 1, 0)
        self.latlayer2 = nn.Conv2d( 512, 256, 1, 1, 0)
        self.latlayer3 = nn.Conv2d( 256, 256, 1, 1, 0)

    #构建C2到C5
    def _make_layer(self, planes, blocks, stride=1):
        downsample  = None
        #如果步长不为1,进行下采样
        if stride != 1 or self.inplanes != Bottleneck.expansion * planes:
            downsample  = nn.Sequential(
                nn.Conv2d(self.inplanes, Bottleneck.expansion * planes, 1, stride, bias=False),
                nn.BatchNorm2d(Bottleneck.expansion * planes)
            )
        layers = []
        layers.append(Bottleneck(self.inplanes, planes, stride, downsample))
        #更新输入输出层
        self.inplanes = planes * Bottleneck.expansion
        #根据block数量添加bottleneck的数量
        for i in range(1, blocks):
            layers.append(Bottleneck(self.inplanes, planes))
        return nn.Sequential(*layers

    #自上而下上采样
    def _upsample_add(self, x, y):
        _,_,H,W = y.shape
        #逐个元素相加
        return F.upsample(x, size=(H,W), mode='bilinear') + y

    def forward(self, x):
        #自下而上
        c1 = self.maxpool(self.relu(self.bn1(self.conv1(x))))
        c2 = self.layer1(c1)
        c3 = self.layer2(c2)
        c4 = self.layer3(c3)
        c5 = self.layer4(c4)

        #自上而下,横向连接
        p5 = self.toplayer(c5)
        p4 = self._upsample_add(p5, self.latlayer1(c4))
        p3 = self._upsample_add(p4, self.latlayer2(c3))
        p2 = self._upsample_add(p3, self.latlayer3(c2))

        #卷积融合,平滑处理
        p4 = self.smooth1(p4)
        p3 = self.smooth2(p3)
        p2 = self.smooth3(p2)
        return p2, p3, p4, p5

Original: https://blog.csdn.net/thehappysheep/article/details/121095909
Author: thehappysheep
Title: FPN(特征金字塔)-pytorch实践

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/682827/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球