经典网络结构 (七)：FPN, DetNet

2023年7月12日上午11:01 • 人工智能 • 阅读 58

多尺度问题: 为了增强语义性， 传统的物体检测模型通常只在深度卷积网络的最后一个特征图上进行后续操作，而这一层对应的 下采样率通常又比较大，如 16、32，造成小物体在特征图上的有效信息较少， *小物体的检测性能会急剧下降

特征金字塔: FPN (Feature Pyramid Network, 特征金字塔)

解决多尺度问题的关键在于如何 提取多尺度的特征。传统的方法有 图像金字塔 (Image Pyramid)，主要思路是将输入图片做成多个尺度，不同尺度的图像生成不同尺度的特征，这种方法简单而有效，大量使用在了 COCO 等竞赛上，但缺点是 非常耗时，计算量也很大
而 卷积神经网络不同层的大小与语义信息不同，本身就类似一个金字塔结构， FPN 就利用了这一特点， *将深层的语义信息传到底层，来补充浅层的语义信息，从而获得了高分辨率、强语义的特征，在小物体检测、实例分割等领域有着非常不俗的表现

FPN 的总体架构

自下而上：最左侧为普通的卷积网络，默认使用 ResNet 结构，用作提取语义信息。C 1 , . . . , C 5 C_1,…,C_5 C 1 ,…,C 5 代表了不同的 ResNet 卷积组，这些卷积组包含了多个 Bottleneck 结构， 组内的特征图大小相同，组间大小递减
自上而下：首先对C 5 C_5 C 5 进行1 × 1 1×1 1 ×1 卷积降低通道数得到P 5 P_5 P 5 ，然后依次进行 上采样得到P 4 P_4 P 4 、P 3 P_3 P 3 和P 2 P_2 P 2 ，目的是得到与C 4 C_4 C 4 、C 3 C_3 C 3 与C 2 C_2 C 2 长宽相同的特征，以方便下一步进行逐元素相加。这里采用 2 倍最邻近上采样，即直接对临近元素进行复制，而非线性插值
横向连接 (Lateral Connection)：目的是为了 将上采样后的高语义特征与浅层的定位细节特征进行融合。高语义特征经过上采样后，其长宽与对应的浅层特征相同，而通道数固定为 256，因此需要对底层特征C 2 C_2 C 2 至C 4 C_4 C 4 进行1 × 1 1\times1 1 ×1 卷积使得其通道数变为 256，然后两者进行逐元素相加得到P 4 P_4 P 4 、P 3 P_3 P 3 与P 2 P_2 P 2 。由于C 1 C_1 C 1 的特征图尺寸较大且语义信息不足，因此没有把C 1 C_1 C 1 放到横向连接中
卷积融合：在得到相加后的特征后，利用3 × 3 3×3 3 ×3 卷积对生成的P 2 P_2 P 2 至P 4 P_4 P 4 再进行融合，目的是 *消除上采样过程带来的重叠效应，以生成最终的特征图

FPN 用于物体检测算法

对于实际的物体检测算法，需要在特征图上进行 RoI 提取，而 FPN 有 4 个输出的特征图，选择哪一个特征图上面的特征也是个问题。FPN 给出的解决方法是， *对于不同大小的 RoI，使用不同的特征图，大尺度的 RoI 在深层的特征图上进行提取，小尺度的 RoI 在浅层的特征图上进行提取

import torch.nn as nn
import torch.nn.functional as F
import math

class Bottleneck(nn.Module):
    expansion = 4
    def __init__(self, in_planes, planes, stride=1, downsample=None):
        super(Bottleneck, self).__init__()
        self.bottleneck = nn.Sequential(
                nn.Conv2d(in_planes, planes, 1, bias=False),
                nn.BatchNorm2d(planes),
                nn.ReLU(inplace=True),
                nn.Conv2d(planes, planes, 3, stride, 1, bias=False),
                nn.BatchNorm2d(planes),
                nn.ReLU(inplace=True),
                nn.Conv2d(planes, self.expansion * planes, 1, bias=False),
                nn.BatchNorm2d(self.expansion * planes),
            )
        self.relu = nn.ReLU(inplace=True)
        self.downsample = downsample
    def forward(self, x):
        identity = x
        out = self.bottleneck(x)
        if self.downsample is not None:
            identity = self.downsample(x)
        out += identity
        out = self.relu(out)
        return out

class FPN(nn.Module):
    def __init__(self, layers=[3, 4, 6, 3]):
        super(FPN, self).__init__()
        self.inplanes = 64

        self.conv1 = nn.Conv2d(3, 64, 7, 2, 3, bias=False)
        self.bn1 = nn.BatchNorm2d(64)
        self.relu = nn.ReLU(inplace=True)
        self.maxpool = nn.MaxPool2d(3, 2, 1)

        self.layer1 = self._make_layer(64, layers[0])
        self.layer2 = self._make_layer(128, layers[1], 2)
        self.layer3 = self._make_layer(256, layers[2], 2)
        self.layer4 = self._make_layer(512, layers[3], 2)

        self.toplayer = nn.Conv2d(2048, 256, 1, 1, 0)
        self.smooth1 = nn.Conv2d(256, 256, 3, 1, 1)
        self.smooth2 = nn.Conv2d(256, 256, 3, 1, 1)
        self.smooth3 = nn.Conv2d(256, 256, 3, 1, 1)

        self.latlayer1 = nn.Conv2d(1024, 256, 1, 1, 0)
        self.latlayer2 = nn.Conv2d( 512, 256, 1, 1, 0)
        self.latlayer3 = nn.Conv2d( 256, 256, 1, 1, 0)

    def _make_layer(self, planes, blocks, stride=1):
        downsample  = None

        if stride != 1 or self.inplanes != Bottleneck.expansion * planes:
            downsample  = nn.Sequential(
                nn.Conv2d(self.inplanes, Bottleneck.expansion * planes, 1, stride, bias=False),
                nn.BatchNorm2d(Bottleneck.expansion * planes)
            )
        layers = []
        layers.append(Bottleneck(self.inplanes, planes, stride, downsample))
        self.inplanes = planes * Bottleneck.expansion
        for i in range(1, blocks):
            layers.append(Bottleneck(self.inplanes, planes))
        return nn.Sequential(*layers)

    def _upsample_add(self, x, y):
        _, _, H, W = y.shape
        return F.upsample(x, size=(H,W), mode='bilinear') + y

    def forward(self, x):

        c1 = self.maxpool(self.relu(self.bn1(self.conv1(x))))
        c2 = self.layer1(c1)
        c3 = self.layer2(c2)
        c4 = self.layer3(c3)
        c5 = self.layer4(c4)

        p5 = self.toplayer(c5)
        p4 = self._upsample_add(p5, self.latlayer1(c4))
        p3 = self._upsample_add(p4, self.latlayer2(c3))
        p2 = self._upsample_add(p3, self.latlayer3(c2))

        p4 = self.smooth1(p4)
        p3 = self.smooth2(p3)
        p2 = self.smooth3(p2)
        return p2, p3, p4, p5

为检测而生: DetNet

传统的 VGG、ResNet 等用于图像分类的 backbone 更加侧重于全图的特征提取，深层的特征图分辨率很低；而物体检测需要定位出物体位置，特征图分辨率不宜过小。而 FPN 虽然提取出了多尺度特征，但仍存在不足。总体可归结为如下两个缺陷：
(1) 大物体难以定位：对于 FPN 和 ResNet 等其他网络，大物体对应在较深的特征图上检测，由于网络较深时下采样率较大，物体的边缘难以精确预测，增加了回归边界的难度
(2) 小物体难以检测：对于传统网络，由于下采样率大造成小物体在较深的特征图上几乎不可见；FPN 虽从较浅的特征图来检测小物体，但浅层的语义信息较弱，且融合深层特征时使用的上采样操作也会增加物体检测的难度
也就是说， 用于大物体检测的深层特征图也应该具有较大的分辨率，用于小物体检测的浅层特征图应该更加充分地融合深层特征信息。为此， DetNet 引入了 空洞卷积，使得模型兼具较大感受野与较高分辨率，同时避免了 FPN 的多次上采样，实现了较好的检测效果

DetNet 网络结构

DetNet 仍然选择性能优越的 ResNet-50 作为基础结构，并保持 前 4 个 stage 与 ResNet-50 相同，具体的结构细节有以下几点：
(1) 修改了 Stage 5 并加入新的 Stage 6 用于物体检测。Stage 5 与 Stage 6 使用了 新的 Bottleneck 结构，最大的特点是 利用空洞数为 2 的3 × 3 3×3 3 ×3 卷积取代了步长为2 2 2 的3 × 3 3×3 3 ×3 卷积，在保持感受野增大的同时还能保证特征图大小不变
(2) Stage 5 与 Stage 6 的每一个 Bottleneck 输出的特征图尺寸都为原图的1 16 \frac{1}{16}1 6 1 ，通道数都为 256，因此 在组成特征金字塔时，由于特征图大小和通道数完全相同，因此可以直接从右向左传递相加，避免了 FPN 的上采样操作
(3) 为了进一步融合各通道的特征，需要对每一个阶段的输出进行1 × 1 1×1 1 ×1 卷积后再与后一 Stage 传回的特征相加

注意， B B B 相比于A A A ，在恒等映射部分增加了一个1 × 1 1×1 1 ×1 卷积，这样做可以区分开不同的 Stage，并且实验发现这种做法对于特征金字塔式的检测非常重要

from torch import nn

class DetBottleneck(nn.Module):
    def __init__(self, inplanes, planes, extra=False):
        super(DetBottleneck, self).__init__()
        self.bottleneck = nn.Sequential(
                nn.Conv2d(inplanes, planes, 1, bias=False),
                nn.BatchNorm2d(planes),
                nn.ReLU(inplace=True),
                nn.Conv2d(planes, planes, kernel_size=3, stride=1, padding=2,
                               dilation=2, bias=False),
                nn.BatchNorm2d(planes),
                nn.ReLU(inplace=True),
                nn.Conv2d(planes, planes, 1, bias=False),
                nn.BatchNorm2d(planes),
        )
        self.relu = nn.ReLU(inplace=True)
        self.extra = extra
        if self.extra:
            self.extra_conv = nn.Sequential(
                nn.Conv2d(inplanes, planes, 1, bias=False),
                nn.BatchNorm2d(planes)
            )

    def forward(self, x):
        if self.extra:
            identity = self.extra_conv(x)
        else:
            identity = x
        out = self.bottleneck(x)
        out += identity
        out = self.relu(out)
        return out

bottleneck_b = DetBottleneck(1024, 256, True)
bottleneck_a1 = DetBottleneck(256, 256)
bottleneck_a2 = DetBottleneck(256, 256)

References

《深度学习之 PyTorch 物体检测实战》
D i v e Dive D i v e I n t o Into I n t o D e e p Deep D e e p L e a r n i n g Learning L e a r n i n g

Original: https://blog.csdn.net/weixin_42437114/article/details/123175302
Author: 连理o
Title: 经典网络结构 (七)：FPN, DetNet

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/687522/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

2023最新SSM计算机毕业设计选题大全（附源码+LW）之java抗包虫病药物查询与推荐系统rx40p

毕业设计其实不难，主要毕业的时候任务太紧了，所以大家都非常忙没有时间去做，毕业设计还是早做准备比较好，多花点时间也可以做出来的，建议还是自己动手去做，比如先选一个题，这样就有方向，…

人工智能 2023年6月27日
00122
聚类算法—Kmeans算法、K均值算法

提示：这些是自&#…

人工智能 2023年6月2日
00119
Kaggle-海底海星目标检测Baseline

Kaggle-海底海星目标检测Baseline Frankie : 目前本科在读，师从深度之眼比赛班导师-Taylor老师，刚接触图像算法竞赛半年，已经获得 IFLYTEK 102…

人工智能 2023年7月10日
0074
逻辑回归模型的输出结果可以解释为什么

问题：逻辑回归模型的输出结果可以解释为什么？详细介绍逻辑回归是一种用于二分类问题的机器学习算法。它可以根据输入的特征预测一个样本属于某个类别的概率。逻辑回归模型的输出结果通常是…

人工智能 2023年12月31日
0034
6 知识表示与逻辑推理（11.16）

Publisher: Prentice Hall PTR Pub Date: September 15, 2003 ISBN: 0-13-066946-6 Pages: 608 S…

人工智能 2023年6月10日
0073
快速上手opencv_contrib安装（Windows11）

目录一、安装资料准备二、安装编译 * 1. cmake安装 2. opencv4.2.0源代码编译和opencv4.2.0_contirb解压 3. opencv编译 4. …

人工智能 2023年6月19日
0074
app测试和web测试有什么区别

1.性能方面: web页面可能更关注响应时间，而app更关注流量、电量、QPS。 2.系统架构方面： web项目，一般都是b/s架构，基于浏览器的，而app则是c/s的，必须要有客…

人工智能 2023年6月29日
0058
2021年研究生数学建模竞赛优秀论文汇总

竞赛题目一般来源于工程与管理等领域的实际问题，并经过提炼加工，不要求参赛者预先掌握深入的专门知识。面向全国研究生培养单位和企事业单位广泛征集竞赛命题，由专家委员会讨论最终确定。 …

人工智能 2023年7月29日
0042
anaconda安装pytorch遇到的一些问题及解决方案

conda create -n pytorch python=3.9conda activate pytorch安装pytorch时如果使用了镜像是不能激活GPU的cuda的，需要…

人工智能 2023年7月23日
0052
R语言机器学习Caret包（Caret包是分类和回归训练的简称）、数据划分、数据预处理、模型构建、模型调优、模型评估、多模型对比、模型预测推理

好的，下面是用R 语言_进行环境 _数据_集建模、验证、 _评估、 _优_化和 _预测_的步骤： 1. _数据_准备首先，需要将环境 _数据_集导入到R中。如果 _数据_集是以c…

人工智能 2023年7月1日
0098
计算机三级数据库数据仓库与数据挖掘（一）、快照方式、元数据、数据仓库中数据特征、机器学习、聚类方法、分类算法、决策支持系统、表数据的粒度级、分布式数据库、

1.在建立数据仓库的数据集成工作中，需要采用适当的策略从数据源获取变化数据。下列数据表中，一般情况下不适宜采用快照方式从业务系统获取数据的是A、门店表、销售人员表B、商品清单、商品…

人工智能 2023年6月12日
0093
Robust Knowledge Graph Completion with Stacked Convolutions and a Student Re-Ranking Network

研究问题创建了稀疏连接的知识图谱数据集，并研究如何在稀疏连接的知识图谱上完成链路预测任务背景动机目前常用的知识图谱补全数据集都是基于稠密连接的假设创建的，比如FB15K数据集…

人工智能 2023年6月10日
0084
论文：多智能体编队控制综述

目录多智能体编队基本分类多智能体编队的其他分类方式基于位置的编队控制：基于位移的编队控制基于距离的编队控制基于无向图的双积分模型：多智能体编队基本分类 &#x…

人工智能 2023年6月10日
00102
基于深度学习的仪表读数读取

基于深度学习的仪表盘识别代码：https://github.com/HibikiJie/ReadMeter 权重文件：链接: https://pan.baidu.com/s/1w…

人工智能 2023年7月22日
0045
人脸识别打卡项目(7)

目录变量初始化连接数据库 1. 数据库连接 2. 创建数据表 3. 查询数据获取Access Token 图片编码百度AI接口调用 1. 人脸质量检测 2. 人脸注册 3….

人工智能 2023年6月22日
0058
医学图像分割文章阅读笔记

1、Detection-aided liver lesion segmentation using deep learning 2、Automatic Liver and Tumo…

人工智能 2023年6月20日
0061

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

经典网络结构 (七)：FPN, DetNet

目录

大家都在看