一些特征融合技巧

2023年5月26日下午4:33 • 人工智能 • 阅读 81

文章目录

前言
一、一些特征融合方式
二、特征融合分类
三、晚融合方法归纳总结
*
1、[Feature Pyramid Network（FPN）](https://arxiv.org/abs/1612.03144)
2、[Path Aggregation Network for Instance Segmentation（PANet）](https://arxiv.org/abs/1803.01534)
3、[M2det: A single-shot object detector based on multi-level feature pyramid network（MLFPN）](https://arxiv.org/abs/1811.04533)

前言

目标检测中的特征融合技术。

一、一些特征融合方式

传统特征：像SPP net，Fast RCNN，Faster
RCNN是采用这种方式，即仅采用网络最后一层的特征。

图像金字塔：将原图片做成不同的尺寸，再进行特征提取，进行检测。可以在检测的时候尝试。

多尺度特征融合：像SSD（Single Shot Detector）采用这种多尺度特征融合的方式，没有上采样过程，即从网络不同层抽取不同尺度的特征做预测，这种方式不会增加额外的计算量。

特征金字塔（FPN）：顶层特征通过上采样和低层特征做融合，而且每层都是独立预测的。
一些特征融合技巧

; 二、特征融合分类

在深度学习的很多工作中（例如目标检测、图像分割）， 融合不同尺度的特征是提高性能的一个重要手段。低层特征分辨率更高，包含更多 位置、细节信息，但是由于经过的卷积更少，其 语义性更低，噪声更多。高层特征 具有更强的语义信息，但是分辨率很低，对细节的感知能力较差。如何将两者高效融合，取其长处，弃之糟泊，是改善分割模型的关键。
很多工作通过融合多层来提升检测和分割的性能，按照融合与预测的先后顺序，分类为 早融合(Early fusion)和晚融合(Late fusion)。
早融合(Early fusion): 先融合多层的特征，然后在融合后的特征上训练预测器（只在完全融合之后，才统一进行检测） 。这类方法也被称为skip connection，即采用concat、add操作。这一思路的代表是Inside-Outside Net(ION)和HyperNet。两个经典的特征融合方法：
（1）concat：系列特征融合，直接将两个特征进行连接。两个输入特征x和y的维数若为p和q，输出特征z的维数为p+q；
（2）add：并行策略，将这两个特征向量组合成复向量，对于输入特征x和y，z = x + iy，其中i是虚数单位。
晚融合(Late fusion)：通过结合不同层的检测结果改进检测性能（尚未完成最终的融合之前，在部分融合的层上就开始进行检测，会有多层的检测，最终将多个检测结果进行融合）。这一类研究思路的代表有两种：
（1） feature不融合，多尺度的feture分别进行预测，然后对预测结果进行综合，如Single Shot MultiBox Detector (SSD) , Multi-scale CNN(MS-CNN)
（2） feature进行金字塔融合，融合后进行预测，如Feature Pyramid Network(FPN)等。

三、晚融合方法归纳总结

FPN（Feature Pyramid Network）算法同时利用低层特征高分辨率和高层特征的高语义信息，通过融合这些不同层的特征达到预测的效果。并且预测是在每个融合后的特征层上单独进行的，这和常规的特征融合方式不同。
FPN将深层信息上采样，与浅层信息逐元素地相加，从而构建了尺寸不同的特征金字塔结构，性能优越，现已成为目标检测算法的一个标准组件。FPN的结构如下所示。
自下而上：最左侧为普通的卷积网络，默认使用ResNet结构，用作提取语义信息。C1代表了ResNet的前几个卷积与池化层，而C2至C5分别为不同的ResNet卷积组，这些卷积组包含了多个Bottleneck结构，组内的特征图大小相同，组间大小递减。
自上而下：首先对C5进行1×1卷积降低通道数得到P5，然后依次进行上采样得到P4、P3和P2，目的是得到与C4、C3与C2长宽相同的特征，以方便下一步进行逐元素相加。这里 采用2倍最邻近上采样，即直接对临近元素进行复制，而非线性插值。
横向连接（Lateral Connection）：目的是为了 将上采样后的高语义特征与浅层的定位细节特征进行融合。高语义特征经过上采样后，其长宽与对应的浅层特征相同，而通道数固定为256，因此需要对底层特征C2至C4进行11卷积使得其通道数变为256，然后两者进行逐元素相加得到P4、P3与P2。 由于C1的特征图尺寸较大且语义信息不足，因此没有把C1放到横向连接中。
卷积融合：在得到相加后的特征后，利用3×3卷积对生成的P2至P4再进行融合，目的是 消除上采样过程带来的重叠效应，以生成最终的特征图。
FPN对于不同大小的RoI，使用不同的特征图，大尺度的RoI在深层的特征图上进行提取，如P5，小尺度的RoI在浅层的特征图上进行提取，如P2。FPN的代码实现如下：

import torch.nn as nn
import torch.nn.functional as F
import math

class Bottleneck(nn.Module):
    expansion = 4
    def __init__(self, in_planes, planes, stride=1, downsample=None):
        super(Bottleneck, self).__init__()
        self.bottleneck = nn.Sequential(
                nn.Conv2d(in_planes, planes, 1, bias=False),
                nn.BatchNorm2d(planes),
                nn.ReLU(inplace=True),
                nn.Conv2d(planes, planes, 3, stride, 1, bias=False),
                nn.BatchNorm2d(planes),
                nn.ReLU(inplace=True),
                nn.Conv2d(planes, self.expansion * planes, 1, bias=False),
                nn.BatchNorm2d(self.expansion * planes),
            )
        self.relu = nn.ReLU(inplace=True)
        self.downsample = downsample
    def forward(self, x):
        identity = x
        out = self.bottleneck(x)
        if self.downsample is not None:
            identity = self.downsample(x)
        out += identity
        out = self.relu(out)
        return out

class FPN(nn.Module):
    def __init__(self, layers):
        super(FPN, self).__init__()
        self.inplanes = 64
        self.conv1 = nn.Conv2d(3, 64, 7, 2, 3, bias=False)
        self.bn1 = nn.BatchNorm2d(64)
        self.relu = nn.ReLU(inplace=True)
        self.maxpool = nn.MaxPool2d(3, 2, 1)

        self.layer1 = self._make_layer(64, layers[0])
        self.layer2 = self._make_layer(128, layers[1], 2)
        self.layer3 = self._make_layer(256, layers[2], 2)
        self.layer4 = self._make_layer(512, layers[3], 2)
        self.toplayer = nn.Conv2d(2048, 256, 1, 1, 0)

        self.smooth1 = nn.Conv2d(256, 256, 3, 1, 1)
        self.smooth2 = nn.Conv2d(256, 256, 3, 1, 1)
        self.smooth3 = nn.Conv2d(256, 256, 3, 1, 1)

        self.latlayer1 = nn.Conv2d(1024, 256, 1, 1, 0)
        self.latlayer2 = nn.Conv2d( 512, 256, 1, 1, 0)
        self.latlayer3 = nn.Conv2d( 256, 256, 1, 1, 0)

    def _make_layer(self, planes, blocks, stride=1):
        downsample  = None
        if stride != 1 or self.inplanes != Bottleneck.expansion * planes:
            downsample  = nn.Sequential(
                nn.Conv2d(self.inplanes, Bottleneck.expansion * planes, 1, stride, bias=False),
                nn.BatchNorm2d(Bottleneck.expansion * planes)
            )
        layers = []
        layers.append(Bottleneck(self.inplanes, planes, stride, downsample))
        self.inplanes = planes * Bottleneck.expansion
        for i in range(1, blocks):
            layers.append(Bottleneck(self.inplanes, planes))
        return nn.Sequential(*layers)

    def _upsample_add(self, x, y):
        _,_,H,W = y.shape
        return F.upsample(x, size=(H,W), mode='bilinear') + y

    def forward(self, x):

        c1 = self.maxpool(self.relu(self.bn1(self.conv1(x))))
        c2 = self.layer1(c1)
        c3 = self.layer2(c2)
        c4 = self.layer3(c3)
        c5 = self.layer4(c4)

        p5 = self.toplayer(c5)
        p4 = self._upsample_add(p5, self.latlayer1(c4))
        p3 = self._upsample_add(p4, self.latlayer2(c3))
        p2 = self._upsample_add(p3, self.latlayer3(c2))

        p4 = self.smooth1(p4)
        p3 = self.smooth2(p3)
        p2 = self.smooth3(p2)
        return p2, p3, p4, p5

（1）、 缩短信息路径和用低层级的准确定位信息增强特征金字塔，创建了自下而上的 路径增强
（2）、为了恢复每个建议区域和所有特征层级之间被破坏的信息，作者开发了 适应性特征池化（adaptive feature pooling）技术，可以将所有特征层级中的特征整合到每个建议区域中，避免了任意分配的结果。
（3）、 全连接融合层：使用一个小型fc层用于补充mask预测

自下而上的路径增强
Bottom-up Path Augemtation的提出主要是考虑到网络的浅层特征对于实例分割非常重要，不难想到浅层特征中包含大量边缘形状等特征，这对实例分割这种像素级别的分类任务是起到至关重要的作用的。因此，为了保留更多的浅层特征，论文引入了Bottom-up Path Augemtation。

红色的箭头表示在FPN中，因为要走自底向上的过程，浅层的特征传递到顶层需要经过几十个甚至上百个网络层，当然这取决于BackBone网络用的什么，因此经过这么多层传递之后，浅层的特征信息丢失就会比较严重。
绿色的箭头表作者添加了一个Bottom-up Path Augemtation结构，这个结构本身不到10层，这样浅层特征经过原始FPN中的横向连接到P2然后再从P2沿着Bottom-up Path Augemtation传递到顶层，经过的层数不到10层，能较好的保存浅层特征信息。注意，这里的N2和P2表示同一个特征图。但N3,N4,N5和P3,P4,P5不一样，实际上N3,N4,N5是P3,P4,P5融合后的结果。
Bottom-up Path Augemtation的详细结构如下图所示，经过一个尺寸为，步长为的卷积之后，特征图尺寸减小为原来的一半然后和这个特征图做add操作，得到的结果再经过一个卷积核尺寸为，的卷积层得到。
Bottom-up Path Augemtation详细结构
适应性特征池化（adaptive feature pooling）

论文指出，在Faster-RCNN系列的标检测或分割算法中， RPN网络得到的ROI需要经过ROI Pooling或ROI Align提取ROI特征，这一步操作中每个ROI所基于的特征都是 单层特征，FPN同样也是基于单层特征，因为检测头是分别接在每个尺度上的。

本文提出的 Adaptive Feature Pooling则是将单层特征换成多层特征，即每个ROI需要和多层特征（论文中是4层）做ROI Align的操作，然后将得到的不同层的ROI特征融合在一起，这样每个ROI特征就融合了多层特征。

RPN网络获得的每个ROI都要分别和特征层做ROI Align操作，这样个ROI就提取到4个不同的特征图，然后将4个不同的特征图融合在一起就得到最终的特征，后续的分类和回归都是基于此最终的特征进行。

*全连接融合层（Fully-Connected Fusion）

全连接融合层对原有的分割支路(FCN)引入一个前景二分类的全连接支路，通过融合这两条支路的输出得到更加精确的分割结果。这个模块的具体实现如图所示。

*Fully-Connected Fusion模块

从图中可以看到这个结构主要是在原始的Mask支路（即带deconv那条支路）的基础上增加了下面那个支路做融合。增加的这个支路包含个的卷积层，然后接一个全连接层，再经过reshape操作得到维度和上面支路相同的前背景Mask，即是说下面这个支路做的就是前景和背景的二分类，输出维度类似于文中说的。而上面的支路输出维度类似，其中代表数据集目标类别数。最终，这两条支路的输出Mask做融合以获得更加精细的最终结果。

之前的特征金字塔目标检测网络共有的两个问题是：
（1）、原本 backbone 是用于目标分类的网络，导致用于 目标检测的语义特征不足；
（2）、每个用于目标检测的特征层主要或者仅仅是由单级特征层（single-level layers）构成，也就是 仅仅包含了单级信息；

这种思想导致一个很严重的问题， 对分类子网络来说更深更高的层更容易区分，对定位的回归任务来说使用更低更浅的层比较好。此外， 底层特征更适合描述具有简单外观的目标，而高层特征更适合描述具有复杂外观的目标。在实际中，具有相似大小目标实例的外观可能非常不同。例如一个交通灯和一个远距离的人可能具有可以比较的尺寸，但是人的外表更加复杂。因此， 金字塔中的每个特征图主要或者仅仅由单层特征构成可能会导致次优的检测性能。

为了更好地解决目标检测中尺度变化带来的问题，M2det提出一种更有效的 特征金字塔结构MLFPN，其大致流程如下图所示：首先，对主干网络提取到的特征进行融合；然后通过 TUM和FFM提取更有代表性的Multi-level&Mutli-scale特征；最后通过 SFAM融合多级特征，得到多级特征金字塔用于最终阶段的预测。M2Det使用主干网络+MLFPN来提取图像特征，然后采用类似SSD的方式预测密集的包围框和类别得分，通过NMS得到最后的检测结果。

如上图所示，MLFPN主要有3个模块组成：
1）特征融合模块FFM；
2）细化U型模块TUM；
3） 尺度特征聚合模块SFAM.

首先， FFMv1对主干网络提取到的浅层和深层特征进行融合，得到base feature；

其次，堆叠多个TUM和FFMv2，每个TUM可以产生多个不同scale的feature map，每个FFMv2融合base feature和上一个TUM的输出，并给到下一个TUM作为输入（更高level）。

最后，SFAM通过scale-wise拼接和channel-wise attention来聚合multi-level&multi-scale的特征。

特征融合模块FFM
FFM用于融合M2Det中不同级别的特征，先通过1×1卷积压缩通道数，再进行拼接。

FFM1 用于 融合深层和和浅层特征，为 MLFPN 提供基本输入的特征层（Base Feature）；由于 M2Det 使用了 VGG 作为 backbone，因此 FFM1 取出了 Conv4_3 和 Conv5_3 作为输入：FFMv1 使用两种不同scale的feature map作为输入，所以在拼接操作之前加入了上采样操作来调整大小；

FFMv2用于融合 MLFPN 的基本输入（Base Feature）和上一个 TUM 模块的输出，两个输入的scale相同，所以比较简单。
*细化U型模块TUM

TUM使用了比FPN和RetinaNet 更薄的U型网络。在上采样和元素相加操作之后加上 1×1卷积来加强学习能力和保持特征平滑度。TUM中每个解码器的输出共同构成了该TUM的multi-scale输出。每个TUM的输出共同构成了multi-level&multi-scale特征，前面的TUM提供low level feature，后面的TUM提供high level feature。

TUM 的编码器（encoder）使用 3×3 大小、步长为 2 的卷积层进行特征提取，特征图不断缩小；解码器（decoder）同过双线性插值的方法将特征图放大回原大小。

*尺度特征聚合模块SFAM

SFAM旨在聚合TUMs产生的多级多尺度特征，以构造一个 多级特征金字塔。在first stage，SFAM沿着channel维度将拥有相同scale的feature map进行拼接，这样得到的每个scale的特征都包含了多个level的信息。然后在second stage， 借鉴SENet的思想，加入channel-wise attention，以更好地捕捉有用的特征。SFAM的细节如下图所示：

*网络配置

M2Det的主干网络采用VGG-16和ResNet-101。

MLFPN的默认配置包含有 8个TUM，每个TUM包含5个跨步卷积核5个上采样操作，所以每个TUM的输出包含了6个不同scale的特征。

在检测阶段，为6组金字塔特征每组后面添加两个卷积层，以分别实现位置回归和分类。

后处理阶段，使用soft-NMS来过滤无用的包围框。

Original: https://blog.csdn.net/MCU_master/article/details/125873166
Author: 陌上小布
Title: 一些特征融合技巧

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/520520/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

5.2 tensorflow2实现多元线性回归、完成广告投放销售额预测——python实战

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月26日
00108
数学建模——遗传算法步骤及程序详解

数学建模——遗传算法步骤及程序详解文章目录数学建模——遗传算法步骤及程序详解前言一、遗传算法的基础 * 1、编码和解码 2、适应度函数 3、交叉 4、变异 5、选择二、遗…

人工智能 2023年6月19日
0099
SPL工业智能：发现时序数据的异常

基本问题工业生产过程中会产生大量的数据，比如电压、温度、流量等等，它们随时间推移而不断产生，这些数据在多数情况下是正常的，否则生产无法正常进行；少数情况下，数据是异常的，生产效率…

人工智能 2023年7月26日
0057
YOLOv5改进之一：添加SE注意力机制

前言：作为当前先进的深度学习目标检测算法YOLOv5，已经集合了大量的trick，但是在处理一些复杂背景问题的时候，还是容易出现错漏检的问题。此后的系列文章，将重点对YOLOv5…

人工智能 2023年7月5日
0067
毕设题目：Matlab交通标志识别

1 案例背景交通标志识别技术是智能交通和自动驾驶领域中的一项关键性技术,如何建立一个准确性高、实时性好以及安全性佳的交通标志识别系统是当下一大研究热点。在简要介绍该系统框架和比较已…

人工智能 2023年6月20日
00108
计算机视觉OpenCV-图像直方图

💥💥💥 欢迎来到本博客💥💥💥🎉 作者简介：⭐️⭐️⭐️ 目前计算机研究生在读。主要研究方向是人工智能和群智能算法方向。目前熟悉python网页爬虫、机器学习、计算机视觉（OpenC…

人工智能 2023年6月24日
0069
150935131_2_青少年心理弹性量表_255_255

@150935131_2_青少年心理弹性量表_255_255 描述性统计名称平均值±标准差方差 25分位数 75分位标准误均值95%CI(LL) 均值95%CI(UL) I…

人工智能 2023年6月11日
0065
全局平均池化/全局最大池化Pytorch实现：

全局池化零、全局池化介绍一、全局平均池化二、全局最大池化零、全局池化介绍普通池化方法汇总详见：https://blog.csdn.net/qq_43665602/arti…

人工智能 2023年6月16日
0079
文本检测(Text Detection)简要综述

文章目录检测(Detection)在计算机视觉中的位置检测任务 * – 经典数据集评价指标发展历史什么叫Anchor 检测架构 RPN FPN(特征金字塔网络…

人工智能 2023年6月16日
00112
机器学习Sklearn——红酒分类案例详解决策树模型参数

目录 1 分类树 1.1 红酒分类案例 1.1.1 导入包 1.1.2 观察、分割数据 1.1.3 三段论 2 参数介绍 2.1 重要参数 2.2 控制随机选项参数 2.3 剪枝参…

人工智能 2023年6月30日
00140
Temporal Convolutional Network with Frequency Dimension AdaptiveAttention for Speech Enhancement

[ INTERSPEECH 2021] Motivation 目前尽管取得了很多进展，但大多数基于时域卷积网络（TCN）的语音增强模型主要集中在对语音帧的长期时间背景依赖进行建模，…

人工智能 2023年5月25日
0074
Pandas数据分析17——pandas数据清洗(缺失值、重复值处理)

参考书目：《深入浅出Pandas：利用Python进行数据处理与分析》 pandas对大数据有很多便捷的清洗用法，尤其针对缺失值和重复值。缺失值就不用说了，会影响计算，重复值有时候…

人工智能 2023年6月15日
0077
Python实时获取steam游戏数据

Steam是由美国电子游戏商Valve于2003年9月12日推出的数字发行平台，被认为是计算机游戏界最大的数码发行平台之一，Steam平台是全球最大的综合性数字发行平台之一。玩家可…

人工智能 2023年7月4日
0089
（二十六）【2021 WWW】Knowledge-Preserving Incremental Social Event Detection via Heterogeneous GNNs

题目： Knowledge-Preserving Incremental Social Event Detection via Heterogeneous GNNs中文题目：基于…

人工智能 2023年6月10日
00101
tensorflow2.6.0+annconda4.10.1+cuda11.2+cudnn8.0+pycharm运行tensorflow-gpu版本·

安装步骤主要是另一个博客作者的步骤。在这里，我主要写我踩到的坑和其他博客的内容。 [En] The installation step is mainly another blog…

人工智能 2023年5月25日
00107
Praat提取的基频可以工程应用吗？

Praat作为普通语音学习者的标注工具已经算是比较经典的工具了。近些年来，随着AI的兴起，神经网络的算法更新迭代也很迅速，这其中有一些算法会涉及到基频，也称为音高，这个参数的应用。…

人工智能 2023年5月25日
00109

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

一些特征融合技巧

文章目录

大家都在看