实时语义分割网络 BiSeNet（附代码解读）

2023年5月26日下午1:11 • 人工智能 • 阅读 76

实时语义分割网络 BiSeNet

BiSeNet
*
Contributions
BackGround
BiSeNet 结构
Loss function
Experimental Results
–
- 采用数据集
- 一些实验结果

BiSeNet

Contributions

提出了一种包含空间路径(SP)和上下文路径(CP)的双边分割网络(BiSeNet), 将空间信息保存和接受域提供的功能解耦成两条路径。
提出了特征融合模块(FFM)和注意细化模块(ARM)，以在可接受的成本下进一步提高精度。
在cityscape、CamVid和COCO-Stuff的基准上取得了令人印象深刻的成绩。具体来说，在105fps的城市景观测试数据集上，我们得到了68.4%的结果

BackGround

作者对比了当前用于三种用于加速模型的实时语义分割算法：

图（a）左侧所示，通过裁剪图片降低尺寸和计算量，但是会丢失大量边界信息和可视化精度。
图（a）右侧所示，通过修建/减少卷积过程中的通道数目,提高推理速度。其中的红色方框部分，是作者提及的ENet建议放弃模型的最后阶段（downsample操作），模型的接受域不足以覆盖较大的对象导致的识别能力较差。
图形（b）所示为U型的编码，解码结构，通过融合骨干网的细节，u型结构提高了空间分辨率，填补了一些缺失的细节，但是作者认为在u型结构中， 一些丢失的空间信息无法轻易回复，不是根本的解决方案。

; BiSeNet 结构

Spatial Path

绿色部分表示空间路径，每一层包括一个stride = 2的卷积，接着是批处理归一化和ReLU激活函数，总共三层，故而提取的特征图尺寸是原始图像的1/8。

'''code'''
class SpatialPath(nn.Module):
    def __init__(self, *args, **kwargs):
        super(SpatialPath, self).__init__()
        self.conv1 = ConvBNReLU(3, 64, ks=7, stride=2, padding=3)
        self.conv2 = ConvBNReLU(64, 64, ks=3, stride=2, padding=1)
        self.conv3 = ConvBNReLU(64, 64, ks=3, stride=2, padding=1)
        self.conv_out = ConvBNReLU(64, 128, ks=1, stride=1, padding=0)
        self.init_weight()

    def forward(self, x):
        feat = self.conv1(x)
        feat = self.conv2(feat)
        feat = self.conv3(feat)
        feat = self.conv_out(feat)
        return feat

Context Path

第二个虚线框部分是上下文路径，用于提取上下文信息，利用轻量级模型和全局平均池进行下采样。作者在轻量级模型的尾部添加一个 全局平均池，提供具有全局上下文信息的最大接收字段，并且使用U型结构来融合最后两个阶段的特征，这是一种不完整的U型结构。作者使用了Xception作为上下文路径的主干。

'''code'''
class ContextPath(nn.Module):
    def __init__(self, *args, **kwargs):
        super(ContextPath, self).__init__()
        self.resnet = Resnet18()
        self.arm16 = AttentionRefinementModule(256, 128)
        self.arm32 = AttentionRefinementModule(512, 128)
        self.conv_head32 = ConvBNReLU(128, 128, ks=3, stride=1, padding=1)
        self.conv_head16 = ConvBNReLU(128, 128, ks=3, stride=1, padding=1)
        self.conv_avg = ConvBNReLU(512, 128, ks=1, stride=1, padding=0)
        self.up32 = nn.Upsample(scale_factor=2.)
        self.up16 = nn.Upsample(scale_factor=2.)

        self.init_weight()

    def forward(self, x):
        feat8, feat16, feat32 = self.resnet(x)
        '''
        feat8 : (N, 128, H/8, W/8)
        feat16 : (N, 256, H/16, W/16)
        feat32 : (N, 512, H/32, W/32)
        '''

        avg = torch.mean(feat32, dim=(2, 3), keepdim=True)
        avg = self.conv_avg(avg)

        feat32_arm = self.arm32(feat32)
        feat32_sum = feat32_arm + avg
        feat32_up = self.up32(feat32_sum)
        feat32_up = self.conv_head32(feat32_up)

        feat16_arm = self.arm16(feat16)
        feat16_sum = feat16_arm + feat32_up
        feat16_up = self.up16(feat16_sum)
        feat16_up = self.conv_head16(feat16_up)

        return feat16_up, feat32_up

AttentionRefinementModule

看起来有点像通道注意力机制。

'''ARM Code'''
class AttentionRefinementModule(nn.Module):
    def __init__(self, in_chan, out_chan, *args, **kwargs):
        super(AttentionRefinementModule, self).__init__()
        self.conv = ConvBNReLU(in_chan, out_chan, ks=3, stride=1, padding=1)
        self.conv_atten = nn.Conv2d(out_chan, out_chan, kernel_size= 1, bias=False)
        self.bn_atten = BatchNorm2d(out_chan)
        self.sigmoid_atten = nn.Sigmoid()
        self.init_weight()

    def forward(self, x):
        feat = self.conv(x)
        atten = torch.mean(feat, dim=(2, 3), keepdim=True)

        atten = self.conv_atten(atten)
        atten = self.bn_atten(atten)
        atten = self.sigmoid_atten(atten)
        out = torch.mul(feat, atten)
        return out

FeatureFusionModule

FFM：作者认为空间路径可以编码丰富的空间信息和细节信息，而上下文路径提供大的接受场，主要对上下文信息进行编码，也就是说空间路径的输出是低水平而上下文路径的输出是高水平的，2条路径的特征在特征表示的层次上是不同的。因此提出了一个特征融合模块用于融合这些特征。作者仿照SENet（通道注意力机制对特征进行重新加权），即特征的选择和组合。

'''code'''
class FeatureFusionModule(nn.Module):
    def __init__(self, in_chan, out_chan, *args, **kwargs):
        super(FeatureFusionModule, self).__init__()
        self.convblk = ConvBNReLU(in_chan, out_chan, ks=1, stride=1, padding=0)
        self.conv1 = nn.Conv2d( out_chan,
                                out_chan//4,
                                kernel_size = 1,
                                stride = 1,
                                padding = 0,
                                bias = False)
        self.conv2 = nn.Conv2d( out_chan//4,
                                out_chan,
                                kernel_size = 1,
                                stride = 1,
                                padding = 0,
                                bias = False)
        self.relu = nn.ReLU(inplace=True)
        self.sigmoid = nn.Sigmoid()
        self.init_weight()

    def forward(self, fsp, fcp):
        fcat = torch.cat([fsp, fcp], dim=1)
        feat = self.convblk(fcat)
        atten = torch.mean(feat, dim=(2, 3), keepdim=True)
        atten = self.conv1(atten)
        atten = self.relu(atten)
        atten = self.conv2(atten)
        atten = self.sigmoid(atten)
        feat_atten = torch.mul(feat, atten)
        feat_out = feat_atten + feat
        return feat_out

BiSeNet V1

class BiSeNetV1(nn.Module):

    def __init__(self, n_classes, output_aux=True, *args, **kwargs):
        super(BiSeNetV1, self).__init__()
        self.cp = ContextPath()
        self.sp = SpatialPath()
        self.ffm = FeatureFusionModule(256, 256)
        self.conv_out = BiSeNetOutput(256, 256, n_classes, up_factor=8)
        ''' BiSeNetOutput: input: (c, h, w)   output:(n_classes, 8h, 8w) '''
        self.output_aux = output_aux
        if self.output_aux:
            self.conv_out16 = BiSeNetOutput(128, 64, n_classes, up_factor=8)
            self.conv_out32 = BiSeNetOutput(128, 64, n_classes, up_factor=16)
        self.init_weight()

    def forward(self, x):
        H, W = x.size()[2:]
        feat_cp8, feat_cp16 = self.cp(x)
        feat_sp = self.sp(x)
        feat_fuse = self.ffm(feat_sp, feat_cp8)

        feat_out = self.conv_out(feat_fuse)
        if self.output_aux:
            feat_out16 = self.conv_out16(feat_cp8)
            feat_out32 = self.conv_out32(feat_cp16)
            return feat_out, feat_out16, feat_out32

        return feat_out

Loss function

利用主损失函数监督整个双组网的输出。
增加了两个具体的辅助损耗函数来监督上下文路径的输出。
所有的损失函数均为softmax损失。
通过参数α来平衡主损失函数和辅助损失函数的权重。（文中的α等于1。该接头损耗使得优化器在优化模型时更加舒适。）

class OhemCELoss(nn.Module):

    def __init__(self, thresh, ignore_lb=255):
        super(OhemCELoss, self).__init__()
        self.thresh = -torch.log(torch.tensor(thresh, requires_grad=False, dtype=torch.float))
        self.ignore_lb = ignore_lb
        self.criteria = nn.CrossEntropyLoss(ignore_index=ignore_lb, reduction='none')

    def forward(self, logits, labels):
        n_min = labels[labels != self.ignore_lb].numel() // 16
        loss = self.criteria(logits, labels).view(-1)
        loss_hard = loss[loss > self.thresh]
        if loss_hard.numel() < n_min:
            loss_hard, _ = loss.topk(n_min)
        return torch.mean(loss_hard)

criteria_pre = OhemCELoss(0.7)
criteria_aux = [OhemCELoss(0.7) for _ in range(2)]

Experimental Results

采用数据集

Cityscapes
CamVid
COCO-Stuff

一些实验结果

U型结构的消融实验。
空间路径的消融实验: 使用空间路径将性能从66.01%提高到67.42%，下图显示BiSeNet可以比只是用U-Shape获得更详细的空间信息，例如一些交通标志。
Else：

Original: https://blog.csdn.net/seek0226/article/details/115761910
Author: GQ177
Title: 实时语义分割网络 BiSeNet（附代码解读）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/519699/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习论文: YOLO-Z: Improving small object detection in YOLOv5 for autonomous vehicles及其PyTorch实现

深度学习论文: YOLO-Z: Improving small object detection in YOLOv5 for autonomous vehicles及其PyTorc…

人工智能 2023年7月10日
0048
Interactive Speech and Noise Modeling for Speech Enhancement

文章目录 0. 摘要 1. Introduction * 2. Related work – 2.1 Deep learning-based speech enhanc…

人工智能 2023年5月25日
0070
一点就分享系列（实践篇5-下篇）持续迭代！依旧全网首发—Yolov5项目爆肝升级High-level集结！逐一任务介绍，附赠模型通用修改方法和部署教程。

动机——停止魔改吧！最近回归检测等经典任务的更新，因为最近接触了很多生成类、比较前沿的任务，比如数字人等包含多模态（cv\nlp\tts\音视频合等），恰好这些我都涉略，但是过程…

人工智能 2023年7月26日
0076
深度学习分析NASA电池数据（1 数据读取）

1.背景 Intelligent Systems Division | NASA Randomized Battery Usage Data Set: PCoE Datasets …

人工智能 2023年7月28日
0055
【树莓派4B深度学习垃圾分类】Chap.3 树莓派安装opencv并测试视频接口实时视频流的垃圾分类【深度学习招式篇】

【树莓派4B深度学习垃圾分类】Chap.3 树莓派安装opencv并测试视频接口实时视频流的垃圾分类【深度学习招式篇】 * – 后记 – 1.激活虚拟环…

人工智能 2023年7月2日
0072
使用YOLOV5训练自己的数据集（以王者荣耀为例）

注：本文只是记录笔者使用yolov5训练自己的数据集的实现过程，不讲原理，如果想学原理请移步点击量比较高的大佬博客，笔者只是大二本科生，如有问题还请多多指教! 一，什么是yolov…

人工智能 2023年6月25日
0077
聚类–DBSCAN算法

模型：sklearn.cluster.DBSCAN(eps=0.5, min_samples=5, metric=’euclidean’, metric_p…

人工智能 2023年5月31日
00104
Windows平台Qt添加OpenCV模块

最近科技立项的项目需要同时用到QPainter来实现Canvas功能，同时要用OpenCV来识别绘图，需要在Qt里添加OpenCV模块opencv默认支持vc系列的编译器，在下载的…

人工智能 2023年7月20日
0070
Flink cdc 介绍及使用 FlinkCDC读取mysql 及 jdbc 连接参数配置

Flink cdc 介绍及使用 FlinkCDC读取mysql 及 jdbc 连接参数配置、官方案例 * – 1. Flink cdc 介绍 – 2. 常见…

人工智能 2023年7月30日
00130
PyTorch有哪些常用的扩展库和工具，可以帮助我们更高效地进行AI算法开发

1. Introduction PyTorch is a popular deep learning library that provides a flexible and ef…

人工智能 2024年1月2日
0035
李宏毅《机器学习》飞桨特训营(九)——卷积神经网络(含作业：食物分类)

李宏毅《机器学习》飞桨特训营(九）一. 卷积神经网络二. 作业：食物分类 * 2.1 数据集介绍 2.2 导入包 2.3 定义数据集 2.4 构建模型 2.5 开始训练 2.6…

人工智能 2023年7月2日
0084
离线语音识别应用（windows和Android）

参数说明参数名称说明默认值langType语种选项，参见必填sampleRate音频采样率，参见 16000enableIntermediateResult是否返回中间识别结果…

人工智能 2023年5月23日
0073
深度学习之YOLOv5实践应用（3-1）人头检测模型

参考：基于yolov5训练人头检测模型 – 知乎一、数据集下载地址：链接：链接：https://pan.baidu.com/s/1xBph3IBXKnArVtM…

人工智能 2023年7月27日
0073
MMdetection安装教程（Ubuntu）

1、下载工程自行去 Github 下载代码在下载好代码之后，打开里面的安装文档，查看一下要安装的 Python 最低版本和 Pytorch最低版本 Python 3.6+ PyT…

人工智能 2023年7月9日
0048
Mask RCNN算法详解（总结）

Mask RCNN:目标检测+实例分割作用：可以完成目标分类，目标检测，语义分割，实例分割，人体姿态识别等多种任务。 1.实例分割与语义分割的区别和关系？通常的目标分割是指语义…

人工智能 2023年6月17日
0088
线性规划之单纯形法

1.单纯形法建立在标准型线性规划上 2.标准型线性规划其最优解必定在可行域顶点上 3.单纯形法是在顶点上搜索最优解 4.掌握修正单纯形法的迭代步骤上一篇我们把搜索算法的逻辑做了详…

人工智能 2023年7月28日
0050

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30