2D 语义分割——DeepLabV3plus 复现

2023年6月17日上午1:48 • 人工智能 • 阅读 88

文章目录

语义分割简介
DeepLabV3plus
*
模型结构
基础知识点
模型实现
Backbone 设计
实验结果

语义分割简介

😸语义分割结合了图像分类、目标检测和图像分割，其通过一定的方法将图像分割成 具有一定语义含义的区域块，并识别出每个区域块的 语义类别，实现从底层到高层的语义推理过程，最终得到一幅具有 逐像素语义标注的分割图像。图像语义分割方法有 传统方法和基于卷积神经网络的方法，而传统的语义分割方法又可分为 基于统计的方法和基于几何的方法。随着深度学习的发展，语义分割技术得到很大的进步，基于卷积神经网络的语义分割方法与传统的语义分割方法最大不同是， 网络可以自动学习图像的特征，进行 端到端的分类学习，大大 提升语义分割的精确度。

😿 基于候选区域的语义分割方法首先从图像中 提取自由形式的区域并对他们的特征进行描述，然后再基于区域 进行分类，最后将基于区域的预测 转换为像素级别预测，并使用包含 像素最高得分的区域来标记像素。该方法虽然为语义分割的发展带来很大的进步，但是它需要生成大量的候选区域，此过程要 花费大量的时间和内存空间。此外， 不同算法提取的候选区域集的质量也千差万别，这将直接影响了最终的语义分割效果。

😸 基于全卷积的深度语义分割模型，主要特点是没有使用全连接层， 全部由卷积层构成。该类模型又可细分为基于全卷积的 对称语义分割模型、基于全卷积的 扩张卷积语义分割模型和基于全卷积的 残差网络语义分割模型。目前，基于全卷积的对称语义分割模型主要有 FCN、 SegNet、 Unet 及其各种变体等，但该类模型得到分割结果 较粗糙，其忽略了像素与像素之间的空间一致性关系。于是 Google 提出了一种新的扩张卷积语义分割模型， 考虑了像素与像素之间的空间一致性关系，可以在不增加参数量的情况下 增加感受野，该类语义分割模型主要有 DeepLab 系列、 RefineNet 等。此外，基于全卷积的残差网络语义分割模型主要有 PSPNet 等。其中， DeepLab 系列中的 DeepLabV3plus 的复现为本次大作业的主要工作。

😿目前流行的深度网络，比如 VGG， ResNet等，由于 pooling 操作和卷积步长的存在，其 特征图会越来越小，从而导致损失一些细粒度的信息。对于分类问题而言，只需要深层的强语义信息就能表现较好，但是对于稠密预测问题，比如逐像素的图像分割问题，除了需要强语义信息之外，还 需要较高的空间分辨率。针对这些问题，很多方法都提出了解决方案：

针对 pooling 下采样过程中的分辨率损失，可采用 deconvolution 恢复。但是 却很难恢复位置信息。
使用空洞卷积保持分辨率，增大感受野，但是这么做会明显 增加了计算代价，且空洞卷积是一种 coarse sub-sampling，因此 容易损失重要信息。
通过 skip connection 来产生高分辨率的预测。

DeepLabV3plus

模型结构

DeepLabV3plus 是一个用于语义分割的模型，它提出了一种新的 encoder-decoder 结构， 采用 DeepLabv3 作为编码器模块，并使用一个简单而有效的解码器模块。该模型可 通过 atrous 卷积（空洞卷积）来控制所提取的编码器特征的分辨率，从而权衡精度和运行时间。此外，该网络还将 Xception 模型用于分割任务，并将 Depthwise Separable Convolution 应用于 ASPP 模块和解码器模块，从而 得到更快更强的 encoder-decoder 网络。其网络结构如下：

将图像 A 送进改造过后的主流深度卷积网络 B（其中使用了空洞卷积）提取特征，从而 得到高级语义特征 C 和低级语义特征 E
高级语义特征 C 进入到 空洞金字塔池化模块 ASPP，分别与四个空洞卷积层和一个池化层 进行卷积和池化（需上采样），得到五个特征图（大小一致），然后 将这些特征图拼接起来并送入一个 1x1 的卷积层进行运算后得到 D（通道数为原先的 1/5）， D 再经过 上采样得到 G（方便后面拼接操作）
低级语义特征 E 经过 1x1 卷积进行 降通道数得到 F（大小与 G 一致），将这两者 拼接起来通过卷积层得到 H（降低通道数）。将 H 送入 3x3 卷积层中并 上采样至与原图大小一致后输出预测结果 I

; 基础知识点

对于语义分割，空间金字塔池化（spatial pyramid pooling）模块可通过池化不同分辨率的特征图来 捕获丰富的上下文信息，而 encoder-decoder 结构可以 得到清晰的物体边界。通常情况下，encoder 减少特征图的大小并 捕捉更高层次的语义信息，而 decoder 用来 恢复空间信息。尽管丰富的语义信息存在于最后的特征图中，但由于 backbone 内部的池化或卷积操作，使得与 对象边界相关的详细信息缺失。为了缓解这一问题，DeepLabV3plus 引入空洞卷积这一比较特殊的卷积操作。以下是 SPP、encoder-decoder 以及 SPP+encoder-decoder+atrous conv 的结构示意图：

Depthwise separable convolution 是一个可以 减少计算量和参数量，并保持与普通卷积类似（或略好）性能的操作，其相当于 Depthwise 卷积 + Pointwise 卷积。

Depthwise 卷积： 一个通道由一个卷积核负责（即第n个通道由第n个卷积核来处理），其输出通道数与输入 通道数一致
Pointwise 卷积：卷积核大小为 1x1xc，其中 c 为输入通道数， 输出通道数与卷积核个数一致
Atrous卷积：显式地控制深度卷积神经网络中计算的 特征图的分辨率，并 调整卷积核的感受野（field-of-view）以捕获多尺度信息
Atrous depthwise卷积：DW 卷积中的卷积核 改为空洞卷积，deeplabv3+ 中使用的 膨胀率为 2，如图中 (c) 所示

模型实现

😸DeepLabV3plus 模型主体在 deeplabv3plus.py 中实现，该文件包含3个类：

继承自 nn.Sequential 的 CBR 类，其包含卷积、批归一化和激活函数，在卷积中通过参数 dilation 来指定卷积核的膨胀率

继承自 nn.Module 的 ASPP 类，该模块包含五个分支。branch1 卷积核大小为 1×1，而 branch5 通过池化操作可得到全局性的特征，但需通过上采样及卷积操作使特征图大小、通道大小与其他分支一致；branch2-branch4 的卷积核大小为 3，膨胀率分别为6rate、12rate、18rate，其 rate 根据 output stride 来确定，可分为 1 和 2。

继承自 nn.Module 的 DeepLabV3plus 类，该类的 backbone 支持 Xception、ResNet 和 MobileNetV2。其中，由于 MobileNetV2 比较轻量级，所以其输入通道（高级语义特征通道数）和低级语义特征通道数相对较小，分别为 320 和 24；骨干网络 ResNet 中参数 layers 的最后一个值在代码中并没有被我所使用，其通过一个长度等于 3 的数组代替；downsample_factor 其实就是论文中的 output stride，大小为 16 或 8。处理低级语义特征的 shortcut_conv 的输出通道根据论文中的建议使用 48。

; Backbone 设计

Xception：DeepLabV3plus 所改进的 Xception 拥有更多的 layers，其在 Middle flow 中 重复使用 16 次，而原始网络仅重复 8 次。此外，所有的 max pooling 操作都改为 deepwise separable convolution 并且在 3x3 的 DW 卷积操作后 添加 batch normalization 和 ReLU 激活函数。该骨干网络在 xception.py 中实现，其网络结构如下：

ResNet101：DeepLabV3plus 使用的 ResNet101 在网络层数上与原始 ResNet101 相同，只是后面的卷积操作 使用了 dilation 来指定膨胀率。该骨干网络在 resnet.py 中实现，其网络结构如下：

MobileNetV2：该骨干网络 使用倒残差结构，相对于残存结构，其 将降维和升维的顺序进行了调换，并且将 3x3 卷积换为 3x3 的 DW 卷积。此外，网络中的 激活函数使用 ReLU6。为了得到适用于 DeepLabV3plus 的骨干网络，可将 MobileNetV2 卷积核的膨胀率根据 output stride 来修改，但由于该网络比较轻量级，所以最后得到的低级语义特征和高级语义特征的通道数相对于 Xception 和 ResNet101 会比较小。该网络在 mobilenetv2.py 中实现，其网络结构如下：

实验结果

本次实验采用数据集为 VOC2012，损失函数为交叉熵损失或 Focal loss，训练集加载时 仅做随机旋转、随机翻转和修改大小操作。由于本人计算机显存不足以支持较大规模训练，训练过程使用的 output stride 采用16（训练效果相对于 8 会较差）， batch size 为 8（MobileNetV2）和 4（Xception 和 ResNet101）。以下是实验所使用 backbone 相应的 mIOU 值以及骨干网络为 Xception 的部分预测结果：

BackboneXceptionResNet101MobileNetV2mIOU80.378.576.1

xception 的部分预测结果

mobilenetv2 的部分预测结果

😸若需要代码可以下载我上传的资源，不需要积分，但本资源不包含训练后的权重，仅供参考

Original: https://blog.csdn.net/steven_ysh/article/details/125953096
Author: Lemon_Yam
Title: 2D 语义分割——DeepLabV3plus 复现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/627837/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

如何利用excel表格对采集的AD数据进行fft傅里叶变换

在网上查了好久也没有很全面的介绍，只是很笼统的说明一下，自己花点时间研究一下，汇总起来，希望帮助到大家。我用的office2016，以此为例，大同小异。一、先确认excel表格是…

人工智能 2023年7月17日
0063
知识抽取实现方案——实体抽取

参考地址：知识抽取-实体及关系抽取 – 知乎目录摘要：实体抽取：标准实现流程（用机器学习方法）编码方式深度学习方法评价指标实体链接摘要：知识抽取涉及…

人工智能 2023年6月1日
0095
什么是知识图谱？

目录前言 1.什么是知识图谱 2.知识图谱的通用表示方式 3.知识图谱的应用 3.1搜索 3.2问答 3.3辅助大数据分析 4.知识图谱的构建 4.1流程概述 4.2知识抽取 4…

人工智能 2023年7月27日
00188
知识图谱01：知识图谱的定义

公众号：数据挖掘与机器学习笔记知识图谱(knowledge graph)是以图的形式表现客观世界中的实体(概念、人、事物)及其之间的关系的知识库。2012年，谷歌提出了知识图谱的…

人工智能 2023年6月10日
0069
【机器学习】CNN、并发Socket、telegram_bot 备忘录

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月26日
0074
Python数据分析 4.pandas数据科学库

Python数据分析 4.pandas数据科学库 1.数据类型series 实质是带标签的一维数组，有键和值 import pandas as pd t1 = pd.Series(…

人工智能 2023年7月6日
0078
随机森林算法（Random Forest）原理分析及Python实现

目录一、基础概念 * 1.监督式机器学习 2. 回归和分类 3. 决策树 4. 随机森林二、Random Forest 的构造 * 1. 算法实现 2.数据的随机选取 3. 待…

人工智能 2023年7月5日
0093
基于灰度的图像匹配算法

基于灰度的匹配算法又称为基于模板的匹配算法，子图与模板图对应位置上灰度值计算得出一个值，这个值可以是对应像素相减绝对值的加和（即SAD算法），也可以将计算出的和除以模板像素个数，即…

人工智能 2023年6月18日
00104
讯飞离线命令词识别

可以借鉴这几个博客：目前，讯飞的SDK是有90天试用时间，装机量10个，足够尝试了。大概分为几步：我使用的是Linux环境。工程目录： bin目录下编译生成的目标文件、语…

人工智能 2023年5月27日
00112
yolov5

深入浅出Yolo系列之Yolov5核心基础知识完整讲解 – 知乎大白在之前写过《深入浅出Yolo系列之Yolov3&Yolov4核心基础知识完整讲解》对 Yo…

人工智能 2023年7月9日
0083
Turtlebot3 Gazebo仿真环境下深度强化学习DQN开发环境构建——补充

打开第三个终端，启动数据图形显示节点： pip install pyqtgraph roslaunch turtlebot3_dqn result_graph.launch 产生报…

人工智能 2023年6月11日
0096
Python中的图像处理（第十一章）Python图像锐化及边缘检测（1）

Python中的图像处理（第十一章）Python图像锐化及边缘检测（1）前言一. Python准备二. Python仿真三. 小结前言随着人工智能研究的不断兴起，Pyt…

人工智能 2023年6月17日
0096
一文读懂qt界面设计（分裂器，布局，拉伸，各种属性设置）

可以先看看我这个文章：qt关于界面设计中的一些知识总结_我是标同学的博客-CSDN博客_qt 水平伸展现在我们来正式开始讲解。布局种类 qt中能称为布局管理器的有如下6个：水…

人工智能 2023年6月29日
0094
卷积神经网络模型之——GoogLeNet网络结构与代码实现

文章目录 GoogLeNet网络简介 GoogLeNet网络结构 * Inception之前的几层结构 Inception结构 – Inception3a模块 Ince…

人工智能 2023年6月16日
00106
[Pandas] DataFrame.drop() 删除数据

df.drop()通过指定标签名称和相应的轴，或直接给定索引或列名称来删除行或列语法 df.drop(labels = None, axis = 0, index = None,…

人工智能 2023年7月8日
0075
什么是哈希（hash）

文章目录什么是哈希 * 概念哈希的特性哈希的用途 python中基于hash的数据有哪些？ – dict 为何查询速度超快，且不受dict大小影响？ set为何…

人工智能 2023年7月5日
0056

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

2D 语义分割——DeepLabV3plus 复现

文章目录

模型结构

; 基础知识点

模型实现

大家都在看