DeepLabV1网络简析

2023年6月24日下午3:41 • 人工智能 • 阅读 82

原论文名称：Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs
论文下载地址：https://arxiv.org/abs/1412.7062
参考源码：https://github.com/TheLegendAli/DeepLab-Context

讲解视频： https://www.bilibili.com/video/BV1SU4y1N7Ao

文章目录

语义分割任务中存在的问题
DeepLabV1的优势
网络搭建细节
*
LargeFOV
MSc(Multi-Scale)

这篇文章最早发表于2014年，是Google和UCLA等共同的杰作，也是一篇很经典的论文，DeepLab系列的第一篇论文。因为已经过了很久了，所以本博文只做部分简单的记录。

; 语义分割任务中存在的问题

在论文的引言部分(INTRODUCTION)首先抛出了两个问题（针对语义分割任务）: 信号下采样导致分辨率降低和 空间”不敏感” 问题。

There are two technical hurdles in the application of DCNNs to image labeling tasks: signal downsampling, and spatial ‘insensitivity’ (invariance).

对于第一个问题 信号下采样，作者说主要是采用Maxpooling导致的，为了解决这个问题作者引入了 'atrous'(with holes) algorithm（空洞卷积 / 膨胀卷积 / 扩张卷积），如果不了解的可以参考我在bilibili上录的讲解视频。

对于第二个问题 空间”不敏感”，作者说分类器自身的问题（分类器本来就具备一定空间不变性），我个人认为其实还是Maxpooling导致的。为了解决这个问题作者采用了fully-connected CRF(Conditional Random Field)方法，这个方法只在DeepLabV1-V2中使用到了，从V3之后就不去使用了，而且这个方法挺耗时的。

DeepLabV1的优势

相比之前的一些网络，本文提出的网络具有以下优势：

速度更快，论文中说是因为采用了膨胀卷积的原因，但fully-connected CRF很耗时
准确率更高，相比之前最好的网络提升了7.2个点
模型很简单，主要由DCNN和CRF联级构成

网络搭建细节

LargeFOV

首先网络的backbone是当时比较火的VGG-16，并且和FCN网络一样将全连接层的权重转成了卷积层的权重，构成全卷积网络。然后关于膨胀卷积的使用，论文中是这么说的：

We skip subsampling after the last two max-pooling layers in the network of Simonyan & Zisserman (2014) and modify the convolutional filters in the layers that follow them by introducing zeros to increase their length (2×in the last three convolutional layers and 4× in the first fully connected layer).

感觉文中的 skip subsampling说的有点模糊（可能是自己英语水平太菜）什么叫做跳过下采样。既然看不懂论文的表述，就去看看代码。根据代码我绘制了如下所示的网络结构（DeepLab-LargeFOV）。

通过分析发现虽然backbone是VGG-16但所使用Maxpool略有不同，VGG论文中是 kernel=2，stride=2，但在DeepLabV1中是 kernel=3，stride=2，padding=1。接着就是最后两个Maxpool层的stride全部设置成1了（这样下采样的倍率就从32变成了8）。最后三个 3x3的卷积层采用了膨胀卷积，膨胀系数 r=2。然后关于将全连接层卷积化过程中，对于第一个全连接层（FC1）在FCN网络中是直接转换成卷积核大小7×7，卷积核个数为4096的卷积层，但在DeepLabV1中作者说是对参数进行了下采样最终得到的是卷积核大小3×3，卷积核个数为1024的卷积层（这样不仅可以减少参数还可以减少计算量，详情可以看下论文中的Table2），对于第二个全连接层（FC2）卷积核个数也由4096采样成1024。

After converting the network to a fully convolutional one, the first fully connected layer has 4,096 filters of large 7 × 7 spatial size and becomes the computational bottleneck in our dense score map computation. We have addressed this practical problem by spatially subsampling (by simple decimation) the first FC layer to 4×4 (or 3×3) spatial size.

将FC1卷积化后，还设置了膨胀系数，论文3.1中说的是 r=4但在 Experimental Evaluation中 Large of View章节里设置的是 r=12对应 LargeFOV。对于FC2卷积化后就是卷积核 1x1，卷积核个数为1024的卷积层。接着再通过一个卷积核 1x1，卷积核个数为 num_classes（包含背景）的卷积层。最后通过8倍上采样还原回原图大小。

下表是关于是否使用LargeFOV（Field of View）的对比。

第一行 DeepLab-CRF-7x7就是直接将FC1按照FCN论文中的方法转换成7×7大小的卷积层，并且膨胀因子r=4（receptive field=224）。
第二行 DeepLab-CRF是将7×7下采样到4×4大小的卷积层，同样膨胀因子r=4（receptive field=128），可以看到参数减半，训练速度翻倍，但mean IOU下降了约4个点。
第三行 DeepLab-CRF-4x4，是在 DeepLab-CRF的基础上把膨胀因子r改成了8（receptive field=224），mean IOU又提升了回去了。
第四行 DeepLab-CRF-LargeFOV，是将7×7下采样到3×3大小的卷积层，膨胀因子r=12（receptive field=224），相比 DeepLab-CRF-7x7，参数减少了6倍，训练速度提升了3倍多，mean IOU不变。

; MSc(Multi-Scale)

其实在论文的4.3中还提到了Multi-Scale Prediction，即融合多个特征层的输出。关于MSc(Multi-Scale)的结构论文中是这么说的：

Specifically, we attach to the input image and the output of each of the first four max pooling layers a
two-layer MLP (first layer: 128 3×3 convolutional filters, second layer: 128 1×1 convolutional filters) whose feature map is concatenated to the main network’s last layer feature map. The aggregate feature map fed into the softmax layer is thus enhanced by 5 * 128 = 640 channels.

即，除了使用之前主分支上输出外，还融合了来自原图尺度以及前四个Maxpool层的输出，更详细的结构参考下图。论文中说使用MSc大概能提升1.5个点，使用fully-connected CRF大概能提升4个点。但在源码中作者建议使用的是不带MSc的版本，以及看github上的一些开源实现都没有使用MSc。我个人猜测是因为这里的MSc不仅费时而且很吃显存。根据参考如下代码绘制了 DeepLab-MSc-LargeFOV结构。

https://www.cs.jhu.edu/~alanlab/ccvl/DeepLab-MSc-LargeFOV/train.prototxt

下表是在PASCAL VOC2012 test数据集上的一个消融实验：

关于fully-connected CRF，说实话不太懂，这里就不讲了。

Original: https://blog.csdn.net/qq_37541097/article/details/121692445
Author: 太阳花的小绿豆
Title: DeepLabV1网络简析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/649310/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数据聚合与分组运算

数据聚合与分组运算分组与聚合的原理分组：使用特定的条件将原数据划分为多个组聚合：对每个分组中的数据执行某些操作（如聚合、转换等），最后将计算的结果进行整合分组和聚合的步骤分…

人工智能 2023年7月7日
0073
pytorch学习之基于resnet训练flower图像分类模型

数据预处理部分：数据增强：torchvision中transforms模块自带功能，比较实用数据预处理：torchvision中transforms也帮我们实现好了，直接调用即可D…

人工智能 2023年7月3日
0039
4大类11种常见的时间序列预测方法总结和代码示例

本篇文章将总结时间序列预测方法，并将所有方法分类介绍并提供相应的python代码示例，以下是本文将要介绍的方法列表： 1、使用平滑技术进行时间序列预测指数平滑 Holt-Wint…

人工智能 2023年6月26日
0073
【一起来啃西瓜书】——模型评估与选择

1.经验误差与过拟合 1）经验误差与泛化误差 a.错误率：测试样本中分类错误的样本数占总样本数的比例。E = b m × 100 % E = \frac bm ×100 \%E =…

人工智能 2023年7月2日
0070
教你用300行Python代码实现一个人脸识别系统

用300行Python代码实现一个人脸识别系统最近又多了不少朋友关注，先在这里谢谢大家。关注我的朋友大多数都是大学生，而且我简单看了一下，低年级的大学生居多，大多数都是为了完成课…

人工智能 2023年6月26日
0069
TiDB HTAP 遇上新能源车企：直营模式下实时数据分析的应用实践

无论在股市还是车市上，新能源汽车早已站在了舞台中央。在一台台爆款新车的背后，是造车新势力们产品力和技术力的强强联手，更是数字营销和直营的绝妙组合。早在 2021 年，造车新势力们…

人工智能 2023年6月11日
0092
【计算机视觉实验一图像的基本操作】

计算机视觉实验一图像的基本操作一、实验目的二、实验内容及要求三、实验程序 * 实验内容1：图像的打开、保存、显示实验内容2：图像上添加文字实验内容3：图像的减法运算…

人工智能 2023年6月18日
0043
Jina AI x 矩池云Matpool ｜神经搜索引擎，一键构建

图片、视频、语音等非结构化数据在快速增长，随着深度学习技术的不断升级，非结构化数据的搜索也逐渐形成可能。在这样的背景下，专注于神经搜索技术的商业开源软件公司——Jina AI，提出…

人工智能 2023年6月4日
0082
关于pytorch nn.KLDivLoss()损失计算loss值为负数的原因

原因1：预测值和标签值都需要进行softmax归一化处理原因2：预测值还需要再进行log计算，标签值不需要 KL散度 KL散度，又叫相对熵，用于衡量两个分布（离散分布和连续分布）…

人工智能 2023年7月21日
0052
深度学习机器学习面试题——自然语言处理NLP,transformer,BERT,RNN,LSTM

深度学习机器学习面试题——自然语言处理NLP,transformer,BERT,RNN,LSTM 提示：&…

人工智能 2023年5月30日
00117
YOLOv5基础知识点——激活函数

什么是激活函数？什么是激活函数&该选哪种激活函数？_哔哩哔哩_bilibili 深度学习笔记：如何理解激活函数？（附常用激活函数） – 知乎 (…

人工智能 2023年7月27日
0058
End-to-end Audio-visual Speech Recognition with Conformers

简介提出了可端到端训练的音视语音识别模型，输入waveform和唇部的每一帧，音视各通过一个conformer encoder后concat并FC得到融合特征，最后是transf…

人工智能 2023年5月23日
0064
Could not load library cudnn_cnn_infer64_8.dll. Error code 126

Could not load library cudnn_cnn_infer64_8.dll. Error code 126 解决Could not load library cu…

人工智能 2023年6月25日
0085
GAN学习笔记（二）图像去模糊 DeblurGAN 和 DeblurGANv2

图像去模糊 DeblurGAN 和 DeblurGANv2 1、图像去模糊 DeblurGAN 2、图像去模糊DeblurGANv2 1、图像去模糊 DeblurGAN 论文：…

人工智能 2023年7月23日
00123
单细胞测序数据分析——细胞通讯 CellChat

一、CellChat介绍特别好的文章：CellChat细胞通讯分析（上）–文献解读 – 知乎 (zhihu.com)https://zhuanlan.zh…

人工智能 2023年7月14日
0063
【建模算法】TOPSIS法（Python实现）

【建模算法】TOPSIS法（Python实现） Topsis法，全称为Technique for Order Preference by Similarity to an Idea…

人工智能 2023年7月17日
0052

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

DeepLabV1网络简析

文章目录

LargeFOV

; MSc(Multi-Scale)

大家都在看