deeplab V1 V2 V3 V3+系列

2023年6月22日下午9:23 • 人工智能 • 阅读 80

一、Deeplab v1

1、引言

; 2、亮点

3、细节

作用是保证效果不下降的情况下，降低参数和加快速度，否定了fcn的7*7卷积，会成为计算瓶颈。

; 二、Deeplab v2

1、引言

; 2、亮点

3、细节

四个采用不同膨胀系数的膨胀卷积，这样每个分支的感受野大小就是不一样的，从而具备解决多尺度问题。

使用vgg时才有后面两层全卷积层，使用resnet的话就不用。

把输入图片分别缩放到0.5，0.75，1倍输入网络，将得到的三个score maps进行融合，对每一个pixel取最大值，这种操作对效果有较大提升。

; 三、Deeplab v3

1、引言

; 2、细节

对于级联模型中，训练时下采样到16（batch_size可以设置得更大一点，加速训练），预测是下采样到8（验证结果会好一点）
aspp模型，引入了一个全局平均池化分支。

pytorch官方实现的deeplab v3结构：

注意：v1和v2中计算损失是在上采样之前，对标签进行下采样到同样尺寸进行计算的（为了减少显存消耗，加快速度），但是v3是上采样之后再与标签进行计算损失的。

四、Deeplab v3+

1、引言

2018年发表的。

; 2、亮点

第一节首先介绍Deeplab当前的缺陷，即输出图放大的效果不好，信息太少，因此提到了编码-解码结构
原DeepLabv3当作encoder，添加decoder得到新的模型（DeepLabv3+）。
如下图所示，作者把spatial pyramid pooling module和Encoder-Decoder融合成一体：

相比DeepLabv3，v3+引入了Decoder模块，其将底层特征与高层特征进一步融合，提升分割边界准确度。从某种意义上看，DeepLabv3+在DilatedFCN基础上引入了EcoderDecoder的思路。
把Xception和Depthwise separable convolution应用到Atrous Spatial Pyramid Pooling和decoder中。

3、细节

Encoder
Encoder就是原来的DeepLabv3，注意点有2点：
输入尺寸与输出尺寸比（output stride = 16），最后一个stage的膨胀率rate为2
Atrous Spatial Pyramid Pooling module（ASPP）有四个不同的rate，额外一个全局平均池化
为了防止encoder得到的高级特征被弱化，先采用1×1卷积对低级特征进行降维（paper中输出维度为48）
Decoder
明显看到先把encoder的结果上采样4倍，然后与resnet中下采样前的Conv2特征concat一起，再进行3×3的卷积，最后上采样4倍得到最终结果
需要注意点：
融合低层次信息前，先进行1×1的卷积，目的是降通道（例如有512个通道，而encoder结果只有256个通道）

DeepLabv3所采用的backbone是ResNet网络，在v3+模型作者尝试了改进的Xception，Xception网络主要采用depthwise separable convolution，这使得Xception计算量更小。改进的Xception主要体现在以下几点：（1）参考MSRA的修改（Deformable Convolutional Networks），增加了更多的层；（2）所有的最大池化层使用stride=2的depthwise separable convolutions替换，这样可以改成空洞卷积；（3）与MobileNet类似，在3×3 depthwise convolution后增加BN和ReLU。

采用改进的Xception网络作为backbone，DeepLab网络分割效果上有一定的提升。作者还尝试了在ASPP中加入depthwise separable convolution，发现在基本不影响模型效果的前提下减少计算量。

DCNN部分出现了新的选择：修改后的Xception，其结构如图。

max pooling结构被stride=2的深度可分离卷积代替
更深的Xception结构，并不修改entry flow network结构
每个3×3的depthwise convolution都跟BN和Relu

表1和表2介绍了不同解码器配置对应的结果。值得注意的是，更复杂的解码器不一定代表更好的效果。

不同编码器配置的效果如表3（使用ResNet-101）。

其SC，COCO和JFT分别为不同数据集。可以看到，这种方案效果更好，并且数据越多效果越好。

; 总结

DeepLab作为DilatedFCN的典范还是值得学习的，其分割效果也是极其好的。但是由于存在空洞卷积，DeepLab的计算复杂度要高一些，特别是output_stride=8，对于一些要求低延迟的场景如无人车，还是需要更加轻量级的分割模型。原因：内存访问，空洞卷积代价要比普通卷积大。从CPU访问角度看，空洞卷积内存不连续，存在严重的cache miss 问题，而且不连续，需要多次访存才能获得目标数据。同样的问题，对GPU也是一样的，如果不连续，本来一次可以读到的，得分多次

【参考】
b站：霹雳吧啦Wz

Original: https://blog.csdn.net/EMIvv/article/details/122065628
Author: Shashank497
Title: deeplab V1 V2 V3 V3+系列

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/646071/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

红外图像是什么？红外线与计算机视觉相关的研究方向？（Visible and infrared image fusion）

红外图像成像特点：由于红外图像是通过”测量”物体向外辐射的热量而获得的，故与可将光图像相比：分辨率差、对比度低、信噪比低、视觉效果模糊、灰度分布与目标反射…

人工智能 2023年6月25日
0089
各国GDP动态图-Pyecharts实现

各国GDP动态图-Pyecharts实现强国史诗！1960-2021年各个国家GDP变化：一同见证中国崛起！中国——可能是最具传奇色彩的国家。持久的鼎盛、百年屈辱史、或是近现代的…

人工智能 2023年7月8日
0088
对于代码复现学习的一些理解||计算机研究生学习笔记||经验分享||深度学习||pytorch||不定期长期更新

代码复习对于初学者，一开始接触深度学习代码总是困难的，尤其是对于github上满屏英文、复杂的环境、各种各样的报错，有时候哪怕跟着配套的readme、论文、视频，仍然不能成功跑起…

人工智能 2023年6月15日
0089
使用Yolov3训练自己制作数据集，快速上手

在目标检测和分类这方面， Yolo可以快速很好的解决许多问题，这里总结了快速上手 Yolov3的方法，直接快速训练自己的数据集使用。我提供一个我自己已经调试通的源码包，包含了数据…

人工智能 2023年6月17日
0083
备战数学建模30-回归分析2

一、回归分析的使命二、回归分析的分类三、数据的分类及处理方法四、回归系数的解释五、特殊变量的处理六、回归分析案例一、回归分析的使命回归分析的三个使命如下：第一、识别重…

人工智能 2023年6月18日
0080
口音英语识别能力评测，你的AI升级了吗？

据国外媒体报道，Vocalize.ai的实验室曾经对亚马逊的语音助手Alexa、苹果的语音助手Siri和谷歌的语音助手Google Assistant进行了一项语音识别能力测试。研…

人工智能 2023年5月25日
00117
cuda+cudnn+tensorflow-gpu+keras安装及版本对应

本文使用的版本是cuda10.1cudnn7.6.5keras 2.2.4tensorflow-gpu1.15 cuda安装 1.确定电脑是否有GPU，有则可下cuda；2.查询电…

人工智能 2023年5月25日
0075
OpenCv人脸识别开发实战

一、OpenCV简介 OpenCV（全称：Open Source Computer Vision Library），是一个跨平台的计算机视觉库。OpenCV可用于开发实时的图像处理…

人工智能 2023年7月19日
0090
计算机视觉深度神经网络总结（目标检测，分类、特征提取）

补充一下模型迁移的相关知识：使用微调技术，也叫做参数迁移不同的情况：（1）数据集小，并且与原数据集差别不大因为目标数据集与原数据集的数据分布差异不大，使用微调技术，只需要将…

人工智能 2023年7月9日
0063
将彩色图像转换为灰度文件、HSV、HSI 格式

目录彩色图像转换为灰度文件 * .1 使用opencv .2 不使用opencv 彩色图像转换为HSV、HSI文件 * .1 HSV和HSI简介 .2 实现车牌字符分割总结 …

人工智能 2023年7月20日
0061
相机成像—世界坐标系、相机坐标系、图像坐标系和像素坐标系之间的转换关系

新学期第一天开始写的这篇文章，看看我啥时候能把他发出去。假期当然是啥也没干了，之前还信誓旦旦说回家一定能学习，学个毛线。开始学习啦，去年年末把环境配置好了之后，实验发现他不准，用的…

人工智能 2023年6月24日
00115
rtx gpu kera loss不降或为nan

更换tensorflow版本为2.4.0以上，好像说是30显卡的问题(我是rtx3060)如：cudatoolkit=11.3 cudnn=8.2.1 tensorflow-gpu…

人工智能 2023年5月25日
0096
Opencv根据USB摄像头PIDVID号，获取对应摄像头索引

1.引言电脑插多个USB摄像头时，当插拔或者开机之后，Opencv对应的摄像头索引会发生改变，导致Opencv打开摄像头会开错，比如笔记本自带一个摄像头，插上一个USB摄像头时，…

人工智能 2023年6月19日
0093
Mockito搭配junit单元测试

单元测试简述开发人员在完成功能模块后，如何证明自己通过了自测，测试方法是怎样的。单元测试跟覆盖率则是一个很好的答案。其实开发过程中，大多数时间在做测试以调整代码，单元测试相比较p…

人工智能 2023年6月28日
0094
MATLAB深度学习LSTM 标签分类classificationLayer层，YTrain的设置出错

问题：使用matlab深度学习工具箱进行标签分类，设置XTrain为输入是n×1的元胞数组，每个元胞数据有6个特征值，YTrain输出是n×1的元胞数组，内容为标签’…

人工智能 2023年7月1日
0071
《动手学深度学习》第三章-softmax回归总结

《动手学深度学习》第三章-softmax回归总结 softmax回归总结《动手学深度学习》第三章-softmax回归总结 * 1.从fashion_mnist导入数据(d2l.l…

人工智能 2023年7月1日
0057

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

deeplab V1 V2 V3 V3+系列

1、引言

; 2、亮点

3、细节

1、引言

; 2、亮点

3、细节

1、引言

; 2、细节

1、引言

; 2、亮点

3、细节

大家都在看