我对DeepLab V3的理解（基于V1和V2）

2023年5月26日上午5:26 • 人工智能 • 阅读 68

一、概述

1.前言

1.1 DeepLab v1

创新点：

空洞卷积（Atrous Conv）;
全连接条件随机场（Fully-connected Conditional Random Field）。

; 1.2 DeepLab v2

与v1不同点：

空洞空间金字塔池化 ASPP（Atrous spatial pyramid pooling ）
将v1使用的backbone VGG16替换成了 Resnet101

ASPP可用于解决不同检测目标大小差异的问题：通过在给定的特征层上使用不同dilation的空洞卷积，可以有效的进行重采样。构建不同感受野的卷积核，用来获取多尺度物体信息。

1.3 DeepLab v3

创新点：

改进了v2的ASPP模块：

加入了BN层；
将v2中的ASPP中尺寸3×3，dilation=24的空洞卷积替换成一个普通的1×1卷积，以保留滤波器中间部分的有效权重；（随着空洞率的增大，滤波器中有效权重的个数在减少）
增加了全局平均池化以便更好的捕捉全局信息。

; 二、整体结构

1.前置知识

1.1 Astrous conv空洞卷积

Atrous Convolution 从字面上就很好理解，是在标准的 convolution map 里注入空洞，以此来增加
reception field。
相比原来的正常convolution，dilated convolution 多了一个 hyper-parameter 称之为
dilation rate 指的是kernel的间隔数量(e.g. 正常的 convolution 是 dilatation rate
1)。

用这个动图可以很好理解

1.2 ASPP空洞空间金字塔池化

如上所述

2.Deeplab v3提出的的结构

Deeplab v3是为了解决捕获multi-scale context的问题

论文中Fig2画了几种常见的捕获multi-scale context的方法：

（a）图像金字塔。输入图像进行尺度变换得到不同分辨率input，然后将所有尺度的图像放入CNN中得到不同尺度的分割结果，最后将不同分辨率的分割结果融合得到原始分辨率的分割结果，类似的方法为DeepMedic；

（b）编码-解码。FCN和UNet等结构；

（c）本文提出的串联结构。

（d）本文提出的Deeplab v3结构。最后两个结构右边其实还需要8×/16×的upsample，在deeplab v3+中有所体现。当然论文的Sec 4.1也有提到，下采样GT容易在反向传播中丢失细节，因此上采样feature map效果更好。

DeepLab V3有cascade和parallel两种的形式：

; 1.1 “串联”结构

DeepLab V3将空洞卷积应用在级联模块。具体来说，我们取ResNet中最后一个block，在下图中为block4，并在其后面增加级联模块。

1.2 ASPP的改进

因为在cascade模型中，网络做的太深效果反而出现下降，所以就引用了ASPP。

改进的ASPP包括：

一个1 × 1 1×11×1卷积和三个3 × 3 3×33×3的采样率为rates={6,12,18}的空洞卷积，滤波器数量为256，包含 BN层。针对output_stride=16的情况。如上图(a)部分Atrous Spatial Pyramid Pooling
图像级特征，即将特征做全局平均池化，经过卷积，再融合。如下图(b)部分Image Pooling. 改进后的ASPP模块如上图所示。

后续的实验证明：

两种方法的结构合并并不会带来提升，相比较来说，ASPP的纵式结构要好一点。所以deeplab v3一般也是指ASPP的结构。

; 三、总结

DeepLabV1为了避免池化引起的信息丢失问题，提出了空洞卷积的方式，这样可以在增大感受野的同时不增加参数数量，同时保证信息不丢失。为了进一步优化分割精度，还使用了CRF（条件随机场）。
DeepLab V2在之前的基础上，增加了多尺度并行，解决了对不同大小物体的同时分割问题。
DeepLab V3将空洞卷积应用在了级联模块，并且改进了ASPP模块。

Reference：
1. deeplab系列总结（deeplab v1& v2 & v3 & v3+）
2. deeplab v3论文翻译
3. DeepLabv3论文解析
4. 深度学习|语义分割：DeepLab系列

Original: https://blog.csdn.net/m0_58770526/article/details/125873104
Author: 像梦一样自由al
Title: 我对DeepLab V3的理解（基于V1和V2）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/518281/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

关于VIO零速更新(ZUPT)与控制三种约束的工程实践

今天这篇是深度稍微高一些的，尽量写细，但是具体实践各家都有不同的方式与工程习惯，就不多赘述了。小组工作比较忙，代码还没来得及整理，总体更新一下基础知识。 VIO系统后端核心的三种…

人工智能 2023年6月25日
0093
Jupyter Notebook 基本操作快捷键

一、Jupyter Notebook 常用快捷键当前 cell 侧边为蓝色时，表示此时为命令模式，按 Enter切换为编辑模式当前 cell 侧边为绿色时，表示此时为编辑模…

人工智能 2023年7月5日
0087
ECCV 2020 | STAR:基于Transformer的行人轨迹预测模型（一）

这是一篇ECCV 2020 行人轨迹预测的文章，在这里对论文进行浅浅的翻译。当然，由于水平的局限，有些地方只能意译。论文链接：Spatio-Temporal Graph Tran…

人工智能 2023年7月27日
0087
MXNet是否支持可视化和可解释性分析

人工智能 2024年1月1日
0045
Java借助OpenCV实现人脸识别登录完整示例

Java借助OpenCV实现人脸识别登录完整示例 OpenCV * 效果预览概述下载与安装目录说明 OpenCV的基本使用 * 项目集成图片人脸检测人脸对比相似度识别视…

人工智能 2023年6月18日
0084
【排坑】websoucket场景下文件无法上传到服务器的解决方案

一、问题描述及解决具体文件上传业务代码在如上标注的文章中，可见前端传入到接口的格式是 String类型的 Base64字符串，这里面有第一个坑就是以String接的话，会存在&#…

人工智能 2023年5月30日
0074
详解Transformer中Self-Attention以及Multi-Head Attention

原文名称：Attention Is All You Need原文链接：https://arxiv.org/abs/1706.03762 如果不想看文章的可以看下我在b站上录的视频：…

人工智能 2023年6月26日
0092
【访谈】Eotalk Vol.05: API 全生命周期管理，如何解决企业 API 安全问题

Eotalk 是由 Eolink 和各合作方一起发起的泛技术聊天活动，每期我们会邀请一些技术圈内的大牛聊聊天，聊一下关于技术、创业工作、投融资等热点话题。本期 Eotalk 我们…

人工智能 2023年6月28日
0088
pytorch 深度学习的一些小笔记

一个比赛案例：Quick, Draw! Doodle Recognition Challenge 总结 | TangShusen softmax回归适用于分类问题。它使用softm…

人工智能 2023年6月17日
0087
YOLOV5通道剪枝【附代码】

之前的博客中已经实现了YOLOv4、YOLOR、YOLOX的剪枝，经过了几天的辛勤努力，终于实现了YOLOv5的剪枝。相关链接如下： YOLOv4剪枝(剪枝相关细节理论这里有写)：…

人工智能 2023年7月25日
0091
Python中缺失值的填充fillna()函数

【小白从小学Python、C、Java】【Python全国计算机等级考试】【Python数据分析考试必会题】● 标题与摘要Python中缺失值的填充fillna()函数 ● 选择题…

人工智能 2023年7月14日
0099
全球及中国足病鞋垫行业销售情况及营销渠道策略报告（2022-2027年）

全球及中国足病鞋垫行业销售情况及营销渠道策略报告（2022-2027年）【报告编号】: BG419431【出版时间】: 2022年3月【出版机构】: 中智正业研究院免费售后服务一…

人工智能 2023年7月17日
0065
【深度学习之模型优化】模型剪枝、模型量化、知识蒸馏概述

前言模型部署优化这个方向其实比较宽泛。从模型完成训练，到最终将模型部署到实际硬件上，整个流程中会涉及到很多不同层面的工作，每一个环节对技术点的要求也不尽相同。但本质的工作无疑是通…

人工智能 2023年6月15日
0080
xv6源码解析（四）——进程管理

01 进程管理进程管理：添加了常见的IPC通信模块（共享内存、消息队列）；以进程上下文切换为基础，实现了时间片轮转调度算法；设计了自旋锁Spinlock，为用户进程提供互斥机制。…

人工智能 2023年6月27日
0087
【目标检测】目标检测界的扛把子YOLOv5（原理详解+修炼指南）

文章目录 1.YOLO输入端 * 1.1 Mosaic数据增强 1.2 自适应锚框计算 1.3 自适应图片缩放 2.YOLO总体架构图 * 2.1 BackBone –…

人工智能 2023年6月16日
00105
VGG19续读【精细】，为什么叫做VGG19?==＞【每一层可以看做是很多个局部特征的提取器，可以用作局部特征提取】

目录总体架构图：实际代码中问题：重要的点 Thinking1：使用3×3卷积核替代7×7卷积核的好处？ Thinking2：多少个3×3的卷积核…

人工智能 2023年7月21日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31