空洞卷积（膨胀卷积）的相关知识以及使用建议（HDC原则）

2023年6月16日下午4:15 • 人工智能 • 阅读 63

空洞卷积的介绍

空洞卷积（Atrous Convolution）又名膨胀卷积（Dilated Convolution）。

dilated 英 [daɪˈleɪtɪd] 美 [daɪˈleɪtɪd]
v. 扩大; (使)膨胀，扩张;
[词典] dilate的过去分词和过去式;

atrous
adj. 深黑的；暗灰色的；纯黑色的;

1.1 空洞卷积和普通卷积的对比

下面是普通的卷积：

kernel_size=3, stride=1, padding=0

下面是空洞卷积：

kernel_size = 3, dilated_ratio = 2, stride = 1, padding = 0

二者的卷积核大小都是一样的（滑窗的实际大小是一样的），但空洞卷积的滑窗（kernel）元素之间是存在一些间隙的，这些间隙在空洞卷积中成为膨胀因子(dilated ratio)。

如果dilated ratio=1时，空洞卷积就是普通卷积。

; 1.2 空洞卷积的作用

增大感受野
保持原输入特征图的高度和宽度

上面的空洞卷积示意图中，因为没有设置padding，所以特征图变小了。而在实际使用中，一般都会对padding进行设置（将padding设置为1），这样就能保证输入特征图的高度和宽度不变。

1.3 为什么要使用空洞卷积

在语义分割中，通常会使用分类网络作为backbone。通过backbone之后会对特征图进行一系列的下采样，之后再进行一系列的上采样还原原图的大小。

在分类网络中，一般都会对图片的高度和宽度下采样32倍，由于后续需要通过上采样还原到原来的尺寸。如果下采样的倍率很大时，即便使用上采样还原回原来的尺寸，那么信息丢失是比较严重的。

以VGG16为例，该网络通过MaxPooling层对特征图进行下采样：

通过MaxPooling会降低特征图的shape
MaxPooling会丢失特征图的一些细节信息（毕竟是用最大值代替局部值，丢失信息是肯定的）
丢失的信息和目标是无法通过上采样进行还原的

这就导致在语义分割任务的效果不理想。

思考：
Q：既然MaxPooling会损失信息，那么直接不用MaxPooling不就行了？
A：如果我们简单粗暴地将MaxPooling去掉的话，会引入新的问题：

特征图对应原图的感受野变小了
为后面的卷积层带来影响（感受野不变，卷积层就无法获取深层的信息）

此时，空洞卷积就可以解决上面的问题，因为空洞卷积：

增大特征图的感受野
保证输入输出特征图的shape不变

Q：既然空洞卷积有这样的好处，那我们是否可以简单粗暴地堆叠空洞卷积层呢？
A：很明显，不行！

gridding effect问题

在空洞卷积使用的过程中经常会遇到一个名叫 gridding effect 的问题。

; 2. 1 什么是gridding effect —— 连续使用几个膨胀系数相同的空洞卷积

如下图所示，连续使用3个空洞卷积层（卷积核大小都为3×3， 膨胀系数均为2）

我们先看一下 Layer2 上，每一个pixel利用到了 Layer1 上的哪些pixels。

我们可以看到，膨胀系数是2表示卷积核每两个数据之间都间隔一行或一列0。
所以Layer2 上一个pixels会使用Layer1的9个pixels。

我们再看一下Layer3

当我们连续使用2个膨胀系数为2的空洞卷积时，Layer3上一个pixel利用到了Layer1上25个pixels的信息。

每个pixel上的数字表示：通过累加得到Layer3上一个pixel利用到Layer1上该像素的次数

看一下Layer4

当我们连续使用3个膨胀系数为2的空洞卷积时，Layer4上一个pixel利用到了Layer1上的数据并不是连续的！在每个非零元素之间都存在一定的间隔 —— 这就是gridding effect现象。

也就是说Layer4上的一个像素并没有利用到范围内的所有像素值，而是一部分。

因为没有利用到所有的像素值，所以一定会丢失一部分细节信息 —— 和MaxPooling一样（但是比MaxPooling要轻微）

所以 在使用空洞卷积时要尽可能避免gridding effect问题。

2.2 连续使用几个膨胀系数不同的空洞卷积

膨胀系数设置为1就是普通的卷积

看一下Layer2：

因为是普通卷积，所以利用到了卷积核大小窗口内所有Layer1的像素。

看一下Layer3：

Layer3上的一个像素对应Layer1上7×7的区域，而且该区域中每一个像素的利用次数不同（ 但都利用到了）

看一下Layer4：

Layer4上的一个像素对应Layer1上13×13的区域，而且该区域中每一个像素的利用次数不同（ 但都利用到了）

; 2.3 两种使用方法的对比

两种方法的参数数量是一样的
仅仅是膨胀系数不同而已
对于[2, 2, 2]的空洞卷积来说，Layer4的感受野也是13×13，但在这个视野下有很多像素值是没有利用到的

我们更加倾向于使用[1, 2, 3]这样的膨胀系数 —— 感受野下使用的区域是连续的

2.4 如果全部使用普通的卷积

我们发现：

直接使用普通卷积Layer4的感受野和前面两种不同（前者为13×13），为7×7
这说明使用膨胀卷积可以大幅度增加感受野

; 3. 空洞卷积使用方法 —— Hybird Dilated Convolution (HDC)

当我们要连续使用多个膨胀卷积时应该如何设计它的膨胀系数。

通过2.2和2.3的实验可以得出：使用[1, 2, 3]的膨胀系数和使用[2, 2, 2]膨胀系数的感受野是相同的，但前者对于输入信息的利用率高 —— 理论效果更好。

3.1 论文中第一个建议

假设我们连续堆叠N N N个空洞卷积（它的kernel_size都是等于K × K K \times K K ×K的），每个空洞卷积的膨胀系数分别对应[ r 1 , r 2 , . . . , r n ] [r_1, r_2, …, r_n][r 1 ,r 2 ,…,r n ]。那HDC的目标是 通过一系列空洞卷积之后可以完全覆盖底层特征层的方形区域，并且该方形区域中间是没有任何孔洞或缺失的边缘(withou any holes or missing edges)。作者定义了一个叫做”maximum distance between two nonzero values， 两个非零元素之间最大的距离“的公式：

M i = max ⁡ [ M i + 1 − 2 r i , M i + 1 − 2 ( M i + 1 − r i ) , r i ] = max ⁡ [ M i + 1 − 2 r i , 2 r i − M i + 1 , r i ] = max ⁡ [ 正 , 负 , r i ] \begin{aligned} M_i & = \max [M_{i+1} – 2r_i, M_{i+1} – 2(M_{i+1} – r_i), r_i] \ & = \max[M_{i+1} – 2r_i, 2r_i – M_{i+1}, r_i] \ & = \max[正, 负, r_i] \end{aligned}M i =max [M i +1 −2 r i ,M i +1 −2 (M i +1 −r i ),r i ]=max [M i +1 −2 r i ,2 r i −M i +1 ,r i ]=max [正,负,r i ]

其中M i M_i M i 是第i i i层两个非零元素之间的最大距离；r i r_i r i 为第i i i层的膨胀系数。

紧密挨着的距离为1
像[2, 2, 2]中那样，两个非零元素之间的距离为2 —— 意味着二者之间间隔了一行或者一列。

对于最后一层，它的最大距离为M n = r n M_n = r_n M n =r n ，即最大距离为该层的膨胀率。这么设计的目的是让M 2 ≤ K M_2 \le K M 2 ≤K，即第二层的两个非零元素之间的最大距离小于等于该层卷积核的大小。

3.2 针对第一个建议给出的两个例子

当kernel_size，即K = 3 K=3 K =3时，对于膨胀系数r = [ 1 , 2 , 5 ] r=[1, 2, 5]r =[1 ,2 ,5 ]来说，M 2 = max ⁡ [ M 3 − 2 r 2 , M 3 − 2 ( M 3 − r 2 ) , r 2 ] = max ⁡ [ 5 − 4 , 4 − 5 , 2 ] = max ⁡ [ 1 , − 1 , 2 ] = 2 ≤ 3 M_2 = \max [M_3 – 2r_2, M_3 – 2(M_3 – r_2), r_2] = \max [5-4, 4-5, 2] = \max [1, -1, 2] =2 \le 3 M 2 =max [M 3 −2 r 2 ,M 3 −2 (M 3 −r 2 ),r 2 ]=max [5 −4 ,4 −5 ,2 ]=max [1 ,−1 ,2 ]=2 ≤3，所以满足设计要求。
当kernel_size，即K = 3 K=3 K =3，对于膨胀系数r = [ 1 , 2 , 9 ] r=[1, 2, 9]r =[1 ,2 ,9 ]来说，M 2 = max ⁡ [ M 3 − 2 r 2 , M 3 − 2 ( M 3 − r 2 ) , r 2 ] = max ⁡ [ 9 − 4 , 4 − 9 , 2 ] = max ⁡ [ 5 , − 5 , 2 ] = 5 ≥ 3 M_2 = \max [M_3 – 2r_2, M_3 – 2(M_3 – r_2), r_2] = \max [9 – 4, 4-9, 2] = \max [5, -5, 2] = 5 \ge 3 M 2 =max [M 3 −2 r 2 ,M 3 −2 (M 3 −r 2 ),r 2 ]=max [9 −4 ,4 −9 ,2 ]=max [5 ,−5 ,2 ]=5 ≥3，所以 不满足设计要求，所以这组参数是不合适的。

代码如下：

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import LinearSegmentedColormap

def dilated_conv_one_pixel(center: (int, int),
                           feature_map: np.ndarray,
                           k: int = 3,
                           r: int = 1,
                           v: int = 1):
"""
    膨胀卷积核中心在指定坐标center处时，统计哪些像素被利用到，
    并在利用到的像素位置处加上增量v
    Args:
        center: 膨胀卷积核中心的坐标
        feature_map: 记录每个像素使用次数的特征图
        k: 膨胀卷积核的kernel大小
        r: 膨胀卷积的dilation rate
        v: 使用次数增量
"""
    assert divmod(3, 2)[1] == 1

    left_top = (center[0] - ((k - 1) // 2) * r, center[1] - ((k - 1) // 2) * r)
    for i in range(k):
        for j in range(k):
            feature_map[left_top[1] + i * r][left_top[0] + j * r] += v

def dilated_conv_all_map(dilated_map: np.ndarray,
                         k: int = 3,
                         r: int = 1):
"""
    根据输出特征矩阵中哪些像素被使用以及使用次数，
    配合膨胀卷积k和r计算输入特征矩阵哪些像素被使用以及使用次数
    Args:
        dilated_map: 记录输出特征矩阵中每个像素被使用次数的特征图
        k: 膨胀卷积核的kernel大小
        r: 膨胀卷积的dilation rate
"""
    new_map = np.zeros_like(dilated_map)
    for i in range(dilated_map.shape[0]):
        for j in range(dilated_map.shape[1]):
            if dilated_map[i][j] > 0:
                dilated_conv_one_pixel((j, i), new_map, k=k, r=r, v=dilated_map[i][j])

    return new_map

def plot_map(matrix: np.ndarray):
    plt.figure()

    c_list = ['white', 'blue', 'red']
    new_cmp = LinearSegmentedColormap.from_list('chaos', c_list)
    plt.imshow(matrix, cmap=new_cmp)

    ax = plt.gca()
    ax.set_xticks(np.arange(-0.5, matrix.shape[1], 1), minor=True)
    ax.set_yticks(np.arange(-0.5, matrix.shape[0], 1), minor=True)

    plt.colorbar()

    thresh = 5
    for x in range(matrix.shape[1]):
        for y in range(matrix.shape[0]):

            info = int(matrix[y, x])
            ax.text(x, y, info,
                    verticalalignment='center',
                    horizontalalignment='center',
                    color="white" if info > thresh else "black")
    ax.grid(which='minor', color='black', linestyle='-', linewidth=1.5)
    plt.show()
    plt.close()

def main():

    dilated_rates = [1, 2, 5]

    size = 31
    m = np.zeros(shape=(size, size), dtype=np.int32)
    center = size // 2
    m[center][center] = 1

    for index, dilated_r in enumerate(dilated_rates[::-1]):
        new_map = dilated_conv_all_map(m, r=dilated_r)
        m = new_map
    print(m)
    plot_map(m)

if __name__ == '__main__':
    main()

3.2.1 r = [1, 2, 5]的效果图

很明显，这组参数最后一层的感受野包含了所有像素，输入的每一个像素都利用到了，不存在gridding effect问题。

; 3.2.2 r = [1, 2, 9]的效果图

这里并不是有9个感受野，实际上这9个小块合起来才是真正的感受野。很明显，两个小块之间非零元素的最大距离为3，这与我们的期望1不符，所以该组参数是不合适的。

3.3 为什么例子中的 r r r 都是从1开始的？

我们希望在高层特征图的每个像素可以利用到底层特征图的感受野内的所有像素，那么M 1 M_1 M 1 应该等于1。M 1 = 1 M_1 = 1 M 1 =1意味着非零元素之间是相邻的（没有间隙的），而M 1 M_1 M 1 的计算公式如下（就是M i M_i M i 的计算公式）：
M i = max ⁡ [ M i + 1 − 2 r i , M i + 1 − 2 ( M i + 1 − r i ) , r i ] = max ⁡ [ M i + 1 − 2 r i , 2 r i − M i + 1 , r i ] = max ⁡ [ 正 , 负 , r i ] \begin{aligned} M_i & = \max [M_{i+1} – 2r_i, M_{i+1} – 2(M_{i+1} – r_i), r_i] \ & = \max[M_{i+1} – 2r_i, 2r_i – M_{i+1}, r_i] \ & = \max[正, 负, r_i] \end{aligned}M i =max [M i +1 −2 r i ,M i +1 −2 (M i +1 −r i ),r i ]=max [M i +1 −2 r i ,2 r i −M i +1 ,r i ]=max [正,负,r i ]

既然我们希望M 1 = 1 M_1 = 1 M 1 =1，那么M 1 M_1 M 1 应该≥ r 1 \ge r_1 ≥r 1 ，即 1 ≥ r 1 1 \ge r_1 1 ≥r 1 ，所以r 1 r_1 r 1 被迫等于1。

所以在设计连续空洞卷积时， 第一个膨胀率一般都是从1开始的。

3.4 论文中第二个建议

第二个建议为：将膨胀系数设置为锯齿形状。如：

[1, 2, 3, 1, 2, 3]

; 3.4 论文中第三个建议

论文中的第三个建议：公约数不能大于1。如：

r = [ 1 , 2 , 3 ] r = [1, 2, 3]r =[1 ,2 ,3 ]：它们的公约数为1 1 1，符合①②③建议 -> 设计合理
r = [ 2 , 4 , 8 ] r=[2, 4, 8]r =[2 ,4 ,8 ]：它们的公约数为2 2 2，不符合③的建议 -> 设计不合理

效果对比

没有按照HDC设计准则的模型（第二行），它分割的效果不是很好
符合HDC设计准则的模型（第三行）相比第二行来说，效果要层好不少。

; 5. 空洞卷积输出特征图计算公式

5.1 普通卷积

O i c o n v / p o o l = O i i n + 2 p i − k i s i + 1 O_i^{\mathrm{conv/pool}} = \frac{O_i^{\mathrm{in}} + 2p_i – k_i}{s_i} + 1 O i c o n v /p o o l =s i O i i n +2 p i −k i +1

5.2 空洞卷积

O i d i l a t e d c o n v = O i i n + 2 p i − d i × ( k i − 1 ) s i + 1 O_i^{\mathrm{dilated \ conv}} = \frac{O_i^{\mathrm{in}} + 2p_i – d_i \times (k_i-1)}{s_i} + 1 O i d i l a t e d c o n v =s i O i i n +2 p i −d i ×(k i −1 )+1

5.3 转置卷积

5.3.1 不带空洞卷积

O i t r a n s c o n v = ( O i i n − 1 ) × s i − 2 × p i + k i O_i^{\mathrm{trans \ conv}} = (O_i^{\mathrm{in}} – 1) \times s_i – 2 \times p_i + k_i O i t r a n s c o n v =(O i i n −1 )×s i −2 ×p i +k i

5.3.2 带有空洞卷积

O i t r a n s c o n v = ( O i i n − 1 ) × s i − 2 × p i + d i × ( k i − 1 ) + output_padding i + 1 O_i^{\mathrm{trans \ conv}} = (O_i^{\mathrm{in}} – 1) \times s_i – 2 \times p_i + d_i \times (k_i – 1) + \text{output_padding}_i + 1 O i t r a n s c o n v =(O i i n −1 )×s i −2 ×p i +d i ×(k i −1 )+output_padding i +1

总结

6.1 设计准则

对于最后一层，它的最大距离为M n = r n M_n = r_n M n =r n ，即最大距离为该层的膨胀率。这么设计的目的是让，即。

第二层的两个非零元素之间的最大距离小于等于该层卷积核的大小，即M 2 ≤ K M_2 \le K M 2 ≤K。
其中M i = max ⁡ [ M i + 1 − 2 r i , 2 r i − M i + 1 , r i ] M_i = \max [M_{i+1} – 2r_i, 2r_i – M_{i+1}, r_i]M i =max [M i +1 −2 r i ,2 r i −M i +1 ,r i ]
将膨胀系数设置为锯齿形状。如：[ 1 , 2 , 3 , 1 , 2 , 3 ] [1, 2, 3, 1, 2, 3][1 ,2 ,3 ,1 ,2 ,3 ]
膨胀系数的公约数不能大于1，如：采用[ 1 , 2 , 3 , ] [1, 2, 3,][1 ,2 ,3 ,]，而不是[ 2 , 4 , 6 ] [2, 4, 6][2 ,4 ,6 ]

6.2 实际使用

在使用膨胀卷积时，我们应该参考HDC的设计准则。

参考

https://www.bilibili.com/video/BV1Bf4y1g7j8?spm_id_from=333.999.0.0
https://github.com/vdumoulin/conv_arithmetic

Original: https://blog.csdn.net/weixin_44878336/article/details/124746929
Author: Le0v1n
Title: 空洞卷积（膨胀卷积）的相关知识以及使用建议（HDC原则）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/625338/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于nao机器人实现语音对话（智能版本）

nao机器人实现语音对话 1、语音获取 nao耳麦有一个功能，它可以通过声音大小判断能力值，也就是声音越大能量越大。所以我们此次项目主要运用的就是nao 的这个功能，来展开实现的。…

人工智能 2023年5月25日
00131
数学建模学习（60）：matlab回归分析及残差图绘制

一、一元线性回归 1.1 介绍一元线性回归是分析只有一个自变量（自变量x和因变量y）线性相关关系的方法。式中，xt代表t期自变量的值；代表t期因变量的值；a、b代表一元线性回归…

人工智能 2023年6月17日
00388
python中的删除操作

Python对于列表的del, remove, pop操作的区别一、列表中的删除1、关于remove（）list.remove（x），仅仅需要一个参数，直接删除列表的元素，而非索引…

人工智能 2023年7月8日
0072
VAE变分自编码器

我在学习VAE的时候遇到了很多问题，很多博客写的不太好理解，因此将很多内容重新进行了整合。我自己的学习路线是先学EM算法再看的变分推断，最后学VAE，自我感觉这个线路比较好理解。 …

人工智能 2023年6月6日
0072
自己准备数据用pytorch框架进行猫狗分类

学了将近一个月深度学习，一直在用MNIST，cifar10做练习。老师建议我自己找数据来训练，这样可以发现许多问题。果不其然，简单记录一下整个过程和感悟。一、准备数据转化时发现…

人工智能 2023年7月3日
0060
OpenCV图像处理入门

😊😊😊 欢迎来到本博客😊😊😊本次博客内容将继续讲解关于OpenCV的相关知识🎉 作者简介：⭐️⭐️⭐️ 目前计算机研究生在读。主要研究方向是人工智能和群智能算法方向。目前熟悉pyt…

人工智能 2023年6月18日
0068
【学习笔记】tensorflow-serving模型部署

使用tensorflow-serving在docker在虚拟机上【服务器】拉取镜像的方式进行YOLOv3模型部署,并将检测结果在windows系统下【客户端】显示，现将过程整理记录…

人工智能 2023年5月24日
0084
白话聊技术系列（1）| 情感分析

情感分析又称意见挖掘，是指对带有情感主观色彩的文本进行分析，挖掘出其中蕴含的情感倾向、态度和看法的过程，越来越成为自然语言处理和文本分类技术的研究热点。一、背景介绍社交媒体如…

人工智能 2023年7月18日
0063
记录一次ffmpeg编译

记录一次ffmpeg编译网上搜的linux编译都是xxxx，懒得说了不知道为什么 ffmpeg-4.2.2下我使用最大量编译都无法编译出 include、…

人工智能 2023年6月27日
0087
Ubuntu查看cuDNN版本

1、先成功下载cuDNN(如果这个有问题的，请参考我的另一个博客，地址：tensorflow2.0及以上版本用GPU加速计算_English ONly的博客-CSDN博客) 2、将…

人工智能 2023年5月25日
0080
大数据和人工智能属于什么专业 – 学大数据和人工智能出来做什么

人工智能专业主要从事什么工作？ 1、算法工程师。进行人工智能相关前沿算法的研究，包括机器学习、知识应用、智能决策等技术的应用。以机器学习的过程为例，涉及到数据收集、数据整理、算法设…

人工智能 2023年7月13日
00103
【非参数统计06】秩相关和分位数回归：Spearman、Kendall tau相关检验、多变量Kendall协和系数检验、Kappa、中位数回归、线性分位回归

这一个系列的笔记和整理希望可以帮助到正在学习非参数统计的同学。我会慢慢更新各个章节的内容。 6.1 Spearman 秩相关检验与 Kendall τ \tau τ 相关检验这个…

人工智能 2023年6月18日
0073
【个人笔记】00 OpenCV框架介绍+环境搭建

个人资料，仅供学习使用学习课程：OpenCV4 图像处理与视频分析实战教程——贾志刚 00 OpenCV框架介绍+环境搭建 opencv知识点：开源社区 –openc…

人工智能 2023年6月22日
00103
知识图谱怎么入门？

对于知识图谱爱好者来说，往往不知道怎么入门，这是因为知识图谱的技术栈比较长，如果要掌握所有技术，入门时间就会很长，而且往往抓不住重点。下面给出一种学习知识图谱可能的路径，可以让知识…

人工智能 2023年6月1日
0074
【图像处理】双线性插值法扩展图像像素及其代码实现（亚像素）

亚像素图像大家有没有你想过，在软件层面，如何提高图像处理的精度？比如，我们要用图像处理测量工业零件的周长，怎么在不改变硬件条件的情况下尽可能得到更高的精度？我们平时看到的图像都是…

人工智能 2023年6月18日
00132
憨批的语义分割重制版10——Tensorflow2 搭建自己的DeeplabV3+语义分割平台

憨批的语义分割重制版10——Tensorflow2 搭建自己的DeeplabV3+语义分割平台注意事项学习前言什么是DeeplabV3+模型代码下载 DeeplabV3+实…

人工智能 2023年7月12日
0054

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31