膨胀卷积（Dilated convolutions）（又叫空洞卷积、扩张卷积）

2023年6月16日下午11:20 • 人工智能 • 阅读 82

一、背景

论文： Multi-Scale Context Aggregation by Dilated Convolutions

大部分图像分割的框架都是经历一系列的卷积和下采样的模块之后，再不断与之前卷积结果跨层融合经历一系列卷积和上采样模块的过程，只不过大家融合的方式不尽相同， FCN是逐像素直接相加， U-NET是通道维度拼接， DFAnet是矩阵相乘，但大体框架是一样的，主要还是因为之前的下采样降低了图片的分辨率，而我们只能采用这种方法既能及时补充细节信息又能恢复原始图片分辨率。论文在介绍中，大胆 提出这些问题的根源在于池化、下采样层的存在，而它们的存在并不是必要的。

创新点：

（1 ）丢掉池化、下采样模块；
（2 ）构建一种新的卷积网络结构—膨胀卷积；
（3 ）提出了一种既可以结合上下文信息，又不降低分辨率的模型。

二、原理

kernel_size =3, dilated_ratio=2, stride=1, padding=0
相当于实际普通个卷积核：K=3+(3-1)(2-1)=5; 卷积后得出的尺寸为w=(w-K+2P)/S +1=3

1. 连续使用几个膨胀系数不同的空洞卷积，有如下的结果：

（a ）F1 由F0 通过1-dilated （相当于普通卷积）扩张卷积产生的；F1 中每个元素具有3×3 的感受野。
（b ）F2 由F1 通过2-dilated 扩张卷积产生的；F2 中每个元素具有7×7 的感受野。
（c ）F3 由F2 通过4 -dilated 扩张卷积产生的；F3 中每个元素具有15×15 的感受野。

上图可以看出，卷积核参数量没有发生改变，只是被0填充大小发生变化，随着空洞系数的增大，感受野 ( receptive field ) 也逐渐变大，而他们训练的参数是完全相同的。文章当中给出了上面三种情况感受野的计算公式:

2. 连续使用几个膨胀系数相同的空洞卷积，有如下的结果：

相比于前面使用 连续不同膨胀系数的空洞卷积而言：

两种方法在仅是膨胀系数不同情况下，它们的参数数量是一样的。
对于[2, 2, 2]的空洞卷积来说，Layer4 （三层卷积后得到的那层）的感受野也是13×13 ，但在这个视野下有很多像素值是没有利用到的。

对此，我们更加倾向于使用[1, 2, 4]这样的膨胀系数—— 感受野下使用的区域是连续的。

3. 全部使用普通的卷积：

可以发现：

在相同层对应的感受野：普通卷积（7×7 ）要小于膨胀卷积（13×13 ）。
这说明使用膨胀卷积可以大幅度增加感受野。

三、膨胀卷积 使用的方法

1.论文第一个建议：连续使用多个膨胀卷积时应该如何设计它的膨胀系数如下：

针对于几个膨胀系数相同的空洞卷积和 几个膨胀系数 不同 的空洞卷积连接卷积产生的不同结果，论文给出了相应的解决方法： Hybird Dilated Convolution (HDC)。

假设我们连续堆叠N个空洞卷积（它的kernel_size都是等于K x K 的），每个空洞卷积的膨胀系数分别对应[r1 ,r2 ,…, rn ] 。那HDC的目标是通过一系列空洞卷积之后可以完全覆盖底层特征层的方形区域，并且该方形区域中间是没有任何孔洞或缺失的边缘(withou any holes or missing edges)。作者定义了一个叫做” maximum distance between two nonzero values，两个非零元素之间最大的距离”的公式：

针对第一个建议给出的两个例子： ( 其中 最大距离 为 M n = r n )

• 当 kernel_size (K)=3 时，对于膨胀系数 r=[1, 2, 5] 来说， M 2 =max[M 3 − 2r 2 , 2r i −M i+1 , r 2 ] =max[5-4, 4-5, 2]=2 ≤ (K= ) 3, 所以满足设计要求。
• 当 kernel_size (K)=3 时，对于膨胀系数 r=[1, 2, 9] 来说，M 2 =max[M 3 − 2r 2 , 2r i −M i+1 , r 2 ] =max[9-4, 4-9, 2]=5 ≥ (K=)3, 所以 不满足 设计要求，所以这组参数时不合适的。

设计对应的效果图对比：

提问：为什么例子中的r 都是从 1 开始的？

我们希望在高层特征图的每个像素可以利用到底层特征图的感受野内的所有像素，那么M 1 应该等于1 。M 1 =1 意味着非零元素之间是相邻的（没有间隙的），而M 1 的计算公式如下：
M 1 = max[M 2 −2r 1 , 2r 1 − M 2, r 1 ] = max[正, 负, r i ]
既然我们希望M 1 =1 而且M 1 且取3 个中最大的数，那么M 1 应该≥ r 1 ，即1 ≥r 1 ，所以r 1 等于1。

2. 论文第二个建议：将膨胀系数设置为锯齿形状。

3.论文第三个建议：公约数不能大于 1 的。

设计对应的效果图对比：

明显可以看出r=[2, 4, 8],有公约数2而且中间丢失了一部分信息，而r=[1,2,5]公约数为1且没有丢失任何信息。

四、膨胀卷积用途

在语义分割中，通常会使用分类网络作为backbone 。通过backbone 之后会对特征图进行一系列的下采样，之后再进行一系列的上采样还原原图的大小。

在分类网络中，一般都会对图片的高度和宽度下采样32 倍，由于后续需要通过上采样还原到原来的尺寸。如果下采样的倍率很大时， 即便使用上采样还原回原来的尺寸，那么信息丢失是比较严重的。以VGG16 为例，该网络通过MaxPooling 层对特征图进行下采样：

• 通过 MaxPooling 会降低特征图的 shape
• MaxPooling 会丢失特征图的一些细节信息（毕竟是用最大值代替局部值，丢失信息是肯定的）
• 丢失的信息和目标是无法通过上采样进行还原的

对于神经网络构建而言：

如果我们简单粗暴地将MaxPooling 去掉的话，会引入新的问题：

• 特征图对应原图的感受野会变小
• 为后面的卷积层带来影响（感受野不变，卷积层就无法获取深层的信息）

此时，空洞卷积就可以解决上面的问题，因为空洞卷积：

• 增大特征图的感受野
•通过修改padding的大小，可以保证输入输出特征图的 shape 不变

五、膨胀 卷积各种 设计效果比较

可以发现，使用HDC设计的膨胀卷积对于全局信息的捕获更齐全。

六、代码：

上面对应每个r=[x,x,x]生成图像的代码如下，只需改动dilated_rates = [1,2,3]中的值即可测试其他数据。这里参考了（空洞卷积（膨胀卷积）的相关知识以及使用建议（HDC原则）_Le0v1n的博客-CSDN博客_空洞卷积的作用)

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import LinearSegmentedColormap

def dilated_conv_one_pixel(center: (int, int),
                           feature_map: np.ndarray,
                           k: int = 3,
                           r: int = 1,
                           v: int = 1):
"""
    &#x81A8;&#x80C0;&#x5377;&#x79EF;&#x6838;&#x4E2D;&#x5FC3;&#x5728;&#x6307;&#x5B9A;&#x5750;&#x6807;center&#x5904;&#x65F6;&#xFF0C;&#x7EDF;&#x8BA1;&#x54EA;&#x4E9B;&#x50CF;&#x7D20;&#x88AB;&#x5229;&#x7528;&#x5230;&#xFF0C;
    &#x5E76;&#x5728;&#x5229;&#x7528;&#x5230;&#x7684;&#x50CF;&#x7D20;&#x4F4D;&#x7F6E;&#x5904;&#x52A0;&#x4E0A;&#x589E;&#x91CF;v
    Args:
        center: &#x81A8;&#x80C0;&#x5377;&#x79EF;&#x6838;&#x4E2D;&#x5FC3;&#x7684;&#x5750;&#x6807;
        feature_map: &#x8BB0;&#x5F55;&#x6BCF;&#x4E2A;&#x50CF;&#x7D20;&#x4F7F;&#x7528;&#x6B21;&#x6570;&#x7684;&#x7279;&#x5F81;&#x56FE;
        k: &#x81A8;&#x80C0;&#x5377;&#x79EF;&#x6838;&#x7684;kernel&#x5927;&#x5C0F;
        r: &#x81A8;&#x80C0;&#x5377;&#x79EF;&#x7684;dilation rate
        v: &#x4F7F;&#x7528;&#x6B21;&#x6570;&#x589E;&#x91CF;
"""
    assert divmod(3, 2)[1] == 1

    # left-top: (x, y)
    left_top = (center[0] - ((k - 1) // 2) * r, center[1] - ((k - 1) // 2) * r)
    for i in range(k):
        for j in range(k):
            feature_map[left_top[1] + i * r][left_top[0] + j * r] += v

def dilated_conv_all_map(dilated_map: np.ndarray,
                         k: int = 3,
                         r: int = 1):
"""
    &#x6839;&#x636E;&#x8F93;&#x51FA;&#x7279;&#x5F81;&#x77E9;&#x9635;&#x4E2D;&#x54EA;&#x4E9B;&#x50CF;&#x7D20;&#x88AB;&#x4F7F;&#x7528;&#x4EE5;&#x53CA;&#x4F7F;&#x7528;&#x6B21;&#x6570;&#xFF0C;
    &#x914D;&#x5408;&#x81A8;&#x80C0;&#x5377;&#x79EF;k&#x548C;r&#x8BA1;&#x7B97;&#x8F93;&#x5165;&#x7279;&#x5F81;&#x77E9;&#x9635;&#x54EA;&#x4E9B;&#x50CF;&#x7D20;&#x88AB;&#x4F7F;&#x7528;&#x4EE5;&#x53CA;&#x4F7F;&#x7528;&#x6B21;&#x6570;
    Args:
        dilated_map: &#x8BB0;&#x5F55;&#x8F93;&#x51FA;&#x7279;&#x5F81;&#x77E9;&#x9635;&#x4E2D;&#x6BCF;&#x4E2A;&#x50CF;&#x7D20;&#x88AB;&#x4F7F;&#x7528;&#x6B21;&#x6570;&#x7684;&#x7279;&#x5F81;&#x56FE;
        k: &#x81A8;&#x80C0;&#x5377;&#x79EF;&#x6838;&#x7684;kernel&#x5927;&#x5C0F;
        r: &#x81A8;&#x80C0;&#x5377;&#x79EF;&#x7684;dilation rate
"""
    new_map = np.zeros_like(dilated_map)
    for i in range(dilated_map.shape[0]):
        for j in range(dilated_map.shape[1]):
            if dilated_map[i][j] > 0:
                dilated_conv_one_pixel((j, i), new_map, k=k, r=r, v=dilated_map[i][j])

    return new_map

def plot_map(matrix: np.ndarray):
    plt.figure()

    c_list = ['white', 'blue', 'red']
    new_cmp = LinearSegmentedColormap.from_list('chaos', c_list)
    plt.imshow(matrix, cmap=new_cmp)

    ax = plt.gca()
    ax.set_xticks(np.arange(-0.5, matrix.shape[1], 1), minor=True)
    ax.set_yticks(np.arange(-0.5, matrix.shape[0], 1), minor=True)

    # &#x663E;&#x793A;color bar
    plt.colorbar()

    # &#x5728;&#x56FE;&#x4E2D;&#x6807;&#x6CE8;&#x6570;&#x91CF;
    thresh = 5
    for x in range(matrix.shape[1]):
        for y in range(matrix.shape[0]):
            # &#x6CE8;&#x610F;&#x8FD9;&#x91CC;&#x7684;matrix[y, x]&#x4E0D;&#x662F;matrix[x, y]
            info = int(matrix[y, x])
            ax.text(x, y, info,
                    verticalalignment='center',
                    horizontalalignment='center',
                    font={'size':6},
                    color="white" if info > thresh else "black")
    ax.grid(which='minor', color='black', linestyle='-', linewidth=1.5)
    plt.show()
    plt.close()

def main():
    # bottom to top
    dilated_rates = [1,2,3]
    # init feature map
    size = 31
    m = np.zeros(shape=(size, size), dtype=np.int32)
    center = size // 2
    m[center][center] = 1
    # print(m)
    # plot_map(m)

    for index, dilated_r in enumerate(dilated_rates[::-1]):
        new_map = dilated_conv_all_map(m, r=dilated_r)
        m = new_map
    print(m)
    plot_map(m)

if __name__ == '__main__':
    main()

七、总结

1.在不做pooling 损失信息和 相同的计算条件下的情况下，加大了感受野，让每个卷积输出都包含较大范围的信息。空洞卷积经常用在实时图像分割中。当网络层需要较大的感受野，但计算资源有限而无法提高卷积核数量或大小时，可以考虑空洞卷积。

2.使用 HDC设计的膨胀卷积通过卷积后能够保留更多原始的信息。

3.最后，如果你觉得上面的内容能给您带来一点作用的话，可以给我点个👍，谢谢

八、参考

Original: https://blog.csdn.net/caip12999203000/article/details/126743558
Author: 小wu学cv
Title: 膨胀卷积（Dilated convolutions）（又叫空洞卷积、扩张卷积）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/627211/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

neo4j 知识图谱_GitHub：如何构建一个股票市场知识图谱？（附代码&链接）

来源：专知本文约 2600 字，建议阅读 5 分钟。如何利用网络上的公开数据构建一个自己的股票证券知识图谱呢？ [ 导读 ]你不理财财不理你，理财是大家早就达成共识的事情。作为…

人工智能 2023年6月1日
0069
深度学习教父辛顿 | 未来神经网络可以重建人脑意识

再次读到hinton教授两年前，谷歌I/O开发者大会上《连线》杂志对其的采访。他谈到一些有趣的议题，关于感知、关于如何教计算机做梦。辛顿教授是深度学习的提出者，与祭出贝叶斯定律的…

人工智能 2023年7月13日
0049
简单视频分类模型

视频可以简单看作一系列图片的集合有几种方法可以对视频进行分类： [En] There are several ways to classify videos: 本文介绍最简单的 …

人工智能 2023年5月24日
0060
超分辨率——基于SRGAN的图像超分辨率重建(Pytorch实现)

基于SRGAN的图像超分辨率重建本文偏新手项，因此只是作为定性学习使用，因此不涉及最后的定量评估环节目录基于SRGAN的图像超分辨率重建 * 1 简要介绍 2 代码实现 &#…

人工智能 2023年6月16日
0083
跟着Cell学单细胞转录组分析(八):单细胞转录组差异基因分析及多组结果可视化

接着单细胞下游分析：从Cell学单细胞转录组分析(一):开端！！！跟着Cell学单细胞转录组分析(二):单细胞转录组测序文件的读入及Seurat对象构建跟着Cell学单细胞转…

人工智能 2023年5月31日
0091
DNN（全连接神经网络）

一. DNN网络一般分为三层 1.输入层 2.隐藏层 3.输出层简单网络如下：二.前向传播从第二层开始，每一个神经元都会获得它上一层所有神经元的结果。即每一个 y = wx …

人工智能 2023年6月23日
0059
pd.read_csv/jieba.analyse.set_stop_words

目前网上能找到的方法都是自己做个停用词字典，然后在打印分词结果之前将停用词去掉。#也就是说分词的过程不变，打印时做个集合差运算。text =u’听说你超级喜欢万众掘金小…

人工智能 2023年7月8日
0044
Flink不止于计算，存算一体才是未来

“伴随着实时化浪潮的发展和深化，Flink 已逐步演进为实时流处理的领军技术和事实标准。Flink 一方面持续优化其流计算核心能力，不断提高整个行业的流计算处理标准，另…

人工智能 2023年6月11日
0075
安装GPU版本的pytorch（解决pytorch安装时默认安装CPU版本的问题）保姆级教程

1、安装anaconda anaconda官网：www.anaconda.com ; 2、修改下载源为清华源由于pytorch的服务器在国外，直连下载的话很慢，所以选用清华镜像源…

人工智能 2023年7月30日
0082
【炼丹炉】Conda环境离线迁移

笔者所在公司最近要在局域网内部署NLP算法模型，由于需求方对数据安全有严格要求，新服务器所在局域网不能直接访问Internet，因此需要将模型所需的运行环境离线迁移到新服务器中。 …

人工智能 2023年5月31日
0087
李宏毅《机器学习》飞桨特训营(九)——卷积神经网络(含作业：食物分类)

李宏毅《机器学习》飞桨特训营(九）一. 卷积神经网络二. 作业：食物分类 * 2.1 数据集介绍 2.2 导入包 2.3 定义数据集 2.4 构建模型 2.5 开始训练 2.6…

人工智能 2023年7月2日
00108
免费将中文视频转换为英文视频并添加中英双语字幕

人工智能 2023年5月23日
00201
所有的线性滤波器总结

线性滤波器选题背景与意义 * 线性滤波器频域与空间域中线性滤波算法设计 * 均值滤波. 加权均值滤波高斯滤波线性锐化滤波线性算子理想低通（高通）滤波高斯低通（高通）…

人工智能 2023年7月18日
00100
教你免费白嫖各大知名互联网公司的「文字转语音、语音转文字」服务！

先说文字转语音，再说语音转文字 [En] First talk about “text to voice”, and then talk about &#8…

人工智能 2023年5月25日
0084
利用决策树算法来实现鲍鱼数据集年龄的预测

本文主要通过调取sklearn库中的tree模块来构建在鲍鱼数据集上的决策树，并对测试集鲍鱼的年龄进行预测，本文仅供参考。目录前言一、数据集二、步骤 1.引入库 2.读入数…

人工智能 2023年6月15日
0089
Windows安装GPU版本的tensorflow+CUDA+CUDNN（超详细）

目的：安装GPU版本的tensorflow 一、查看电脑的NVIDIA 版本是否支持CUDA 以及能够配置的CUDA 版本方法：在桌面空白处单击右键，打开英伟达控制面板，如果找…

人工智能 2023年5月24日
00165

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

膨胀卷积（Dilated convolutions）（又叫空洞卷积、扩张卷积）

1. 连续使用几个膨胀系数不同的空洞卷积 ，有如下的结果：

2. 连续使用几个膨胀系数 相同 的空洞卷积 ，有如下的结果：

3. 全部使用普通的卷积 ：

1.论文第一个建议： 连续使用多个膨胀卷积时应该如何设计它的膨胀系数如下：

2. 论文第二个建议： 将膨胀系数设置为锯齿形状。

3.论文第 三 个建议： 公约数不能大于 1 的。

大家都在看