图解神经网络：卷积、池化、全连接（通道数问题、kernel与filter的概念）

2023年5月26日上午9:58 • 人工智能 • 阅读 113

文章目录

*
–
+ 卷积操作
+ 实际操作
+ filter与kernel
+ 1×1的卷积层
+ 可视化的例子
+ 池化
+ 全连接

卷积操作

这个不难理解。我们知道图像在计算机中是由一个个的像素组成的，可以用矩阵表示。
假设一个5×5的输入图像，我们定义一个3×3的矩阵（其中的数值是随机生成的）

图解神经网络：卷积、池化、全连接（通道数问题、kernel与filter的概念）

然后我们拿这个卷积核，在输入图像里面，选定左上角那个3×3的矩阵，用卷积核与这个矩阵对应的位置相乘，然后得到的9个数，这9个数再相加，最终得到一个结果。

然后把卷积核往右边挪动一格，继续重复上述计算，再得到一个数字。

那么算完了，继续往右边挪，再算，

三次计算得到的值是

然后往下挪一格，继续重复上述操作，直到我们把整个5×5的输入图像全部计算完，得到了9个计算结果

这就是我们卷积的结果，这整个操作就是卷积操作。
那么有几个问题：

Q1：每次往右挪动只能是1格吗？
A1：不是，挪动1格，就是步长为1，如果我们设置步长为2，那就每次挪动2格， stride步长由我们设置
Q2:卷积核里面的数值是怎么设置的？
A2: 初始是随机生成的（后面会学习更新）
Q3：所以经过卷积之后，图像一定变小了？
A3：不是的，上面的例子，5×5的输入，卷积之后得到3×3，那么我们如果给5×5的图像填充一圈，就变成了7×7的图像了，再去拿这个卷积核进行卷积，就会得到5×5的输出。实际中，我们也确实是这么做的，有一个参数 padding即表示是否填充，我们可以设置填充的范围，以及填充的值，一般填充0。

顺便补充一个公式：
假设输入图片为 W x W 卷积核大小为FxF，步长stride=S，padding设置为P（填充的像素数）
则输出图像的大小=（W – F +2P）/S +1

那么，了解了整个卷积的过程，下面这个图就能看懂了。
这个图表示的是输入图像为5×5，卷积核为3×3，步长为1，padding=1，所以得到的输出是5×5

; 实际操作

卷积的流程是上面讲的那样，实际写代码的时候，我们可以不用那么麻烦，每一步都自己实现。
框架已经帮我们封装好的对应的函数，我们只需要调用函数，传给他相关参数即可。
我们以pytorch框架为例（tensorflow也差不多）
Conv2d操作时我们需要设置以下参数：

我们解释几个常用的：

in_channels：输入的通道数
out_channels：输出的通道数
kernel_size：卷积核的大小，类型为int 或者元组，当卷积是方形的时候，只需要一个整数边长即可，卷积不是方形，要输入一个元组表示高和宽。（卷积核不需要你设置，只需要给定大小，里面的值是随机生成的）
stride：步长（就是每次挪动几个像素，默认是1）
padding：填充几圈，默认是0，不填充（填充的值为0）
dilation：控制卷积核之间的间距（设置这个可以做空洞卷积）
groups：控制输入和输出之间的连接
bias：偏置，是否将一个学习到的 bias 增加输出中，默认是True
padding_mode：设置填充的模式

filter与kernel

这里重点解释以下通道数的问题：
假设一张图片是6×6的，通道数是1（如黑白图像），卷积核大小3×3，步长为1，不填充（padding为0）
我们暂时不考虑 out_channels的设置问题，待会再说
也就是说现在的参数设置是： in_channels=1 kernel_size=3 stride=1 padding=0
这我们都能算出来，输出图像是4×4的，我画了个示意图，可以看下：

那我们也知道，rgb图像是三通道的，那么假如上图是个rgb图像呢，输出结果是多少呢
也就是说参数设置是： in_channels=3 kernel_size=3 stride=1 padding=0
如图：我们的输出结果依然是1通道的。

可以看到，这里的卷积核变了，变成了三个叠加。
有些同学就是只明白上面那个单通道的卷积操作，但是不明白这个多通道的卷积操作。
当你输入图像是三通道的时候，卷积核就也是三通道的。
其实关键点就在于 in_channels， in_channels是输入的通道数，同时它也是滤波器（filter）的通道数。
kernel我们叫做卷积核，大小是3×3
而如果输入是三通道图像的话，那我们的卷积核也会是三通道的
我们把单层的卷积核叫 kernel多层叠起来这个叫 filter滤波器。

注意： 这样解释并非正确，只是方便理解。至于 kernel和 filter的具体含义，有历史原因，这些术语也是从其他学科流传借鉴下来的，而目学习神经网络也并不需要细究 kernel和 filter具体指代什么，只要理解这都是卷积核就行了。也可以看本博文评论区同学给出的解释

当你输入图像是三通道的时候，卷积核就也是三通道的。
他们之间的运算是由这个新的卷积核（有27个数），去和输入图像的对应位置做运算。
27个数分别与输入图像中的27个数字对应相乘，然后再相加，得到一个数，重复这个计算，把整个输入图像都走一遍，就得到16个数。
如图：

所以运算出来的也是一维的结果，也就是单通道的结果。

所以，kernel和filter的概念就明白了。
kernel: 内核是一个2维矩阵，长 × 宽。
filter：滤波器是一个三维立方体，长× 宽 × 深度，其中深度便是由多少张内核构成。
可以说kernel 是filter 的基本元素，多张kernel 组成一个filter。
其实本质上kernel和filter都是卷积核而已，只不过一个对应单通道，一个对应多通道
所以 filter 是几维的取决于输入通道数

那么有两个问题：
一个filter 中应该包含多少张 kernel 呢？
答案是：由输入的通道数 in_channels来确定
一层中应该有多少个filter呢？
答案是：看我们想要提取多少个特征，一个filter 负责提取某一种特征，我们想输出多少个特征就设置多少个filter。
那么设置filter的参数是什么呢？
就是前面我们没说的 out_channels
不要忘了， out_channels也是可以人为设置的，上面那个图，一个filter运算得到的结果是单通道的，假如你设置 out_channels=2
那么就会得到输出通道为2。如图所示：

所以。总结一下就是。
filter 有几个决定了输出的通道数
我们写代码的时候，不需要指定filter的数量，而是直接指定输出通道即可，所以输出通道是我们的超参数。
in_channels决定了filter的通道数， out_channels的设置决定了filter的数量，这一层卷积得到的结果的 out_channels就是下一层的 in_channels。
所以， out_channels和 in_channels是没有关系的。

; 1×1的卷积层

1×1的卷积层是特殊的卷积层
卷积核的高和宽都等于1，意味着它不会识别空间信息，因为他每次只看一个空间像素所以不会去识别通道中的空间信息
但是我们经常用它来合并通道
它输出的值等价于将对应的输入位置上的不同通道上的值做加权和
1 _1卷积核的作用就是去融合不同通道的信息可以认为是不做空间的匹配，只是在输入层直接做输入通道和输出通道的融合，等价于将整个输入拉成一个向量，通道数等于feature的数量
1_1的卷积层就等价于一个全连接层，不做任何的控制信息，因为全连接层不考虑空间信息它只考虑在特征维度（也就是输入通道维数）的融合

可视化的例子

我们可以用一个实际的网络LeNET5来看一下我们刚才的解释。

这个输入一张32×32的手写数字图片
6@28×28代表：第一卷积层的输出通道是6，输出大小为28×28
第二个是池化层，通道数不变，还是6，大小减半，变成了14×14
第三个还是卷积层，16通道，大小10×10
然后第四个是池化层，16通道，大小5×5
最后跟两个全连接层
最后是输出结果。

LeNET5第一层是一个卷积层，其输入数据是32x32x1，卷积核大小5×5，步长=1，padding=0，输出为6 @ 28×28
那么，这里输入是单通道的，也就是 in_channels=1，那么filter的深度也就是1了，但是输出通道要求是6，也就是 out_channels=6
也就是需要6个filter，最终得到6个28×28的图像。
如图：这是整个LeNET5的网络可视化模型，蓝色的那个是32×32的，经过卷积，得到了下一层，也就是黄色的那一层，你可以看到，黄色的那一层是一个立方体，我们可以把他展开看看

可以看到：展开后确实就是6个28×28的结果

这个可视化的网站地址是：https://tensorspace.org/index.html

; 池化

明白了卷积操作，池化就简单多了。池化操作就是用一个kernel，比如3×3的，就去输入图像上对应3×3的位置上，选取这九个数字中最大的作为输出结果。这就叫最大池化。
输出通道=输入通道
（输入多通道的时候，就是每个通道都池化就好了）

全连接

全连接层一般在卷积神经网络的末尾。他的输入呢是前面卷积池化得到的结果，把结果” 展平“，就是把得到的结果矩阵，平铺为一个列向量。那么全连接如何对这个列向量运算呢？

如图，假设左边的x1,x2,x3就是我们展平后得到的向量，那么我们用x 1 × w 11 + x 2 × w 21 + x 3 × w 31 = b 1 x_1\times w_{11} +x_2\times w_{21}+x_3\times w_{31}=b_1 x 1 ×w 11 +x 2 ×w 21 +x 3 ×w 31 =b 1
同理，b2也是这么算出来的。这个计算过程可以表示为矩阵运算

那么这个运算中，只要我们增加w矩阵的列数，就可以得到不同的结果数量。比如w设置为3×3的，那就会得到1×3的结果。所以呢，全连接层输出一列向量，最终得到的结果数量是我们可以定义的。
那么这么做有什么意义呢？
全连接层（fully connected layers，FC）在整个卷积神经网络中起到”分类器”的作用。如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话，全连接层则起到将学到的” 分布式特征表示“映射到样本标记空间的作用。
这么做可以减少特征位置对分类带来的影响，本来feature map是一个矩阵，所以特征的位置对分类是有影响的，比如识别图像里面的猫，猫在图像的左上角，那么左上角就可以检测到，右下角就检测不到，但是呢，我们那这个二维的矩阵，通过全连接层，整合成一个值输出，这个值就是对猫的预测概率，不论猫在哪，只要概率大，就是有猫。这样做忽略了空间结构特征，增强了鲁棒性。

Original: https://blog.csdn.net/holly_Z_P_F/article/details/122377935
Author: 1900_
Title: 图解神经网络：卷积、池化、全连接（通道数问题、kernel与filter的概念）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/519087/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Android studio 连接SQLite数据库 +创建数据库+创建数据库表

Android studio 之数据库的使用连接创建SQLite 大家好，欢迎来到寒依。相信看啦我的教程当老师问你在学习Android studio 数据库使用过程中遇到什么困…

人工智能 2023年7月30日
0069
python快速实现简易超级玛丽小游戏

《超级玛丽》是一款超级马里奥全明星的同人作品，也是任天堂公司出品的著名横版游戏。《超级马里奥》是一款经典的像素冒险过关游戏。最早在红白机上推出，有多款后续作品，迄今多个版本合共销…

人工智能 2023年6月30日
00104
（阶次分析、阶比追踪）故障诊断之基于振动信号的阶比谱分析

故障诊断之基于振动信号的阶比谱分析前言一、阶次分析是什么二、阶次分析的基本原理三、基于加拿大渥太华数据进行分析 * 1.数据下载链接： 2.数据说明四、变速的故障信号仿真…

人工智能 2023年6月15日
00114
世界杯太精彩了，带大家用Python做个足球游戏，边玩游戏边看比赛

文章目录 Python零基础快速制作足球游戏（附源代码）前言一、Python环境说明二、游戏程序说明 1、游戏开始界面 2、人物移动规则说明，可支持两位玩家 3、足球规则 4…

人工智能 2023年7月30日
0066
深度学习：使用nanodet训练自己制作的数据集并测试模型，通俗易懂，适合小白

关于目标检测的模型有很多， nanodet模型小且轻量化，适合移植部署到硬件设备上，非常推荐学习这个模型。经过我自己踩了无数坑后总结了此教程，助学刚接触nanodet，想要快速上手…

人工智能 2023年7月18日
0059
8种主流深度学习框架介绍

导读：近几年随着深度学习算法的发展，出现了许多深度学习框架。这些框架各有所长，各具特色。常用的开源框架有TensorFlow、Keras、Caffe、PyTorch、Theano、…

人工智能 2023年6月24日
00211
老油条表示真干不过，部门新来的00后测试员已把我卷崩溃，想离职了…

在程序员职场上，什么样的人最让人反感呢? 是技术不好的人吗?并不是。技术不好的同事，我们可以帮他。是技术太强的人吗?也不是。技术很强的同事，可遇不可求，向他学习还来不及呢。真正让…

人工智能 2023年7月31日
0039
基于循环神经网络lstm构建一个商品评论分类模型

一、项目背景及意义 AI人工智能一直是近年来热度一直热度不减的话题，我们常在各种科幻电影和小说都能看到它的身影，甚至在现实生活中看见它，对于AI的研究也一直源源不断。这个项目是基于…

人工智能 2023年7月3日
0069
Python遥感图像处理应用篇(十)(续):使用EVI指数批量计算叶面积指数LAI

叶面积指数（leaf area index, LAI）不同资料显示定义有所不同，有的说是指单位地面上的绿叶面积，是植被冠层最显著的特征之一，具体是指一定土地面积上植物叶面面积总和与…

人工智能 2023年6月21日
0082
【深度强化学习】多智能体算法汇总

0 Preliminaries 在多智能体强化学习算法中，两个主要的技术指标为合理性与收敛性。合理性（rationality）：在对手使用一个恒定策略的情况下，当前智能体能够学习…

人工智能 2023年7月27日
0036
特征金字塔：FPN（Feature Pyramid Networks）

参考：【论文笔记】FPN —— 特征金字塔神经网络学习小记录29——特征金字塔-Feature Pyramid Networks（FPN） 1、introduction 在目标检测…

人工智能 2023年5月28日
00108
YOLOV7开源代码讲解–训练参数解释

目录训练参数说明： –weights: — cfg: –data: –hpy: –epoch: –batc…

人工智能 2023年6月12日
00129
python kmean 多维_如何使用KMeans对多维和未知数据进行聚类？

@Nael Alsaleh，你可以用下面的方法运行K-Means：from sklearn.cluster import KMeans import numpy as np imp…

人工智能 2023年6月2日
0053
深度学习神经网络——TensorFlow安装及tf2连接服务器连接不到的问题

目录一、安装TensorFlow 二、问题：tf2连接服务器连接不到的问题一、安装TensorFlow 1.设置清华源：https://mirror.tuna.tsinghua…

人工智能 2023年7月13日
0071
ffmpeg库简介

ffmpeg下有7个library，分别是： libavutil libswscale libswresample libavcodec libavformat libavdevi…

人工智能 2023年6月22日
0054
NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver. Make sure that the lat

1. 问题安装cuda和驱动程序，执行nvidia-smi是正常的，可运行，但是过了段时间电脑重启，发现屏幕扩展失效了，又发现nvidia-smi也失效了，就是提示类似下面的错误…

人工智能 2023年7月14日
0075

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31