目录
1、卷积神经网络和传统神经网络的区别
1.1、传统神将网络(nn)
传统神经网络(NN),是目前各种神经网络的基础,其构造是仿造生物神经网络,将神经元看成一个逻辑单元,其功能是用于对函数进行估计和近似,是一种自适应系统,通俗的讲就是具备学习能力。
其作用,目前为止就了解到分类。其目的就是在圈和叉之间画出一条分界线,使得接下来我们可以根据其位置来预测其属于哪个分类。这个图只有两种分类,实际上可以有非常多种,但其网络结构也会变得复杂,可以说一层网络可以画一条线,多层网络就可以画多条线。
其内部最主要的构造就是神经元,如下图所示
这张图有五个部分组成
- 输入向量
- 权重
- 求和
- 激励函数
- 输出
可以把权重,求和,激励函数合并在一起,统称为隐藏层,输入的向量可以成为输入层,输出的向量可以称为输出层。
因此神经网络的基础结构便是三层结构
- 输入层
- 隐藏层
- 输出层
传统神经网络示意图
1.2、卷积神经网络
典型的卷积神经网络由5部分构成:
- 输入层
- 卷积层
- 池化层
- 全连接层
- 输出层
卷积层负责提取图像中的局部特征;池化层用来大幅降低参数量级(降维);全连接层类似传统神经网络的部分,用来输出想要的结果,也就是神经网络当中的隐藏层。
目前卷积神经网络主要用于图像处理的方面。
2、卷积神经网络的具体介绍
2.1、输入层
就是给出的图像数据,跟传统神经网络类似。
2.2、卷积层——提取特征
使用多个filter在图像上面做内积,得出多个特征,卷积的过程就是拿一个矩阵在原图矩阵上面边移动,边做内积,最后得出一个比原图小一点的矩阵。如图所示,一个9*9的矩阵被filter后变成了-8。
而这个filter的作用其实在视觉上的效果便是提取图片的某些特征,例如颜色的深浅与轮廓。
2.3、池化层——压缩特征
池化层简单说就是下采样,他可以大大降低数据的维度。其过程如下:
上图中,我们可以看到,原始图片是20×20的,我们对其进行下采样,采样窗口为10×10,最终将其下采样成为一个2×2大小的特征图。
之所以这么做的原因,是因为即使做完了卷积,图像仍然很大(因为卷积核比较小),所以为了降低数据维度,就进行下采样。
3、卷积层补充说明
3.1、颜色通道
不同颜色通道分别进行计算,计算完成后将所得结果加在一起
3.2、特征图
特征图:就是在执行了一次卷积计算后得到的结果,特征图可以有多个,以不同方式得出的特征图结果不同。
上面这个图中有六个特征图,表示用过六种不同方法进行卷积后得到的结果。
注意:卷积神经网络不是卷积一次就能得出结果,需要对卷积结果进一步进行卷积,多次卷积后得到的结果,我们认为是比较好用的。
3.3、卷积层涉及参数
- 滑动窗口步长
当步长比较小时,这时系统会慢慢的,仔细地提取图片特征,所以得到的特征值的结果就多,
当步长比较大时,系统会粗略的进行提取,得到的特征值的结果也就少。
当然有时考虑到提取时间的关系,会对步长进行选择,选择合适的步长也是识别的关键(一般步长都是1)。
- 卷积核尺寸
通俗点说就是,选择区域的大小,比如3×3,4×4,5×5,等等(一般都是3×3),卷积核尺寸的选择对卷积结果特征值的多少也有影响。
- 边缘填充
还是上面这张图,可以看到输入层上写着+pad 1这个就是边缘填充。根据移动规律,越在中间的点对特征值的影响越大,反而那些比较边缘的的点,对特征值的影响不是很大,所以要想输入层的值对特征值产生影响,就得把原有的值往中间靠,这时就出现了边缘填充,也就是图中外面一圈灰色的0。当然这个填充可以填充多层,且必须填充0,因为填充其他值会对特征值产生影响。
- 卷积核个数
,特征图个数决定卷积核个数,得到的每个特征图中的数值都是不一样的,
3.4、卷积结果计算公式
- 长度
- 宽度:
其中:
3.4.1、卷积参数共享
卷积参数共享说的是几个区域共享同样的卷积核
4、池化层补充说明
4.1、最大池化
将特征图均分为相同的区域,然后取出其中最大的值,组成一个新的矩阵。为什么选择最大的值呢?因为,在神经网络中,得到一个较大的值时他的权重参数也比较大,说明在整个网络中它比较重要。
5、代码实现
(由于代码过多,这里只给出关键部分)
5.1、定义一个CNN网络
import torch.nn.functional as F
class CNN(nn.Module):
def __init__(self):
super(CNN,self).__init__()
self.conv1 = nn.Conv2d(1,32,kernel_size=3,stride=1,padding=1)
self.pool = nn.MaxPool2d(2,2)
self.conv2 = nn.Conv2d(32,64,kernel_size=3,stride=1,padding=1)
self.fc1 = nn.Linear(64*7*7,1024)#两个池化,所以是7*7而不是14*14
self.fc2 = nn.Linear(1024,512)
self.fc3 = nn.Linear(512,10)
self.dp = nn.Dropout(p=0.5)
def forward(self,x):
x = self.pool(F.relu(self.conv1(x)))
x = self.pool(F.relu(self.conv2(x)))
x = x.view(-1, 64 * 7* 7)#将数据平整为一维的
x = F.relu(self.fc1(x))
x = self.fc3(x)
self.dp(x)
x = F.relu(self.fc2(x))
x = self.fc3(x)
x = F.log_softmax(x,dim=1) NLLLoss()才需要,交叉熵不需要
return x
net = CNN()
5.2、定义损失函数和优化函数
import torch.optim as optim
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)
#常用优化方法有
#1.Stochastic Gradient Descent (SGD)
#2.Momentum
#3.AdaGrad
#4.RMSProp
#5.Adam (momentum+adaGrad) 效果较好
完整代码请参考:https://blog.csdn.net/weixin_43597287/article/details/97387801
或者:使用Pytorch框架的CNN网络实现手写数字(MNIST)识别 – 知乎 (zhihu.com)
Original: https://blog.csdn.net/qq_56688614/article/details/120023541
Author: 今朝.122
Title: CNN基础教学+Pytorch代码实现
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/691885/
转载文章受原作者版权保护。转载请注明原作者出处!