AlexNet网络详解

2023年7月14日上午12:11 • 人工智能 • 阅读 73

文章目录

*
– 1 模型介绍
– 2 模型结构
– 3 模型创新
– 4 Pytorch模型搭建

1 模型介绍

2012年，A l e x K r i z h e v s k y Alex Krizhevsky A l e x K r i z h e v s k y、I l y a S u t s k e v e r Ilya Sutskever I l y a S u t s k e v e r在多伦多大学Geoff Hinton的实验室设计出了一个深层的卷积神经网络AlexNet，夺得了2012年ImageNet LSVRC的冠军，且准确率远超第二名（top5错误率为15.3%，第二名为26.2%），引起了很大的轰动。AlexNet可以说是具有历史意义的一个网络结构。

2 模型结构

Layer NameKernel SizeKernel NumStridePaddingInput SizeOutput SizeConv1
11 × 11 11\times11 1 1 ×1 1 48 ( × 2 G P U ) 48(\times2_{GPU})4 8 (×2 G P U )4 4 4 [ 1 , 2 ] [1,2][1 ,2 ]224 × 224 × 3 224\times224\times3 2 2 4 ×2 2 4 ×3 55 × 55 × 96 55\times55\times96 5 5 ×5 5 ×9 6

Maxpool1
3 × 3 3\times3 3 ×3 / //2 2 2 0 0 0 55 × 55 × 96 55\times55\times96 5 5 ×5 5 ×9 6 27 × 27 × 96 27\times27\times96 2 7 ×2 7 ×9 6

Conv2
5 × 5 5\times5 5 ×5 128 ( × 2 G P U ) 128(\times2_{GPU})1 2 8 (×2 G P U )1 1 1 [ 2 , 2 ] [2,2][2 ,2 ]27 × 27 × 96 27\times27\times96 2 7 ×2 7 ×9 6 27 × 27 × 256 27\times27\times256 2 7 ×2 7 ×2 5 6

Maxpool2
3 × 3 3\times3 3 ×3 / //2 2 2 0 0 0 27 × 27 × 256 27\times27\times256 2 7 ×2 7 ×2 5 6 13 × 13 × 256 13\times13\times256 1 3 ×1 3 ×2 5 6

Conv3
3 × 3 3\times3 3 ×3 192 ( × 2 G P U ) 192(\times2_{GPU})1 9 2 (×2 G P U )1 1 1 [ 1 , 1 ] [1,1][1 ,1 ]13 × 13 × 256 13\times13\times256 1 3 ×1 3 ×2 5 6 13 × 13 × 384 13\times13\times384 1 3 ×1 3 ×3 8 4

Conv4
3 × 3 3\times3 3 ×3 192 ( × 2 G P U ) 192(\times2_{GPU})1 9 2 (×2 G P U )1 1 1 [ 1 , 1 ] [1,1][1 ,1 ]13 × 13 × 384 13\times13\times384 1 3 ×1 3 ×3 8 4 13 × 13 × 384 13\times13\times384 1 3 ×1 3 ×3 8 4

Conv5
3 × 3 3\times3 3 ×3 128 ( × 2 G P U ) 128(\times2_{GPU})1 2 8 (×2 G P U )1 1 1 [ 1 , 1 ] [1,1][1 ,1 ]13 × 13 × 384 13\times13\times384 1 3 ×1 3 ×3 8 4 13 × 13 × 256 13\times13\times256 1 3 ×1 3 ×2 5 6

Maxpool3
3 × 3 3\times3 3 ×3 / //2 2 2 0 0 0 13 × 13 × 256 13\times13\times256 1 3 ×1 3 ×2 5 6 6 × 6 × 256 6\times6\times256 6 ×6 ×2 5 6

FC1
2048 2048 2 0 4 8 / /// /// //6 × 6 × 256 6\times6\times256 6 ×6 ×2 5 6

4096FC2
2048 2048 2 0 4 8 / /// /// //

40964096FC3
1000 1000 1 0 0 0 / /// /// //

40961000

为了简化网络结构，将作者原论文中的在两个GPU上的并行结构合并，接下来我们对AlexNet的每一层作详细的分析。

1、Conv1: kernels:48×2=96；kernel_size:11；padding:[1, 2] ；stride:4

卷积层1输入的尺寸为224×224，卷积核的数量为96，论文中两片GPU分别计算48个核; 卷积核的大小为 11 × 11 × 3 ；卷积核步距stride = 4；padding=[1, 2]表示在原输入图像上左侧补一列0，右侧2列0，上侧一行0，下侧2行0。
输出feature map的尺寸为：N = (W − F + 2P ) / S + 1 = [ 224 – 11 + (1 + 2)] / 4 + 1 = 55

2、Maxpool1: kernel_size:3；pading:0；stride:2

卷积层Conv1之后接着进行了局部响应规范化操作（ Local Response Normalized），将规范化的结果送入大小为3 × 3 3\times3 3 ×3，步距为2的池化核进行最大池化下采样。
输出的feature map尺寸为：N = (W − F + 2P ) / S + 1 = (55 – 3) / 2 + 1 = 27

3、Conv2: kernels:128×2=256； kernel_size:5； padding: [2, 2]； stride:1

卷积层2使用256个卷积核做常规的卷积操作
输出的feature map尺寸为：N = (W − F + 2P ) / S + 1 = (27 – 5 + 4) / 1 + 1 = 27

4、Maxpool2: kernel_size:3； pading:0； stride:2

与下采样层Conv2类似，在上述卷积层之后接着进行了局部响应规范化操作，然后将结果送入大小为3 × 3 3\times3 3 ×3，步距为2的池化核进行最大池化下采样。
输出的feature map尺寸为：N = (W − F + 2P ) / S + 1 = (27 – 3) / 2 + 1 = 13

5、Conv3: kernels:192×2=384； kernel_size:3； padding: [1, 1]； stride:1

与Conv1和Conv2不同，Conv3、Conv4、Conv5后均不接局部响应归一化LRN层
输出的feature map尺寸为：N = (W − F + 2P ) / S + 1 = (13 – 3 + 2) / 1 + 1 = 13

6、Conv4: kernels:192×2=384； kernel_size:3； padding: [1, 1]； stride:1

输出的feature map尺寸为：N = (W − F + 2P ) / S + 1 = (13 – 3 + 2) / 1 + 1 = 13

7、Conv5: kernels:128×2=256； kernel_size:3； padding: [1, 1]； stride:1

输出的feature map尺寸为：N = (W − F + 2P ) / S + 1 = (13 – 3 + 2) / 1 + 1 = 13

8、Maxpool3: kernel_size:3 padding: 0 stride:2

输出的feature map尺寸为：N = (W − F + 2P ) / S + 1 = (13 – 3) / 2 + 1 = 6

9、全连接层FC1、FC2、FC3

FC1和FC2分别有4096个神经元，FC3输出softmax为1000个（ImageNet数据集分类类别）。

; 3 模型创新

1、使用ReLU作为激活函数代替了传统的Sigmoid和Tanh

ReLU为非饱和函数，论文中验证其效果在较深的网络超过了Sigmoid，成功解决了Sigmoid在网络较深时的梯度弥散问题。

2、在多个GPU上进行模型的训练，不但可以提高模型的训练速度，还能提升数据的使用规模

3、使用LRN对局部的特征进行归一化

结果作为ReLU激活函数的输入能有效降低错误率

4、使用随机丢弃技术（dropout）选择性地忽略训练中的单个神经元

在AlexNet的最后几个全连接层中使用了Dropout来避免模型的过拟合

5、重叠最大池化（overlapping max pooling）

即池化范围z与步长s存在关系z > s z>s z >s（如最大池化下采样中核大小为3 × 3 3\times3 3 ×3，步距为2），避免平均池化（average pooling）的平均效应

4 Pytorch模型搭建

注：由于LRN层对训练结果影响不大，故代码中去除了LRN层

import torch
import torch.nn as nn

class AlexNet(nn.Module):
    def __init__(self, num_classes=1000):
        super().__init__()
        self.features = nn.Sequential(
            nn.Conv2d(3, 96, kernel_size=11, stride=4, padding=2),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
            nn.Conv2d(96, 256, kernel_size=5, padding=2),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),
            nn.Conv2d(256, 384, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(384, 384, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(384, 256, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2)
        )

        self.classifier = nn.Sequential(
            nn.Dropout(p=0.2),
            nn.Linear(256 * 6 * 6, 2048),
            nn.ReLU(inplace=True),
            nn.Dropout(p=0.2),
            nn.Linear(2048, 2048),
            nn.ReLU(inplace=True),
            nn.Linear(2048, num_classes)
        )

    def forward(self, inputs):
        x = self.features(inputs)
        x = torch.flatten(x, start_dim=1)
        outputs = self.classifier(x)
        return outputs

Original: https://blog.csdn.net/weixin_44772440/article/details/122766653
Author: 红鲤鱼与绿驴
Title: AlexNet网络详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/690904/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【python-Unet】计算机视觉~舌象舌头图片分割~机器学习（三）

返回至系列文章导航博客 1 简介舌体分割是舌诊检测的基础，唯有做到准确分割舌体才能保证后续训练以及预测的准确性。此部分真正的任务是在用户上传的图像中准确寻找到属于舌头的像素点。舌…

人工智能 2023年7月27日
0078
全面解析若依框架（springboot-vue前后分离–后端部分）

若依框架 1、框架分解 * – 启动配置 – 使用技术 – 功能分解 2、功能详解 * 分页实现（使用PageHelper） – 分…

人工智能 2023年7月29日
00127
web安全最亲密的战友Burp Suite2–target模块体验

本文是我的免费专栏《网络攻防常用工具介绍》的第二篇文章每篇文章中均配有完整演示视频，欢迎观看！ 磨刀不&#…

人工智能 2023年6月2日
00115
阿尔法蛋机器人tf卡_如父母般陪着你长大，科大讯飞阿尔法蛋智能故事机Z1体验…

80、90后是现在中国的中坚力量，在为事业生活打拼的同时，也不可忽视对子女的教育和陪伴。忙碌的生活，总有无法按时回家甚至背井离乡打工的情况，孩子想听到父母的声音，老人带孩子只能照顾…

人工智能 2023年5月27日
00157
一文读懂xgboost,lightgbm分类评价指标与阈值threshold的选取

分类的评价指标主要有F-score(F-measure), recall, precision，ROC曲线，AUC曲线.其中涉及到混淆矩阵(confusion matrix), T…

人工智能 2023年6月16日
0079
iloc[ ]函数（Pandas库）

iloc[]函数，属于pandas库，全称为index location，即对数据进行位置索引，从而在数据表中提取出相应的数据。 df.iloc[a,b]，其中df是DataFr…

人工智能 2023年7月6日
0083
自动驾驶算法详解(1) : Apollo路径规划 Piecewise Jerk Path Optimizer的python实现

本文作为 Apollo Planning决策规划代码详细解析系列文章的补充，将使用Python代码以及anaconda环境，来实现Apollo 决策规划Planning 模块里的 …

人工智能 2023年6月15日
00133
【无标题】

1、按要求写出实现该功能的代码（1）已知有import numpy asnp a = np.arange(10)1.1使用冒号”：”操作符产生一个向量b，内…

人工智能 2023年7月17日
0051
(TOG19)DGCNN:DynamicGraphCNNforLearningonPointClouds

DGCNN[1]主要提出了EdgeConv操作，在点云上能够进行类似CNN在图像上所进行的操作，可以适用于分类与分割任务。 ; EdgeConv Graph Constructio…

人工智能 2023年7月24日
0083
复现开源论文代码总结

复现开源论文代码总结 1. 找到开源论文的代码 2. 阅读README.md说明文档 3. 代码下载与解压 4. 配置环境、下载数据集与预训练权重 5. 运行代码，排错参考随着…

人工智能 2023年7月27日
0054
【图像分类】实战——使用ResNet实现猫狗分类（pytorch）

目录摘要导入项目使用的库设置全局参数图像预处理读取数据设置模型设置训练和验证验证完整代码：摘要 ResNet（Residual Neural Network）由…

人工智能 2023年6月30日
0069
28. 找出字符串中第一个匹配项的下标 KMP C++

给你两个字符串 haystack 和 needle ，请你在 haystack 字符串中找出 needle 字符串的第一个匹配项的下标（下标从 0 开始）。如果 needle 不是…

人工智能 2023年6月28日
0073
机器学习之过拟合和欠拟合

文章目录前言什麽是过拟合和欠拟合? 过拟合和欠拟合产生的原因： * 欠拟合(underfitting)：过拟合(overfitting)：解决欠拟合(高偏差)的方法 * &…

人工智能 2023年7月31日
0087
opencv 仿射变换

文章目录一、仿射变换二、求解仿射变换三、opencv 函数支持 * 1.getAffineTransform()函数 2.getRotationMatrix2D()函数 3….

人工智能 2023年5月26日
0086
压缩感知学习总结及Matlab代码实现

目录前言一、压缩感知基本原理二、代码仿真 * 1. CVX工具箱求解L1范数 2. CVX学习视频 3. 仿真实现三、重点参考前言压缩感知（Compressive S…

人工智能 2023年7月18日
0066
TensorFlow的数据类型有哪些

问题：关于TensorFlow的数据类型有哪些？详细介绍在TensorFlow中，数据类型是指张量（Tensor）存储的元素类型。TensorFlow提供了多种数据类型，包括整…

人工智能 2023年12月30日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31