EfficientNet系列(1): EfficientNetV2网络详解

EfficicentNet网络简介

EfficientNet:Rethinking Model Scaling for Convolutional Neural Networks,这篇论文是Google在2019年发表的文章。

EfficientNet这篇论文,作者同时关于 输入分辨率,网络深度,宽度对准确率的影响,在之前的文章中是 单独增加图像分辨率或增加网络深度或单独增加网络的宽度,来试着提升网络的准确率。在EfficientNet这篇论文中,作者使用了 网络搜索技术NAS去同时探索输入分辨率,网络深度、宽度的影响。

EfficientNet的效果究竟如何呢?

EfficientNet系列(1): EfficientNetV2网络详解
这幅图是原论文作者给出的关于Efficient以及当时主流的一系列分类网络的 Top-1的准确率,我们发现 EfficientNet不仅在参数数量上比很多主流模型要小以外,准确率明显也要更好
  • 论文中提到,本文提出的 EfficientNet-B7在ImageNet top-1达到了当年最高的准确率 84.3%,与之前准确率最高的GPipe相比,参数数量仅为其1/8.4,推理速度提升了 6.1

; 网络对比(宽度、深度、分辨率)

EfficientNet系列(1): EfficientNetV2网络详解
  • 图b,在图a的基础上单独增加了网络的 宽度(宽度代表的是 特征层的channel)
  • 图c,在图a的基础上单独增加了网络的 深度,明显可以看到相对于图a,它的 layers明显更多了,网络会变得更加深
  • 图d,在图a基准网络的基础上对图像的 分辨率进行了增加,提升图像的分辨率我们得到的每个特征矩阵 高和宽会相应的增加
  • 图e, 对网络同时增加网络的宽度、深度以及输入图像的分辨率
    EfficientNet系列(1): EfficientNetV2网络详解
  • 根据以往的经验,增加网络的深度depth能够得到更加丰富、复杂的特征并且能够很好的应用到其他任务中。 但网络的深度过深会面临梯度消失,训练困难的问题
  • 增加网络的 width能够获得更细粒度的特征并且也更容易训练,但对于 width很大而且深度较浅的网络往往很难学习到更深层次的特征。
  • 增加输入网络的 图像分辨率能够潜在得获得 更高细粒度的特征模板,但对于非常高的输入分辨率,准确度的增益也会减少。并且大分辨率图像会增加计算量。

从上图可以看出, scale by width, scale by depth, scale by resolution,发现这三条虚线基本上在准确率达到 80%以后基本上就饱和了不在增加了。对于红色的线,我们同时增加网络的 宽度、深度、分辨率,我们发现它达到了 80%的准确率后并没有出现饱和的现象,并且还可以继续增长上去。这就说明了我们同时增加网络的 深度、宽度、分辨率的话,我们是可以得到一个更好的结果的.

EfficientNet系列(1): EfficientNetV2网络详解
并且当理论的计算量相同时,我们同时增加网络的深度、宽度、分辨率的话,网络的效果会更好。

EfficientNet-B0 Network

EfficientNet-B0网络,也是作者通过 网络搜索技术得到的,它的详细网络参数如下表

EfficientNet系列(1): EfficientNetV2网络详解

EfficientNet-B0 网络结构

  • 我们发现在 Efficientstage一共有 1~9个stage。 stage 1是一个 3x3的卷积层。对于 stage2~stage8我们能够发现,它是在重复堆叠 MBConv,这里的 MBConv就是 MobienetConv ,后续会讲到。Stage 9 是由3部分构成:Conv 1×1 和Pooling 和FC`层。
  • 这里的分辨率(Resolution),对应的是输入每个 Stage的高度和宽度
  • Channels,对应我们每个 Stage输出特征矩阵的 channel个数,
  • Layers: 将我们对应的 Operator重复多少次,比如 stage3对应的 Layers2,就会对 MBConv6重复两次
  • 这里的 stride对应的 Layers对应的第一层的 stride,其他的步距都等于1的。

; EfficientNet-B0 Network

MBConv 模块

EfficientNet系列(1): EfficientNetV2网络详解
论文中其实也说了,MBConv其实和MobileNet v3使用的Block是一样的。我们来简单看下在 Efficient中我们使用的MBConv它的结构。
  • 首先对我们的主分支而言,是一个 1x1的卷积一般是用来升维的,然后通过BN以及 Swish激活函数
  • 紧接着通过一个 DW卷积,它的卷积核是 k x k,k可能是 3也可能是 5,这里的步距可能是 1也可能是 2.

  • 紧接着将 DW卷积的输出通过 BNSwish激活函数之后,在通过一个 SE模块。

  • 紧接着在通过一个 1x1的卷积,这里的 1x1卷积启动一个降维的作用,注意这里只有一个 BN,没有 swish激活函数。
  • 紧接着在通过一个 dropout操作
  • 然后将我们输入特征矩阵,从我们 捷径分支引过来,直接与我们主分支得到的 输出特征矩阵进行 相加得到我们对应的 输出

这里需要注意几个点:

  • 第一个升维的卷积层,它的卷积核个数是输入特征矩阵 channel的n倍,这里的n对应的是多少呢,就是我们 Operator对应的MBCov对应的数字,就是我们的倍率因子n
    EfficientNet系列(1): EfficientNetV2网络详解
  • 对于MBConv最后一个降维的卷积层,它的卷积核个数等于多少呢,它就是对应我们上图表格中对应的 Channels来进行设置的。这里 Channels等于多少,我们这里 1x1卷积核个数就等于多少。
  • 第2个注意点就是当MBConv1时,即此时n=1的时候,我们是不需要 1x1的卷积层的,因为我们知道第一个 1x1卷积主要起到升维作用,那么当n=1的时候相当于并没有升维。对应的就是表格中的 Stage2中对应的 operatorMBConv1,它这里的MBConv是没有 1x1的卷积层的
  • 关于 shortcut连接,仅当输入 MBConv结构特征矩阵与输出的特征矩阵shape相同的时才存在

SE模块

EfficientNet系列(1): EfficientNetV2网络详解
  • 首先对输入特征矩阵的 feature map的每一个 channel进行平均池化操作
    ,然后在分别通过两个全连接层。
  • 注意的是第一个全连接层的激活函数是 Swish激活函数,第二个全连接层的激活函数使 sigmoid激活函数。
    -第一个全连接层的节点个数是输入该 MBConv特征矩阵 channels的1/4,第二个全连接层的节点个数等于 feature_mapchannels个数,这里的 feature_mapMBConvDW输出的特征矩阵。
    EfficientNet系列(1): EfficientNetV2网络详解

EfficientNet-B0~ EfficientNet-B7网络参数

EfficientNet系列(1): EfficientNetV2网络详解
  • EfficientNet-B0~ EfficientNet-B7网络的结构都是一样的,就是网络的 input_size, width_coefficient, depth_coefficient等参数设置存在差异。
  • width_coefficient代表channel维度上的倍率因子,比如在 EfficientNetB0中的Stage1的3×3卷积层所使用的卷积核个数是32,那么在B6中就是 32 x 1.8=57.6接着取整到离它最近的8倍整数即56,其他stage同理。
  • depth_coefficient代表 depth维度上的倍率因子(仅针对 Stage2Stage8),比如在 EfficientNetB0中Stage7的 L=4,那么在 B6中就是 4 x 2.6 =10.4,接着向上取整即11
  • drop_connect_rate它对应的就是MBConv当中的dropout层的随机失活比例,注意并不是所有MBConv层的dropout都等于0.2.在源码实现中,将所有的MBConv结构中dropout层的随机失活比率从0一直慢慢增长到所给定的 drop_connect_rate,
  • 最后一个 dropout_rate对应的是 EfficientNet最后全连接层之前对应的dropout失活比率

; 性能对比

EfficientNet系列(1): EfficientNetV2网络详解
  • EfficientNet-B0对比的是我们ResNet-50以及我们DenseNet-169,我们可以看到它的准确率是最高的,参数量是最少的,它的理论上的计算量是最低的。同样B1~B7都对一系列网络进行了对比
  • 不过在实际使用过程中, 首先它的准确率确实是挺高的,然后它的参数个数确实也很少,这是毋庸置疑的。但是有个问题网络训练时 非常占GPU的显存,因为在我们EfficientNet中像 B4,B5,B6,B7这些模型,它的输入图片的分辨率非常大导致我们每一个层结构输出特征矩阵的高和宽都要相应的增加。所以对于我们显存的占用也会增加。
  • 而且对于速度直接对比 Flops是不完全对的, 真实情况下我们所关注的速度其实是在设备上的推理的速度;真实的推理速度和Flops其实不是直接相关的,它还有很多其他因素的影响, 所以如果你能给出在某些设备上它的推理时间的话会更加有意义

Original: https://blog.csdn.net/weixin_38346042/article/details/125813186
Author: @BangBang
Title: EfficientNet系列(1): EfficientNetV2网络详解

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/650893/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球