ICLR2019:(Slimmable)SLIMMABLE NEURAL NETWORKS

2023年10月28日上午8:38 • Python • 阅读 34

Institute：University of Illinois at Urbana-Champaign
Author：Jiahui Yu, Linjie Yang, Ning Xu, Jianchao Yang, Thomas Huang
GitHub：https://github.com/JiahuiYu/slimmable_networks

Introduction

ICLR2019:(Slimmable)SLIMMABLE NEURAL NETWORKS

(1)Different devices have drastically different runtimes for the same neural network.(相同网络在不同设备的运行时间不同)

(2)The availability of hardware resources on the same device even changes greatly over different times.(相同设备在不同时间的可用资源不同)

(3)In contrast to width (number of channels), reducing depth cannot reduce memory footprint in inference.(减少深度不能在推理阶段减少内存消耗，网络的计算图取决于宽度配置)

研究问题：给定资源预算，如何及时，自适应且有效地在网络运行时延和精度中达到平衡？对此提出了Slimmable neural network,优点有：

(1) For different conditions, a single model is trained, benchmarked and deployed.（不同条件只需训练一个网路）

(2) A near-optimal trade-off can be achieved by running the model on a target device and adjusting active channels accordingly.（通过调整激活通道来达到权衡）

(3) The solution is generally applicable to (normal, group, depthwise-separable, dilated) convolutions, fully-connected layers, pooling layers and many other building blocks of neural networks. It is also generally applicable to different tasks including classification, detection, identification, image restoration and more.（适用于多种结构，多种任务）

(4) In practice, it is straightforward to deploy on mobiles with existing runtime libraries.（部署简单）

RELATED WORK

Model Pruning and Distilling.通过大模型的Soft-targets和中间层表示来训练小模型

Adaptive Computation Graph.适应性地构建神经网络计算图

Conditional Normalization.

Method

1.TRAINING

朴素训练共享Batch Normalization层，通过不同switch子网训练损失的不加权总和来计算模型的总损失。（积累所有switch子网的反向传播梯度，然后更新权重）但是朴素训练方式仅有0.1%的准确率。原因推断是：对单个通道，switch导致上一层不同数量的输入通道带来不同的均值和方差，影响共享BN层的处理。（特征聚合）

对比INCREMENTAL TRAINING：

性能下滑原因：AB间新增的连接影响了A和B权重的联合适应

2.SWITCHABLE BATCH NORMALIZATION（S-BN）

BN：

y是输入， y′输出, γ, β 分别是尺度因子和偏置, μ, σ2 是当前batch的平均值和方差。为了解决不同均值和方差的问题，本文使用的是S-BN，每个子网的BN私有化。BN和S-BN区别：

1.BN在测试阶段使用的是所有训练图片的平均和方差的移动平均统计信息。

2.S-BN在测试阶段独立的标准化特征平均值和方差。

S-BN优点主要在于参数量少，部署时运行时长少。

Naive training 和training withS-BN训练都比较稳定，但是Naive验证误差不稳定，而S-BN都是稳定下降的曲线。

Experiments

ImageNet classification：

性能相较于单独训练的网络有所提升，由于S-BN参数量增加了一点。（ Flops不变的意思？）

More Switches ：

相较于独立训练的，多switch的能有更好表现。 （但不是越多越好）

OBJECT DETECTION, INSTANCE SEGMENTATION AND KEYPOINTS DETECTION：

Slimmable优于单独训练。作者认为原因在于隐式蒸馏 （？）和更丰富的监督信号

Visualization and discussion

总体上说同一通道在网络中扮演着相似的角色。随着width增加，逐渐从识别白色[255,255,255]变成识别黄色[255,255,0]。

浅层中，平均值，方差，偏置和缩放因子相近。深层中统计信息差异增加。说明不同开关中相同通道学习的信息也会有轻微的变化。

评价：本文是Slimmable三部曲第一部，一次训练的模型通过可切换的channel数量就能解决不同运行环境的需求，非常有开创性的工作。

Original: https://www.cnblogs.com/huang-hz/p/16633442.html
Author: hhzcarl
Title: ICLR2019:(Slimmable)SLIMMABLE NEURAL NETWORKS

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/806766/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

JS_简单的效果-鼠标移动、点击、定位元素、修改颜色等

1 DOCTYPE html> 2 <html lang="en"> 3 <head> 4 <meta charset=&q…

Python 2023年6月10日
00179
git hook 共享

https://stackoverflow.com/questions/427207/can-git-hook-scripts-be-managed-along-with-the-…

Python 2023年6月12日
0076
数据规整操作（索引分层、merge合并）

文章目录数据规整一、分层索引 * 1.数组重新排列 2.设置层级名称 3.重排序和层级排序 4.按层级进行汇总统计 5.对dataframe重设索引二、联合与合并数据集 * …

Python 2023年8月22日
0034
apache2.4 + windows 多站点部署 Django

apache2.4 + windows 部署 Django apache2.4 多站点部署虚拟站点, 多站点部署 django 文件名称文件路径文件备注httpd.confC:…

Python 2023年8月5日
0042
python：如何对付无理取闹不给数据的浏览器，让它乖乖把数据交出来~

Original: https://www.cnblogs.com/jnjnj/p/16243150.htmlAuthor: python茜Title: python：如何对付无理…

Python 2023年5月24日
0063
Part 4:Pandas新增数据列【直接赋值、apply、assign、分条件赋值】

Pandas怎样新增数据列? ¶ 在进行数据分析时，经常需要按照一定条件创建新的数据列，然后进行进一步分析 1.直接赋值2. df.apply方法3. df.assign方法4．按…

Python 2023年8月7日
0063
Python Excel教程之如何将多个 excel 文件合并为一个文件（教程含源码）

通常，我们正在使用 Excel 文件，并且我们肯定遇到过需要将多个 Excel 文件合并为一个的场景。传统方法一直是在 excel 中使用 VBA 代码来完成这项工作，但这是一个多…

Python 2023年8月7日
0050
Pandas-数据操作-数值型（二）：累计统计函数【cumsum、cumprod、cummax、cummin】【计算前1/2/3/…/n个数的和、积、最大值、最小值】

一、累计统计函数函数作用 cumsum 计算前1/2/3/…/n个数的和 cummax 计算前1/2/3/…/n个数的最大值 cummin 计算前1/2/…

Python 2023年8月19日
0053
图像中的注意力机制详解(SEBlock | ECABlock | CBAM)

图像中的注意力机制详解 * – 一、前言 – 二、SENet——通道注意力机制 – + 1. 论文介绍 + * SEBlock结构图： * 摘…

Python 2023年9月17日
0060
MYSQL-INNODB索引构成详解

作者：郑啟龙摘要：对于MYSQL的INNODB存储引擎的索引，大家是不陌生的，都能想到是 B+树结构，可以加速SQL查询。但对于B+树索引，它到底”长”…

Python 2023年10月13日
0033
入门力扣自学笔记219 C++ （题目编号：2011）

题目：存在一种仅支持 4 种操作和 1 个变量 X 的编程语言： ++X 和 X++ 使变量 X 的值加 1–X 和 X– 使变量 X 的值减 1最初…

Python 2023年10月8日
0046
pygame.time.Clock 详解

看到所有关于pygame.time.Clock() 的文章重点只放在了帧速，刚好我需要读的这份代码需要用其他函数，只能自己开始干官方文档了 tick() 其他文章说的最多的一个函数…

Python 2023年9月18日
0023
python实现三阶魔方还原

复原魔方困难问题的分解： 1、用合适的数据结构表示出三阶魔方的六个面以及每一面的颜色 2、每一次不同旋转操作的实现 3、复原时如何判断当前魔方应该使用哪一种公式本次实…

Python 2023年8月29日
0053
scrapy爬虫命令

1.创建项目：scrapy startproject test_scrapy 找目录：cd .\test_scrapy\ 3.创建一个模板： scrapy genspider py…

Python 2023年10月1日
0035
[Python] pop()函数

pop()函数用于移除列表中的一个元素(默认最后一个元素)，并且返回该元素的值 list.pop([index=-1]) 要移除列表元素的索引值，不能超过列表总长度，默认为inde…

Python 2023年8月1日
0081
Dreamweaver网页作业——紫罗兰永恒花园动漫价绍网页 7页，含有table表格，js表单验证还有首页视频。以及列表页。浮动布局。div+css+js

HTML实例网页代码, 本实例适合于初学HTML的同学。该实例里面有设置了css的样式设置，有div的样式格局，这个实例比较全面，有助于同学的学习,本文将介绍如何通过从头开始设计个…

Python 2023年9月16日
0056

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31