【论文笔记】（模型压缩）Do Deep Nets Really Need to be Deep？

2023年6月7日上午12:41 • Linux • 阅读 109

摘要

作者通过模型压缩（model compression）使浅层的网络学习与深层网络相同的函数，以达到深层网络的准确率（accuracy）。当与深浅模型的参数量相同时，浅层模型可以高保真地模仿具深层网络，这说明了深层网络学到的函数并不一定很深。

2 训练浅层网以模仿深层网络

2.1 Model Compression

模型压缩是训练一个小型模型来近似一个大型模型表达的函数，方法是将unlabeded的数据传递到精准的大型模型，收集该模型产生的分数，然后综合以上内容产生新的labels，使用这些综合labels的数据来训练小型模型。如果小型模型完美地模仿大型模型，它会做出与复杂模型完全相同的预测和错误，但这通常无法做到。

2.2 Mimic Learning via Regressing Logit with L2 Loss

数据集为TIMIT和CIFAR-10，首先使用这些原始数据训练深层网络，激活层使用softmax，softmax输出的值为probability，即 (p) 值（(p_k = e^{z_k}/\sum_j e^{z_j})），softmax的前一层为logits层（({\rm logit}(p)=\ln \left(\frac{p}{1-p}\right)) 可以将((0,1))的值映射到(\pm \infty)），logits的输出/softmax的输入记为 (z) 值；损失函数为交叉熵。

然后使用(z)值作为标签来训练浅层网络，而非使用(p)值，因为使用logit值进行训练可以捕获更多的不明显的信息，避免信息丢失，更好的学习深层模型的内部。

将 SNN-MIMIC 学习的目标函数表述为给定训练数据 ({(x^{(1)},z^{(1)}),…,(x^{(T)},z^{(T)})}) 的回归问题：

[\mathcal{L}(W,\beta)=\frac{1}{2T}\sum_{t}||g(x^{(t)};W,\beta)-z^{(t)}||_2^2 \tag{1} ]

(W) 是输入特征和隐藏层之间的权重矩阵，(\beta) 是从隐藏层到输出单元的权重，(g(x^{(t)};W,\beta)=\beta f(Wx^{(t)})) 是模型在第(t)个训练数据点上的预测，(f(\cdot)) 是激活。参数 (W) 和 (\beta) 通过标准常规的BP和SGD不断更新。

2.3 Speeding-up Mimic Learning by Introducing a Linear Layer

浅层网络必须在单层中具有更多的非线性隐藏单元才可以匹配深层网络的参数，但是这样的结构导致学习非常缓慢，因为(W)很大且含有很多高度相关的参数，这导致了尽管最终浅层网络能够学习到准确的函数，但是梯度下降收敛的十分缓慢（数周，即使使用GPU）。

在输入层和非线性隐藏层之间引入一个具有 (k) 个线性隐藏单元的线性层可以显着加快学习速度：将(W\in \mathbb{R}^{H \times D}) 分解为两个低秩矩阵的乘积 (U \in \mathbb{R}^{H \times k}) 和 (V \in \mathbb{R}^{k \times D})，其中 (k \ll D,H)。新的损失函数可为：

[\mathcal{L}(U,V,\beta)=\frac{1}{2T}\sum_{t}||\beta f(UVx^{(t)})-z^{(t)}||_2^2 \tag{2} ]

权重(U,V)可以通过线性层的反向传播来学习。这种对权重矩阵 (W) 的重参数化不仅提高了收敛速度，还将存储空间从 (O(HD)) 减少到 (O(k(H + D)))。

3 TIMIT Phoneme Recognition（实验1）

3.1 Deep Learning on TIMIT

作者选择三个模型进行训练，第一个是DNN，包含三个全连接前馈隐藏层，每层包括2000个带ReLU的线性单元；第二个是CNN，包含一个卷积层，三个隐藏层（同DNN的配置），后接一个max-pooling层；第三个为ECNN，是由9个 CNN 融合成的ensemble。

【论文笔记】（模型压缩）Do Deep Nets Really Need to be Deep？

表1. 深浅网络的对比：TIMIT 测试集上的音素错误率（Phone Error Rate，PER）。

如表 1，最上三个网络为分别具有 8000、50k 、400k 个隐藏单元的浅层神经网络，尽管这些浅层网络的参数量是DNN、CNN、ECNN的十倍，但它们的准确率却低于深层网络。

3.2 Learning to Mimic an Ensemble of Deep Convolutional TIMIT Models

可看出，在这六个模型中ECNN的效果最好，所以选择ECNN作为教师模型，如 2.2 节所述，ECNN中的每个CNN都含有logits，将它们的logits平均以用于浅层网络的训练。

学生模型为分别含有 8k (SNN-MIMIC-8k) 和 400k (SNN-MIMIC-400k)个ReLUs隐藏单元的浅层网络。如 2.3 节所述，两个模型在输入和非线性隐藏层之间都有 250 个线性单元以加快学习速度。

3.3 Compression Results for TIMIT

表1. 的后两行为浅层网络的准确度，它们通过模型压缩训练以模拟 ECNN。可以看到，具有一个隐藏层的神经网络 (SNN-MIMIC-8k) 可以被训练为与具有相似数量参数的 DNN 一样好。此外，如果将浅层网络中的隐藏单元数量从 8k 增加到 400k，具有一个隐藏层的神经网络 (SNN-MIMIC-400k) 可以被训练得与CNN相当的性能，即使 SNN-MIMIC-400k 网络没有卷积层或池化层。

4 Object Recognition: CIFAR-10（实验2）

4.1 Learning to Mimic a Deep Convolutional Neural Network

采用与 TIMIT 实验相同的方法：使用一组深度 CNN 模型来标记 CIFAR-10 图像以进行模型压缩。

非卷积网络无论其深度如何，都在 CIFAR-10 上表现不佳，所以在浅层模型中引入单层卷积和赤化作为特征提取器，同时保持模型尽可能的浅。因此，SNN-MIMIC 模型包括一个卷积和最大池化层，然后是完全连接的 1200 个线性单元和 30k 个非线性单元。同样地，线性单元只是为了加速学习。

Results

如表2，浅层网络达到了与有多个卷积和池化层的 CNN 相当的精度。尽管深度卷积网络比浅层网络具有更多的隐藏单元，但由于权重共享，前者比后者具有更少的参数。值得注意的是，随着教师模型性能的提高，浅层模型的准确性继续提高。

表2. 深浅网络的对比：CIFAR-10 上的分类错误率。 c代表卷积层； p代表池化层； lc代表局部连接层； fc代表全连接层。

5 Discussion

5.1 Why Mimic Models Can Be More Accurate than Training on Original Labels

以上两个实验可以看出，在从其他模型中提取的预测目标上训练的模型可能比在原始标签上训练的模型更准确。原因有：

如果某些标签有错误，教师模型可能会消除其中一些错误（即审查数据），从而使学生模型更容易学习
如果(p(y|x))中存在复杂区域，特征和样本密度难以学习，教师模型会过滤目标，数据集中的复杂性被冲走。教师网络为学生提供了更简单、更软的标签。
学习原始的硬标签（0/1）可能比学习从教师模型输出的条件概率更困难，教师模型的不确定性比原始 0/1 标签更能指导学生模型。通过对 logits 的训练，这种好处似乎得到了进一步的增强。

通过实验，作者认为上述机制可以看作是有助于防止学生模型过度拟合的正则化形式。在原始目标上训练的浅层模型比深层模型更容易过度拟合，如果对浅层模型添加正则化，它与深层模型之间的一些性能差距可能会消失。模型压缩似乎是一种正则化形式，可有效减少这种差距（猜想+实验得到的结论）。

5.2 The Capacity and Representational Power of Shallow Models

实验表明，随着教师模型准确性的提高，学生模型的准确性继续提高。在对相同目标进行训练时，SNN-MIMIC-8k 的性能总是比参数多 10 倍的 SNN-MIMIC-160K 差。

虽然由于大小的不同，两个模型之间存在一致的性能差距，但较小的浅层模型最终能够通过向更好的老师学习，达到与较大的浅层网络相当的性能，并且两个模型的准确率继续随着教师准确性的提高而提高。

这表明，如果有更准确的教师模型和/或更多未标记的数据，具有与深度模型相同参数的浅层模型可能能够学习更准确的函数。

Original: https://www.cnblogs.com/setdong/p/16390335.html
Author: 李斯赛特
Title: 【论文笔记】（模型压缩）Do Deep Nets Really Need to be Deep？

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/578622/

转载文章受原作者版权保护。转载请注明原作者出处！

Linux

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

一键部署服务（shell）

博客园：当前访问的博文已被密码保护请输入阅读密码: Original: https://www.cnblogs.com/Willoneday/p/16534113.htmlAu…

Linux 2023年6月7日
0095
Linux at命令详解

大家好，我是良许。生活中，我们有太多场景需要使用到闹钟，比如早上 7 点起床，下午 4 点开会，晚上 8 点购物，等等。在 Linux 系统里，我们同样也有类似的需求。比如我们…

Linux 2023年6月14日
0081
linux常用命令

linux常用目录 /bin :bin是Binary的缩写，这个目录存放着最经常使用的命令。 /ect :这个目录用来存放所有的系统所需要的配置文件和子目录。 /home:用户的主…

Linux 2023年6月13日
00108
使用docker 部署mysql，突然连接不上！

WARNING: IPv4 forwarding is disabled. Networking will not work. 大概意思就是说，网络不能用，也就意味着不能连网络，所…

Linux 2023年6月7日
0082
RabbitMQ知识简单理解

官网链接：http://next.rabbitmq.com/getstarted.html 官网给出了每种工作模式的实例代码，可以参考其中的实现一、RabbitMQ整体架构图二…

Linux 2023年6月14日
00118
[转帖]shell中if语句的使用

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

Linux 2023年5月28日
00111
Swagger2 Failed to start bean ‘documentationPluginsBootstrapper’; nested exception is java.lang.NullPointerException报错

报错信息： Failed to start bean ‘documentationPluginsBootstrapper’; nested exception is java.la…

Linux 2023年6月14日
0079
023.Ubuntu常见个性化配置

root登录设置 ubuntu默认关闭了root账户，可根据实际情况开启或关闭root登录。 ubuntu@localhost:~$ sudo apt install openss…

Linux 2023年6月13日
00148
ADB和Fastboot最新版的谷歌官方下载链接

最新ADB及Fastboot版本说明(SDK Platform Tools 版本说明) ADB和Fastboot for Windows ADB和Fastboot for Mac …

Linux 2023年6月7日
00105
Linux—磁盘管理

Linux 磁盘管理磁盘是一种计算机的外部存储器设备，由一个或多个覆盖有磁性材料的铝制或玻璃制的碟片组成，用来存储用户的信息，这种信息可以反复地被读取和改写；绝大多数磁盘被永久封…

Linux 2023年6月7日
00114
渗透测试常用方法总结

转载自 https://blog.csdn.net/qq_42636435/article/details/92839738 Original: https://www.cnblo…

Linux 2023年6月7日
0083
模拟重装Kubernetes(k8s)集群：删除k8s集群然后重装

服务器版本 docker软件版本 CPU架构 CentOS Linux release 7.4.1708 (Core) Docker version 20.10.12 x86_64…

Linux 2023年6月7日
0090
nginx.service的作业失败，因为控制进程已退出，错误代码为。有关详细信息，请参阅“systemctl状态nginx.service”和“journalctl-xeu nginx.service”。

解决办法: 1.nginx -t 应测试所有文件并返回错误和警告位置 nginx: [emerg] unexpected end of file, expecting &#8220…

Linux 2023年6月13日
0093
正则表达

常用表达式单字符：. : 除换行以外所有字符[] ：[aoe] [a-w] 匹配集合中任意一个字符\d ：数字 [0-9]\D : 非数字\w ：数字、字母、下划线、中文\W :…

Linux 2023年6月13日
0095
模拟一个简单的tomcat

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

Linux 2023年6月11日
00126
Docker学习笔记

镜像下载、域名解析、时间同步请点击阿里云开源镜像站 Docker概述 Docker学习链接官网链接：Home – Docker Docker与虚拟机比较虚拟化技术 …

Linux 2023年5月27日
00108

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31