知识蒸馏算法原理

2023年5月26日上午4:59 • 人工智能 • 阅读 72

知识蒸馏算法原理

” 蒸馏“的概念大概就是将本身不够纯净的水通过加热变成水蒸气，冷凝之后就成更纯净的水

知识蒸馏同样使用这种原理，将不太纯净的”知识”通过”蒸馏”的方式获得更加有用或者纯净的”知识”

体现在神经网络中如下图所示：

一个大而臃肿，但知识丰富且高效的” 教师网络“，通过转换精准将特定领域的知识传授给” 学生网络“，让”学生网络”在某个方面做得很好，并且不那么臃肿，类似” 模型压缩”

为什么不直接使用教师网络？因为将算法应用在现实生活中很多设备的算力会被限制，因此需要尽可能减少算力使用，因此使用大模型训练小模型，将小模型部署在 边缘计算设备

近些年来，预训练大模型的使用越来越广泛，并且参数规模每年增加10倍。大模型预训练都是由大公司耗费大量算力得来，在部署时大多会采用云服务器的方式进行，但是随之而来的问题就是 网络延迟和必须要有网络。

因此可以看到轻量化网络是以后的一个主流，压缩网络还可以使用一下方法：

作者介绍

知识蒸馏概念有人工智能教父Hinton，他为人工智能发展做出了巨大贡献，提出反向传播、玻尔兹曼机、dropout、AlexNet、动量优化器、知识蒸馏等，2019年获得图灵奖，与LeCun、Bengio并称深度学习三巨头

google工作了20年的老员工，其中谷歌大部分基础框架是这他完成的，一名传奇的程序员

知识的表示与迁移

将一匹马的图片进行识别，他可能会识别为驴或者是汽车，通过hard targets的标签进行训练，之后将图片出入模型进行识别，可以得到一个soft targets，从soft targets中可以看出马的概率是比较大的，识别为驴的概率和识别为汽车的概率都是比较小的，同样可以看出马和驴的相关性是比较小的，马和汽车的相关性也是比较小的，同样的驴和汽车的相似度也是很小。因此 soft targets可以传递出更多的信息，可以使用soft targets去训练 学生网络

类似于上面的例子，如果使用手写数据集进行预测，可以看到soft targets给出了输入测试的数字和0-9的数字相似度，它不仅给出了这个数字更像7和9，也给了它有多不像0，同样证明 soft targets具有更多信息和知识

总结：Soft Lable 包含了更多”知识”和”信息”像谁，不想睡，有多像，有多不像，特别是非正确类别概率的相对大小（驴和车）

因此我们接下来要做的就是， 让教师网络通过Hard Target训练输出的Soft Target，作为学生网络的输入训练学生网络。

蒸馏温度T

Soft Target的输出还不足够”Soft”，因此在对其进行处理，新增一个蒸馏温度T，T使用在softmax函数中，修正输出标签的soft度，如下图，当T为1是，整个式子就是原始的softmax函数，当T等于3时，可以看到softmax的曲线改变了很多， 相关分类的相似度降低了，其他 不相关分类的相似度有所增加。左下角的图可以看到，当T变大，每个分类所获得的相似度就越平均（越soft），太大的话每个分类的相似度就会相同，越小会发现每个类别的差异会很大。softmax是做归一化，凸显每个分类之间的差别

添加蒸馏温度T的学生网络和教师网络softmax计算对比

知识蒸馏过程

首先教师网络和学生网络都要经过添加了蒸馏温度T的softmax，二者进行一个loss求值，这个loss被称为 disiliation loss，这个过程是学生网络在模拟老师网络的预测结果。

学生网络还会使用不添加蒸馏温度T的softmax进行一次计算，然后将结果和hard label进行一次loss计算，这里的loss称为 student loss，这部分是学生网络在模拟真正的结果

最后的loss函数就是disiliation loss和student loss的加权求和

注：三种loss的计算方式及距离在蒸馏温度T章节的图2有例子

实验结果

图像分类的效果：

知识蒸馏具有覆盖的效果，例如当训练学生网络的时候没有使用狗这个类别，但是教师网络训练时具有这个分类，在完成知识传递后发现学生网络同样可以识别狗这个类别，因为在蒸馏过程中教师网络将自己学习到的特征知识都传递给了学生网络，学生网络也从中学习到了新知识。（类似于老师给学生讲课，虽然学生没有见过真正的飞机，但是老师见过，给学生描述了很多关于飞机的细节，当学生见到飞机时也可以分辨出飞机）（零样本学习）

语音识别：

发现学生网络和教师网络的效果十分相似，学生网络更轻量

使用使用更少的数据集去训练网络，有效的 防止过拟合。如果常规网络中使用100%训练出一个模型，如果使用其中3%重新训练模型，会发现训练过程中精度高，测试精度低，出现 过拟合，但是如果将3%的数据放在学生网络中就不会出现过拟合情况

应用场景

知识蒸馏背后的机理

绿色是教师网络求解空间，蓝色是学生网络求解空间。红色为教师网络的答案空间，浅绿色为学生网络的答案空间，橙色是在知识蒸馏的情况下得到的答案空间也是最优解。

如果不加引导学生网络会在自己的求解空间中试探着寻找，最后找到浅绿色的答案，在增加了教师网络之后，学生网络查找求解空间时，老师网络会给予指导，让学生网络得到的答案更准确，或者让其往教师网络的答案空间靠。所以 知识蒸馏会得到更轻便且效果好的模型

bert给出的解释（这里没有翻译，需要就自己翻译吧）

自己漫无目的翻书，不如师傅手把手教

Soft targets VS lable smoothing

二者对比，相比之下Soft targets保留的信息更多，从直方图上可以看到，lable smoothing突出了正确分类，其他错误类别都拉成相同的，没有Soft targets这样每个类对比明确，这样在学习过程中就不能明确每一种类的类别。

知识蒸馏发展趋势

知识蒸馏是一个人工智能的通用方法，可以应用在各个领域

1）教学相长

常规的知识老师网络单方面的输出，如果添加教师网络接受学生的矫正，也是可以的

2）助教、多个老师、多个同学

新增老师网络或者使用多个学生网络，助教也是一个比较重要的角色，可以增加助教网络

3）知识的表示（中间层）、数据集蒸馏、对比学习

知识蒸馏只是做了最后一层的softmax，可以增加中间层的蒸馏，或者老师将更多知识给学生，不仅仅是最后一层。下图三个角度， Response-Based、Feature-Based、Relation-Based都可以作为研究角度，知识蒸馏只是最后输出的Response-Based

Response-Based

Feature-Based

Relation-Based

指定层数学习：

学生的第一层学习老师的第二层，学生第二层学习老师的第五层（实现中间层蒸馏，脑回路的传授）

对比学习也是一个大的方向

4）多模态、知识图谱、预训练大模型的知识蒸馏

多模态数据（语音、图像、文字结合）

知识蒸馏代码库

OpenMMLab模型压缩工具箱

Original: https://blog.csdn.net/charles_zhang_/article/details/123627334
Author: 麻花地
Title: 知识蒸馏算法原理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/518211/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数据挖掘-KNN算法+sklearn代码实现(六)

🤵‍♂️ 个人主页：@Lingxw_w的个人主页✍🏻作者简介：计算机科学与技术研究生在读🐋 希望大家多多支持，我们一起进步！😄如果文章对你有帮助的话，欢迎评论 💬点赞👍🏻 收藏 📂…

人工智能 2023年7月3日
0066
15分钟带你入门Pandas

Pandas的Series 类似表格中的一个列（column），类似于一维数组，可以保存任何数据类型。 Series 由索引（index）和列组成，函数如下： pandas.Ser…

人工智能 2023年7月8日
0096
Centos7宝塔部署python

前言：宝塔本身有python项目管理器，但是有些依赖安装会存在问题，比如paddlehub安装总是失败，本文在宝塔安装了anaconda基础上配合python项目管理器去部署项目，…

人工智能 2023年6月26日
0066
让声音回归本质，畅听天籁之声，KZ ZEX Pro动铁发烧耳机上手实测

虽然先锋在耳机上并不专业，但在过去的两年里，它也玩过很多不同类型的耳机。 [En] Although Pioneer is not professional in headphon…

人工智能 2023年5月25日
0098
语音识别不太容易，需要找到一个更容易上的台阶

也比如”唱歌”。科大讯飞1024开发者大会上一位”虚拟人”就上台展示了如同真人般的语音交谈她甚至还能唱歌——让我们再次回到世纪之交2…

人工智能 2023年5月25日
0041
目标检测——RCNN与YOLO系列

文章目录目标检测简介 * 0. 图先来两张 1. 核心问题 2. 算法分类 3. 应用 4. 原理 5. 预备知识 – 5.1. 候选区域的产生 + 5.1.1. 滑…

人工智能 2023年6月17日
00116
Low-Light Image Enhancement via Edge-Enhanced Multi-Exposure Fusion Network阅读札记

Low-Light Image Enhancement via Edge-Enhanced Multi-Exposure Fusion Network阅读札记论文发表于2020年…

人工智能 2023年7月14日
0050
特征选择 | MATLAB实现RF(随机森林)特征选择

[ 随机森林特征选择_在 _MATLAB_中的 _实现_需要通过以下几个步骤： 1. 准备数据集：将数据集分为训练集和测试集，并进行特征工程（包括数据清理、 _特征选择_等）； …

人工智能 2023年6月16日
0088
面向自然语言处理的对抗攻防与鲁棒性分析综述 Survey of Adversarial Attack, Defense and Robustness Analysis for Natural Lang

6.面向自然语言处理的对抗攻防与鲁棒性分析综述Survey of Adversarial Attack, Defense and Robustness Analysis for N…

人工智能 2023年5月28日
0071
nnU-Net

原文连接：https://arxiv.org/abs/1904.08128 原文开源代码：https://github.com/MIC-DKFZ/nnUNet Q1：2D U-Ne…

人工智能 2023年7月13日
0075
目标检测数据集之离线数据增强

目录 1.数据增强概述 2.目标检测离线数据增强步骤（一定要先看，便于理解过程） 3.数据增强代码 4.代码运行 5.完整代码 6.结果展示 1.数据增强概述海量数据是目标检测的…

人工智能 2023年6月17日
0067
[附源码]计算机毕业设计JAVAssm酒店综合管理平台

[附源码]计算机毕业设计JAVAssm酒店综合管理平台项目运行环境配置： Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX （Webstorm也行）…

人工智能 2023年6月29日
0070
40. Pandas怎样实现groupby聚合后字符串列的合并

Pandas怎样实现groupby聚合后字符串列的合并需求：计算每个月的最高温度、最低温度、出现的风向列表、出现的空气质量列表数据输入 ; 数据输出读取数据 import …

人工智能 2023年7月7日
0060
相机模型与去畸变方法详解

相机与图像模型 * – + 一、针孔相机模型 + * 1.1 成像原理 * 1.2 实际坐标与像素坐标的关系 * 1.3 如何获得实际坐标 + 二、畸变相机模型 + *…

人工智能 2023年6月20日
0066
机器学习——四大线性回归模型详解（包含理论讲解+公式推导，非常适合初学者！）

文章目录 1 线性回归模型 * 1.1 一元线性回归(Simple linear regression) 1.2 多元线性回归(Multivariate linear regres…

人工智能 2023年6月17日
00105
阿里图库字体使用方法—新手适合看

Unicode方法阿里图库注册一个账号。把需要的图标加入购物车。点击购物车后–>添加到项目解压之后的文件要放到和html文件同一个目录下（我因为之前没有在一个…

人工智能 2023年6月29日
00125

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

知识蒸馏算法原理

作者介绍

知识的表示与迁移

蒸馏温度T

知识蒸馏过程

实验结果

应用场景

知识蒸馏背后的机理

Soft targets VS lable smoothing

知识蒸馏发展趋势

知识蒸馏代码库

大家都在看