知识蒸馏示例代码实现及下载

2023年7月13日下午10:44 • 人工智能 • 阅读 58

论文《Distilling the Knowledge in a Neural Network》

* 源码以Github为准

1. 数据集

本文使用 fashion_mnist数据集，输入图像大小为28*28，共分为10类。

通过tensoflow加载数据，并对label进行 one hot编码。

import tensorflow as tf
from tensorflow import keras
import numpy as np

fashion_mnist = tf.keras.datasets.fashion_mnist
(train_images, train_labels), (test_images, test_labels) = fashion_mnist.load_data()
train_images = train_images/255
test_images = test_images/255
train_labels = tf.one_hot(train_labels, depth=10)
test_labels = tf.one_hot(test_labels, depth=10)

2. 教师模型

本文中使用一个 4层MLP来作为教师模型。

训练过程中，模型最后使用softmax层来计算损失值。

训练结束后，更改最后的softmax层，以便生成软标签，其中T=2。同时，为了防止误操作，将教师模型冻结。

需要注意的是，虽然更改后教师模型不再进行训练，但仍需要使用compile函数进行配置，否则无法调用predict函数。


inputs = keras.layers.Input(shape=(28,28))
x = keras.layers.Flatten()(inputs)
x = keras.layers.Dense(128, activation='relu')(x)
x = keras.layers.Dense(128, activation='relu')(x)
x = keras.layers.Dense(128, activation='relu')(x)
x = keras.layers.Dense(10)(x)
outputs = keras.layers.Softmax()(x)

t_model = keras.Model(inputs, outputs)
t_model.summary()

callback = [keras.callbacks.EarlyStopping(patience=10 ,restore_best_weights=True)]
t_model.compile(optimizer='adam',
              loss=tf.keras.losses.CategoricalCrossentropy(from_logits=False),
              metrics=['accuracy'])

t_model.fit(train_images, train_labels, epochs=500, validation_data=(test_images, test_labels),callbacks=callback)

x = t_model.get_layer(index=-2).output
outputs = keras.layers.Softmax()(x/3)
Teacher_model = keras.Model(t_model.input, outputs)
Teacher_model.summary()
Teacher_model.trainable = False

Teacher_model.compile(optimizer='adam',
              loss=tf.keras.losses.CategoricalCrossentropy(from_logits=False),
              metrics=['accuracy'])

3. 学生模型

本文使用一个 2层MLP作为学生模型。

学生模型构建完成后不进行训练，在后续的蒸馏过程中进行训练。

需要注意的是，学生模型最后一层 不加Softmax层。

inputs = keras.layers.Input(shape=(28,28))
x = keras.layers.Flatten()(inputs)
x = keras.layers.Dense(128, activation='relu')(x)
outputs = keras.layers.Dense(10)(x)

Student_model = keras.Model(inputs, outputs)
Student_model.summary()

4. 知识蒸馏过程

学生模型进行蒸馏时，损失函数包括两部分：

Loss1：学生模型softmax输出值与真实标签的之间的损失（交叉熵）；
*Loss2：学生模型软化后的softmax输出值（T=2）与教师模型生成的软标签之间的损失（KL散度）。

则， Loss = 0.1Loss1 + 0.9Loss2。

本文通过重写Model类来实现。

class Distilling(keras.Model):
  def __init__(self, student_model, teacher_model, T, alpha):
    super(Distilling, self).__init__()
    self.student_model = student_model
    self.teacher_model = teacher_model
    self.T = T
    self.alpha = alpha

  def train_step(self, data):
    x, y = data
    softmax = keras.layers.Softmax()
    kld = keras.losses.KLDivergence()
    with tf.GradientTape() as tape:
      logits = self.student_model(x)
      soft_labels = self.teacher_model(x)
      loss_value1 = self.compiled_loss(y, softmax(logits))
      loss_value2 = kld(soft_labels, softmax(logits/self.T))
      loss_value = self.alpha* loss_value2 + (1-self.alpha) * loss_value1
    grads = tape.gradient(loss_value, self.student_model.trainable_weights)
    self.optimizer.apply_gradients(zip(grads, self.student_model.trainable_weights))
    self.compiled_metrics.update_state(y, softmax(logits))
    return {'sum_loss':loss_value, 'loss1': loss_value1, 'loss2':loss_value2, }

  def test_step(self, data):
    x, y = data
    softmax = keras.layers.Softmax()
    logits = self.student_model(x)
    loss_value = self.compiled_loss(y, softmax(logits))
    return {'loss':loss_value}

  def call(self, inputs):
    return self.student_model(inputs)

蒸馏过程加入早停止机制，监视val_loss。

distill = Distilling(Student_model, Teacher_model, 2, 0.9)
distill.compile(optimizer='adam',
              loss=tf.keras.losses.CategoricalCrossentropy(from_logits=False))

callback = [keras.callbacks.EarlyStopping(patience=20, restore_best_weights=True)]

distill.fit(train_images, train_labels, epochs=500, validation_data=(test_images, test_labels), callbacks=callback)

5. 实验结果

为了验证结果，本文独立训练学生模型（加入Softmax层），与使用知识蒸馏训练的学生模型进行对比。

实验结果如下：

教师模型准确度 0.8682
学生模型准确度 0.8365 （知识蒸馏）
*学生模型准确度 0.8302 （独立训练）

这表明，知识蒸馏方法确实有效。

欢迎评论留言讨论交流！

Original: https://blog.csdn.net/For_learning/article/details/117304450
Author: 今生有幸.~
Title: 知识蒸馏示例代码实现及下载

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/690764/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

核函数高斯核函数，线性核函数，多项式核函数

核函数是我们处理数据时使用的一种方式。对于给的一些特征数据我们通过核函数的方式来对其进行处理。我们经常在SVM中提到核函数，就是因为通过核函数来将原本的数据进行各种方式的组合计算，…

人工智能 2023年7月26日
0059
数学建模竞赛常考四大模型总结【预测模型、分类模型、优化模型、评价模型】

预测和分类本质上没啥区别，都是找到一个合适的函数做预测/分类。所以能做预测的模型多半可以做分类。 1.1 神经网络预测条件：大量数据（题目给出大量数据时，就算题中没有要求进行数…

人工智能 2023年6月15日
0095
深度学习相关阅读论文汇总（持续更新）

注意：按我文件夹的顺序更新的 77 A Ranking-Based Cross-Entropy Loss for Early Classification of Time Seri…

人工智能 2023年7月13日
0072
网络安全学习–网络安全防护

网络安全管理政策是信息安全管理政策的一个组成部分。信息安全管理政策：通过保证维护信息的机密性、完整性和可用性来管理和保护机构部门的所有的信息资产的一项体制。网络类型：局域网（L…

人工智能 2023年6月29日
0080
(Unsupervised Anomaly Detection)无监督异常检测领域最新研究进展 – Part 1 基于重构的方法（1）【持续更新…】

文章目录 * – 前言 – 1. 基线 AE/VAE – 2. 基于inpainting思想 – + 2.1 SMAI (BMVC2…

人工智能 2023年5月26日
0055
决策树回归是一种回归算法，它使用树结构来建立输入特征与输出变量之间的关系。它通过递归地划分特征空间，使得每个叶节点上的样本具有类似的输出值

决策树回归算法决策树回归是一种常用的回归算法，它使用树结构来建立输入特征与输出变量之间的关系。决策树通过递归地划分特征空间，使得每个叶节点上的样本具有类似的输出值。算法原理决…

人工智能 2023年12月31日
0038
提高Tesseract-OCR验证码识别率

Tesseract-OCR训练自己需要的语言在正常使用Tesseract-OCR的默认eng去识别复杂的验证码失败率很高，这时候就需要自己训练出自己需要的语言来提高识别成功率。如…

人工智能 2023年5月23日
00115
Collaborativ

问题解决方案：Collaborativ相关问题介绍 Collaborativ指的是一种个性化推荐系统的方法，通过分析用户之间的行为或偏好，来推荐给用户可能感兴趣的物品。在这个问题…

人工智能 2024年1月5日
0041
【python】玩转数据分析、建模、人工智能常用的package整理

import pdfplumber with pdfplumber.open("example.pdf",password = ‘paswrd’) as pdf…

人工智能 2023年7月16日
0079
知行教育大数据分析平台之基于Spark架构

; 1 介绍一下你们的项目教育数仓解决的问题：首先，受互联网+概念影响，越来越多的教育平台机构涌现，在线教育发展火热。但是由于信息的共享利用不充分，导致企业多年积累了大量数据，而…

人工智能 2023年7月16日
0080
OpenCV配置教程

文章目录前言一、下载和安装OpenCV SDK 二、配置包含路径三、配置库目录&配置链接器四、配置环境变量五、dll文件复制到system32中六、验证配置结果…

人工智能 2023年6月19日
0096
华为大数据HCIE实验论述题常考题型1_分类问题评估标准

目录题目1 阐述混淆矩阵？题目2 分类问题评估标准中查准率和召回率，正确率，错误率公式是什么？召回率和查准率各自用于什么场景？为什么会用F1分数？题目3 PR曲线如何绘制？R…

人工智能 2023年7月2日
0094
tushare使用分享

tushare ID：509298 在师兄的介绍下了解到了Tushare Pro平台（Tushare大数据社区）。利用这个平台可以很方便的获得股票、基金、期货、债券等金融数据，数据…

人工智能 2023年7月16日
0083
【PAT甲级 – C++题解】1063 Set Similarity

✍个人博客：https://blog.csdn.net/Newin2020?spm=1011.2415.3001.5343📚专栏地址：PAT题解集合📝原题地址：题目详情 &#821…

人工智能 2023年6月30日
0052
【神经网络】一文带你轻松解析神经网络（附实例恶搞女友）

😊😊😊 欢迎来到本博客😊😊😊本次博客内容将讲解关于神经网络的相关知识🎉 作者简介：⭐️⭐️⭐️ 目前计算机研究生在读。主要研究方向是人工智能和群智能算法方向。目前熟悉python网…

人工智能 2023年7月6日
0063
MATLAB 基础知识数据类型分组数组对分类数据绘图

本文演示了如何对分类数组中的数据绘图。加载样本数据加载从 100 位患者收集的样本数据。 load patients whos Name Size Bytes Class At…

人工智能 2023年7月3日
0071

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

知识蒸馏 示例代码实现及下载