IMPROVE OBJECT DETECTION WITH FEATURE-BASEDKNOWLEDGE DISTILLATION: 论文和源码阅读笔记

2023年7月12日下午12:35 • 人工智能 • 阅读 106

paper：https://openreview.net/pdf?id=uKhGRvM8QNH

code：https://github.com/ArchipLab-LinfengZhang/Object-Detection-Knowledge-Distillation-ICLR2021

1、摘要：

开篇paper提到kd之所以在目标检测上的失败主要是两个原因：1、前景和背景之间的像素不平衡。 2、缺乏对不同像素之间的关系的蒸馏。基于这两个原因，本文提出了注意力引导机制和non-local机制来解决，让学生网络能够更加努力的学习teacher的模型，这样不仅能够单个像素的特征，还能够学习non-local模块捕获不同像素之间的关系，paper在one-stage、two-stage、anchor-free上都实现了ap的提升。

IMPROVE OBJECT DETECTION WITH FEATURE-BASEDKNOWLEDGE DISTILLATION: 论文和源码阅读笔记

1、Introduction

开始介绍了kd在object detection应用难的问题，如下所示：

1、Imbalance between foreground and background

在待检测图像中，背景像素比前景像素更多，在本文之前的kd，student总是被训练区模仿相同特征的所有像素的特征，因此student将大部分注意力都放在了背景像素里面，这抑制了对前景像素的学习，因此本文提出了注意力引导kd的机制，它只蒸馏关键的前景像素，采用注意力机制作为kd的mask，像素中具有较高的注意力值的可以视为前景对象的像素，然后student更高优先级的去学习

2、Lack of distillation on relation information.

现有的kd方法只考虑了单个像素的信息或者特征，忽略了全局，因此提出了non-local-kd，只在将student和teacher的关系信息与non-local模块，将这个关系给提炼出来。

综上，本文的贡献如下：

1、提出了注意力引导kd，强调student学习前景物体抑制对背景像素的学习

2、提出non-local-kd，不仅可以学习单个像素信息，还可以从teacher那边学习不同像素之间的关系

3、得出一个结论，具有较高ap的老师通常是kd方面更好的老师。这与图片分类的kd结论不同。

2、related-work

本文不写，有兴趣的童鞋自己看吧

3、methodology

整体核心结构如下图所示，非常清晰：

1、注意力引导的蒸馏分别在通道和空间维度上平均池化产生空间和通道注意力。然后，鼓励学生模仿老师的注意力。此外，学生还被训练模仿老师的注意力mask特征。

2、非局部蒸馏用非局部模块捕获图像中像素的关系。教师的关系信息是由L2norm loss的学生学习的。

3、non-local的体系结构。’1×1 layer’是具有1×1内核的卷积层。

4、蒸馏损失应用于backbone具有不同分辨率，因此可以处理不同的分辨率。我们的方法不涉及检测head和neck（这个地方说的是不同分辨率的featuremap都是可以处理的，不是指的student和teacher的分辨率不一致）

接下来稍微详细的介绍一下原理和公式

1、attention-guided distillation

首先看一下更改后的特征图效果：

从上可知，paper的attention机制会将object做成类似于mask的方式，区别于以前的bbox的·方法，

所谓空间注意力，指的是每一个像素点的所有通道的均值：

维度变化：

所谓通道注意力机制，指的是每个通道上所有点的均值：

维度变化：

使用S和T来区分student和teacher，注意力引导的loss有两部分组成，分别是注意力转移loos-LAt和LAM注意力掩码损失，如下图所示：

给出空间注意力掩膜Ms和通道注意力掩膜Mc的表达式

注意一点，paper提及当mask的T取值不一致时，可视化出来的feature mask是有差异的，如下图所示：

LAT 用于鼓励学生模型模仿教师模型的空间和通道注意力，LAM用于鼓励student通过Mx和Mc掩码的L2番薯来模仿teacher模型的feature，loss函数如下所示范数

3.2 NON-LOCAL DISTILLATION

如前文给出的示意图，paper提出了non-local的学习机制，用来学习teacher模型的全局关系，公式如下所示：

non-local的结构如下图所示：

由于计算量很大，因此只推荐在高阶语义层使用，即本文在高阶feature层使用。再稍微普及一下non-local的原理，

深层conv虽然感受野比较大，但是仍旧有限，使用全局感受野就可以称之为non-local，简单来说，通过non-local操作的输出和原图大小一致，相当于考虑了全局：

如上式，f（xi，xj）代表计算两点相似性函数，g（xj）代表将本像素进行一个关系映射（像素点映射成向量），也可以理解为计算一个点的特征，因此计算一个xj的像素的特征向量，需要计算所有的xi，也就是说需要所有全局的像素参与，因此称之为non-local。

上图就是non-local的计算原理，其中mask可以认为是全局的每一个点与本像素的相似性，然后本点利用映射函数变成了g（xj）->transformed image, 然后在进行点成求和取均值，得到最终的结果，利用了全局信息，称之为non-local。

本paper的non-local公式正如上文的paper截图，上面两段讲得很清楚了，此处不再详细说明。

3.3 OVERALL LOSS FUNCTION

最后定义了一个总体的损失函数：

paper指出可以将这个loss函数放到加到原始的目标检测网络损失函数里面。

4 EXPERIMENT

4.1 EXPERIIMENT SETTRINGS

4.2 results

还是挺厉害的，sota结果，就是不知道能不能复现。。。。

基本上重点就差不多了，后续的实验细节可以通过原文区更加仔细的读，本文的分享就到这里了。

Original: https://blog.csdn.net/lovep1/article/details/121482438
Author: lovep1
Title: IMPROVE OBJECT DETECTION WITH FEATURE-BASEDKNOWLEDGE DISTILLATION: 论文和源码阅读笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/687666/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

关于一维和二维卷积，以及1*1卷积核的理解

本文图片大部分来自吴恩达Andrew Ng老师的深度学习课程。基础操作：最基本的卷积操作是把卷积核在输入中移动（扫一遍），获得输出。 ; 维度：一维卷积和二维卷积的维度是指…

人工智能 2023年7月23日
0067
Matplotlib模块详解 | CSDN创作打卡

什么是 Matplotlib 模块 Matplotlib 是 Python 中类似 MATLAB 的绘图工具，其能方便地实现数据可视化，熟悉 MATLAB 的也可以很快上手 Mat…

人工智能 2023年7月16日
0085
使用DGL完成节点分类任务

更多图神经网络和深度学习内容请关注： ; 节点分类任务概述 节点分类(node classi…

人工智能 2023年6月30日
0093
Pycharm创建虚拟环境

目录一、pycharm创建虚拟环境一般步骤一、pycharm创建虚拟环境一般步骤 1、首先打开pycharm下的terminal 以下所有代码都在terminal输入。 2、创…

人工智能 2023年7月5日
0081
时间序列的数据分析(二):数据趋势的计算

四，时间序列的分解由于季节性成份分为加法季节性和乘法季节性，加法季节性和时间没有关系，乘法季节性和时间存在线性关系，因此在分解时间序列数据时就分为加法分解和乘法分解两种方式,假如…

人工智能 2023年7月16日
0052
js基础笔记学习227练习3之1

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月29日
0066
C++学习笔记——opencv2模块（图像处理）

用于计算图像处理的opencv2，只不过这次用的不是python的版本，而是C++的版本。参考书籍：《视觉SLAM十四讲-从理论到实践》——高翔 CMakeLists.txt写法…

人工智能 2023年5月28日
0074
注意力机制(Attention)原理详解

文章结构 1. 为什么需要Attention 2. Attention的基本原理 3.自注意力机制（Self-Attention） 4.总结为什么需要Attention 在了解A…

人工智能 2023年6月15日
0071
SwiftUI 语音合成与语言识别教程之 03 实现录音文件转文字（含完整项目源码）SFSpeechURLRecognitionRequest

; 前期知识回顾《SwiftUI 语音合成与语言识别教程之 01 Speech框架简介》我们介绍了Speech框架是什么，知道了可以使用Speech进行多语言识别。《Swift…

人工智能 2023年5月25日
0071
幅度谱、相位谱、能量谱等语音信号处理中的基础知识

目录 * – + 写在前面的话 + 一、时域信号获取 + * 1.1 python读取.wav文件 * – 1.1.1 soundfile – …

人工智能 2023年5月27日
0082
关于元胞自动机

元胞自动机(cellular automata，CA) 是一种时间、空间、状态都离散，空间相互作用和时间因果关系为局部的网格动力学模型，具有模拟复杂系统时空演化过程的能力。其实在…

人工智能 2023年6月20日
0074
向matlab2021a中导入FullBNT出现的问题，“无效表达式。请检查缺失的乘法运算符、缺失或不对称的分隔符或者其他语法错误。要构造矩阵，请使用方括号而不是圆括号。”

目录问题描述解决办法测试代码实验课要求使用matlab构建贝叶斯网络分类器，于是在网上查阅相关资料。找到了这篇博客利用matlab进行简单的贝叶斯网络构建，按照文中的方式…

人工智能 2023年6月16日
00132
计算机视觉中的编码-解码器结构总结（持续更新）

文章目录 NLP领域的编码解码器结构机器学习中的编码器 * 自动编码器视觉领域中的编码解码器结构编码器-解码器结构：编码器原始输入信号转化为中间格式，然后解码器将中间格式转化…

人工智能 2023年6月24日
00200
Transformers 源码阅读之BertTokenizerFast分词模型

数据集准备从bert-base-chinese下载预训练语言模型及其他词表，由于使用的是pytorch，因此下载 pytorch_model.bin即可。如果要使用英文模型，就…

人工智能 2023年6月25日
0088
实验—采用SOM网络进行聚类

1.SOM网络简介自组织特征映射网络SOFM又称自组织映射网络SOM，是一种自组织竞争神经网络，一个神经网络接受外界输入模式时，将会分为不同的对应区域，各区域对输入模式具有不同的…

人工智能 2023年6月16日
0079
2022最新PyCharm安装教程（简单详细）

2022最新PyCharm安装教程（简单详细）一、PyCharm简介 PyCharm是一种Python IDE（Integrated Development Environmen…

人工智能 2023年7月4日
0069

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

IMPROVE OBJECT DETECTION WITH FEATURE-BASEDKNOWLEDGE DISTILLATION: 论文和源码阅读笔记

大家都在看