论文笔记：HyperNetworks（arXiv版本）

2023年7月12日下午11:37 • 人工智能 • 阅读 67

论文笔记：HyperNetworks ICLR_2017（arXiv版本）

*
– 这篇博客是啥？
– 论文地址
– 基本思想
–
+ 说明
– 方法
–
+ 静态 HyperNetworks
+ 动态 HyperNetworks

这篇博客是啥？

这篇博文是有关HyperNetworks arXiv版本的笔记，为啥选择arXiv版本呢，因为ICLR官方编辑版本有许多删减，致使我有一部分公式看不懂😭（可能是因为我个人才疏学浅吧）。这篇博文主要是讲HyperNetworks的方法，不会对实验进行介绍。

论文地址

arXiv版本： HyperNetworks arXiv
ICLR版本：HyperNetworks ICLR_2017

基本思想

HyperNetworks 的基本思想是想用一个 小网络(HyperNetworks) 为大网络（main Networks） 生成参数，如下图

在上图中，橙色的方块是 小网络(HyperNetworks) ，黑色的是 大网络（main Networks） 橙色点箭头是小网络为大网络生成的参数矩阵。

; 说明

我们平常怎么保存一个模型？根据我的经验，以上图为例，一般人会将上图中[ W 1 , W 2 , W 3 , . . . , W n ] [W_1, W_2, W_3, …,W_n ][W 1 ,W 2 ,W 3 ,…,W n ]这些权重矩阵保存下来。于是有人就想这也太浪费空间了吧，我能否找个函数使得[ z 1 , z 2 , z 3 , . . . , z n ] m a p p i n g [ W 1 , W 2 , W 3 , . . . , W n ] [z_1, z_2, z_3, …, z_n] \quad mapping \quad [W_1, W_2, W_3, …,W_n ][z 1 ,z 2 ,z 3 ,…,z n ]m a p p i n g [W 1 ,W 2 ,W 3 ,…,W n ]. 这里z z z的维度远小于W W W, 这种做法我只需要保存z z z和m a p p i n g mapping m a p p i n g函数就行了，这样就可以节省空间了！

方法

作者将 HyperNetworks 分为动态的静态的两种模式

静态 HyperNetworks

论文中，作者拿卷积神经网络(CNN)作为 main Network。
我们假设每个卷积层：
输入的channel为N i n N_{in}N i n  ；
卷积核size 为f s i z e × f s i z e f_{size} × f_{size}f s i z e ×f s i z e ；
输出的channel 为N o u t N_{out}N o u t 
那么这一层的参数量为N i n × f s i z e × f s i z e × N o u t N_{in} × f_{size} × f_{size} × N_{out}N i n ×f s i z e ×f s i z e ×N o u t ，第j j j层参数量记作 K j ∈ R N i n f s i z e × f s i z e N o u t ， j ∈ 1 , . . . . , D K^j ∈ \mathbb{R}^{N_{in} f_{size} × f_{size} N_{out}} ，j ∈ {1, …., D}K j ∈R N i n f s i z e ×f s i z e N o u t ，j ∈1 ,….,D这里D D D为卷积的深度 depth。
然后，作者提出了一个生成器g g g使得：
K j = g ( z j ) , ∀ j = 1 , . . . , D (1) K^j = g(z^j), \forall j = 1,…, D \tag{1}K j =g (z j ),∀j =1 ,…,D (1 )
生成器g g g是一个两层的线性网络，作者首先将 K j ∈ R N i n f s i z e × f s i z e N o u t K^j ∈ \mathbb{R}^{N_{in} f_{size} × f_{size} N_{out}}K j ∈R N i n f s i z e ×f s i z e N o u t 拆分成N i n N_{in}N i n 个slices,
即K j = c o n c a t i = 1 N i n ( K i j ) , K i j ∈ R f s i z e × f s i z e N o u t , i ∈ 1 , . . . . , N i n , j ∈ 1 , . . . . , D K^j = concat {i=1} ^{N{in}}(K^j i), K^j _i∈ \mathbb{R}^{ f{size} × f_{size} N_{out}}, i ∈ {1, …., N_{in}},j ∈ {1, …., D}K j =c o n c a t i =1 N i n (K i j ),K i j ∈R f s i z e ×f s i z e N o u t ,i ∈1 ,….,N i n ,j ∈1 ,….,D
生成器g g g的公式：

这里，z j ∈ R N z , W i ∈ R d × N z z^j∈\mathbb R^{N_z}, W_i ∈\mathbb R^{d×N_z}z j ∈R N z ,W i ∈R d ×N z , d d d为生成器g g g的隐藏层的size；a i j ∈ R d , B i ∈ R d , W o u t ∈ R f s i z e × N o u t f s i z e × d , B o u t ∈ R f s i z e × N o u t f s i z e a_i ^j∈ \mathbb R^d,B_i ∈ \mathbb R^d, W_{out}∈ \mathbb R^{f_{size}×N_{out}f_{size}×d}, B_{out}∈ \mathbb R^{f_{size}×N_{out}f_{size}}a i j ∈R d ,B i ∈R d ,W o u t ∈R f s i z e ×N o u t f s i z e ×d ,B o u t ∈R f s i z e ×N o u t f s i z e ，运算符

通过这种方法参数分别是: z j : N z × D ； W i : d × N z × N i ; B j : d × N i ; W o u t : f s i z e × N o u t f s i z e × d ; B o u t : f s i z e × N o u t f s i z e z^j: N_z \times D；\quad W_i: d \times N_z \times N_i; \quad B_j: d \times N_i; \quad W_{out}: f_{size}×N_{out}f_{size} × d; \quad B_{out}: f_{size}×N_{out}f_{size}z j :N z ×D ；W i :d ×N z ×N i ;B j :d ×N i ;W o u t :f s i z e ×N o u t f s i z e ×d ;B o u t :f s i z e ×N o u t f s i z e
总共 N z × D + d × ( N z + 1 ) × N i + f s i z e × N o u t × f s i z e × ( d + 1 ) N_z \times D + d \times (N_z +1) \times N_i + f_{size}×N_{out}× f_{size} × (d+1)N z ×D +d ×(N z +1 )×N i +f s i z e ×N o u t ×f s i z e ×(d +1 )
不使用 HyperNetwork原参数共D × N i n × f s i z e × N o u t × f s i z e D × N_{in}×f_{size}×N_{out}×f_{size}D ×N i n ×f s i z e ×N o u t ×f s i z e ,相比之下，使用HyperNetworks的参数大大减少了

; 动态 HyperNetworks

作者这里拿(如下图)大RNN(黑色)来作为 main network,小RNN作为 HyperNetworkRNN(橙色)，这里为啥叫动态呢？是因为RNN时序的，其参数会随时间变化。

我们知道标准的RNN公式：h t = ϕ ( W h h t − 1 + W x x t + b ) h_t = \phi(W_h h_{t-1} + W_x x_t +b)h t =ϕ(W h h t −1 +W x x t +b )，这里共有三个参数W h , W x , b W_h, W_x, b W h ,W x ,b 需要HyperNetwork 按时序生成，这就是作者为啥也用时序网络(较小的RNN)作为HyperNetwork的原因，跟静态HyperNetwork一样，作者也用生成器（线性层）生成三个参数W h , W x , b W_h, W_x, b W h ,W x ,b，这里生成器分别用W h ( z h ) , W x ( z x ) ， b ( z b ) W_h(z_h), W_x(z_x)，b(z_b)W h (z h ),W x (z x )，b (z b )表示，这里z h , z x , z b z_h,z_x,z_b z h ,z x ,z b 表示时序条件（这里你可以认为生成器是一种条件GAN，或者也可以叫做解码器）。所以 main RNN 的公式可以改写成：
h t = ϕ ( W h ( z h ) h t − 1 + W x ( z x ) x t + b ( z b ) ) W h ( z h ) = < W h z , z h > W x ( z x ) = < W x z , z x > b ( z b ) = W b z z b + b 0 (2) h_t = \phi(W_h(z_h) h_{t-1} + W_x(z_x) x_t +b(z_b)) \ W_h(z_h) = h t =ϕ(W h (z h )h t −1 +W x (z x )x t +b (z b ))W h (z h )=W x (z x )=b (z b )=W b z z b +b 0 (2 )
这里 W h z ∈ R N h × N h × N z , W x z ∈ R N h × N x × N z , W b z ∈ R N h × N z , b 0 ∈ R N h W_{hz} \in \mathbb R^{N_h \times N_h \times N_z}, W_{xz} \in \mathbb R^{N_h \times N_x \times N_z}, W_{bz} \in \mathbb R^{ N_h \times N_z}, b_0 \in \mathbb R^{N_h}W h z ∈R N h ×N h ×N z ,W x z ∈R N h ×N x ×N z ,W b z ∈R N h ×N z ,b 0 ∈R N h , 运算符表示张量内积（多维矩阵的乘法）。
为了进一步降低存储，条件z h , z x , z b z_h,z_x,z_b z h ,z x ,z b 也用线性生成器生成（对应上图的橙色的部分）：
论文笔记：HyperNetworks（arXiv版本）

貌似终于大功告成了！欸，等会。。这种方法保存的 线性层的权重矩阵也太多了吧！所以作者就想在
标准的RNN公式：h t = ϕ ( W h h t − 1 + W x x t + b ) h_t = \phi(W_h h_{t-1} + W_x x_t +b)h t =ϕ(W h h t −1 +W x x t +b )上对权重的放缩，而不是完全替换，比如说像这样W h n e w = d h ( z h ) ⊙ W h o l d ， W x n e w = d h ( z x ) ⊙ W x o l d W_h ^{new} = d_h(z_h) \odot W_h ^{old}， W_x ^{new} = d_h(z_x) \odot W_x ^{old}W h n e w =d h (z h )⊙W h o l d ，W x n e w =d h (z x )⊙W x o l d ，这里⊙ \odot ⊙表示按位乘法：
论文笔记：HyperNetworks（arXiv版本）

这种做法是在原有的参数矩阵上进行缩放，大大降低储存量（我只要储存W o l d W^{old}W o l d和一组缩放向量d d d即可），提高了内存效率，最后内存高效率版本可以写做：
（疑惑：这与之前的方法相比，必定损失一定精度）

太好了终于结束了！

Original: https://blog.csdn.net/weixin_45775432/article/details/125261372
Author: 星光点点wwx
Title: 论文笔记：HyperNetworks（arXiv版本）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/688628/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

M1 Mac下安装pytorch和pycharm的导入

一、pytorch的安装创建pytorch虚拟环境使用以下命令创建pytorch环境 conda activate pytorch_env 切换到新的环境 conda acti…

人工智能 2023年7月23日
0077
Halcon深度学习总结

一、Halcon17之后就已经推出了深度学习模块,之前一直没太关注过，最近一个项目需要用到目标检测，于是研究了Halcon深度学习三大模块，图像分类，目标检测，语义分割。并总结出来…

人工智能 2023年7月27日
00130
PHP语音通知接口开发

语音通知接口应用场景语音通知的强提醒模式，可以第一时间通知用户，满足多种场景下的应用需求。 [En] The strong reminder mode of voice noti…

人工智能 2023年5月25日
00116
朗读评价语言集锦_(完整版)朗读评价语句

朗读评价语句准确、有力、清晰、流利地表达 [En] Articulate accurately, forcefully, clearly and fluently 声音洪亮、圆润…

人工智能 2023年5月27日
00126
路由器与交换机的区别

应用场景不同交换机：主要应用在内部核心接入，进行内部数据交换，更多的用于局域网; 路由器：是网络出口，主要负责与运营商之间的互联，更多的应用于接外网。比如说，一个网络环境中，可…

人工智能 2023年6月6日
00115
PCA主成分分析

pca 引入 PCA公式描述 PCA算法 PCA算法的三种实现方式 * – 基于特征值分解协方差矩阵基于相关矩阵的特征值分解基于SVD分解协方差矩阵主成分数量选择…

人工智能 2023年7月15日
0069
课程设计：基于Python的爬虫租房数据分析

1.课程设计 1.1.设计目的：通过项目设计，全面掌握数据采集和预处理的原理和应用范围，掌握数据采集的过程，完成数据清洗，存储和展示，熟悉运用数据采集和预处理的相关工具 1.2….

人工智能 2023年7月15日
0073
朴素贝叶斯基本原理和预测过程、先验概率、后验概率、似然概率概念

贝叶斯原理是英国数学家托马斯·贝叶斯提出的。贝叶斯原理建立在主观判断的基础上：在我们不了解所有客观事实的情况下，同样可以先估计一个值，然后根据实际结果不断进行修正。举例： …

人工智能 2023年6月16日
00105
R语言计算回归模型R方（R-Squared）实战

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月17日
0077
python知识图谱问答系统代码_问答系统 – osc_xopfh3w8的个人空间 – OSCHINA – 中文开源技术交流社区…

对话系统包括闲聊、问答、任务型对话三大部分。问答系统特指那些一问一答形式的聊天。任务型对话指用户希望通过聊天的方式达成某种目的。闲聊中，对话系统的输出不一定是肯定句，也可以是…

人工智能 2023年6月10日
0096
【遥感分类】目视解译分类精度评价

引：网上已有很多ENVI遥感影像分类教程，但基本都是关于【使用ENVI分类器进行遥感影像分类→继续使用ENVI进行精度评价】，缺少关于【使用ArcGIS目视解译进行遥感影像分类→转…

人工智能 2023年7月2日
00130
目标检测中的b-box回归损失函数(IOU，GIOU，DIOU，CIOU)

目标检测作为一种经典CV任务，大致可以认为是三个子任务的集合：1. 确定目标大概位置；2. 分类出目标类别；3. 回归出检测框的宽高；这三种子任务分别需要对应损失函数的反传来学习…

人工智能 2023年6月18日
00139
做了三年数据分析，给你的几点建议

还有一个多月，我工作就满3年了。在职场上，3年是个坎，意味着从初级转到中高级，但前提是能力跟得上工作年限。我第一份和第二份工作，是做的数据运营，现在这份工作，title是商业分析…

人工智能 2023年6月11日
0084
用Python实现的这五个小游戏，你真的学会了嘛？

游戏名称 1、五子棋2、雷霆战机3、贪吃蛇4、坦克大战5、俄罗斯方块开发环境 Python版本：3.6.4 相关模块： pygame模块；以及一些Python自带的模块。环境…

人工智能 2023年7月4日
00130
论文笔记：主干网络——GoogLeNet-V3

Rethinking the Inception Architecture for Computer Vision 重新思考计算机视觉中的Inception结构文章目录 Reth…

人工智能 2023年7月14日
0054
分类问题评价指标

目录模型评估方式 1.验证（Hold-Out） 2.交叉验证（Cross-Validation）二分类问题 1.混淆矩阵（Confuse Matrix） 2.准确率（Accur…

人工智能 2023年7月2日
00110

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31