神经网络权重初始化代码 init.kaiming_uniform_和kaiming_normal_

2023年6月25日下午6:03 • 人工智能 • 阅读 81

神经网络权重初始化–容易忽视的细节

为什么要初始化
kaiming初始化方法由来
代码实现
PReLu的使用
后话

禁止转载！！

为什么要初始化

神经网络要优化一个非常复杂的非线性模型，而且基本没有全局最优解，初始化在其中扮演着非常重要的作用，尤其在没有BN等技术的早期，它直接影响模型能否收敛。 其本质是初始参数的选择应使得objective function便于被优化，如果随机初始化就只能看命了，但至少可以人为的选择一个较为合适的值，不一定最好但一定是稳定的。

好的初始化应该满足以下两个条件：
(1) 让神经元各层激活值不会出现饱和现象；
(2) 各层激活值也不能为0。
也就是激活值不要太大，也不要太小，应该刚刚好，当然这还只是最基本的要求。

权重初始化的目的是防止在深度神经网络的正向（前向）传播过程中层激活函数的输出损失梯度出现爆炸或消失。如果发生任何一种情况，损失梯度太大或太小，就无法有效地向后传播，并且即便可以向后传播，网络也需要花更长时间来达到收敛。然而，随机初始化就是搞一些很小的值进行初始化，实验表明大了就容易饱和，小的就激活不动。

并且Xavier等人之前发现，在学习的时候，当神经网络的层数增多时，会发现越往后面的层的激活函数的输出值几乎都接近于0，这显然是不合理的，因为网络的最后输出是要实现分类等任务，想必必须有一定的方差才能实现有差别的输出结果。因此，做实验在保证输入输出方差大致相同的时候，即满足的方差一致性的情况下，训练的收敛速度会更快，结果会更好一些。

此处有图文：https://zhuanlan.zhihu.com/p/25110150

kaiming初始化方法由来

建议可以看看这个论文：《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification》

Xavier初始化的基本思想是保持输入和输出的方差一致，这样就避免了所有输出值都趋向于0。将每层的输出和梯度都看作是随机变量，将输入 假设为独立同分布的，先在没有激活函数的简化情况下进行推断：

神经网络权重初始化代码 init.kaiming_uniform_和kaiming_normal_

有点概率统计知识的可以很容易从求输出变量和梯度变量的均值方差公式推导出来，这里给出结论：
满足 前向输出方差一致的条件：（nt-1是前一层的维度rt为该层所规定的输出方差）

满足 梯度方差一致的条件：（nt是本层的维度rt为该层梯度所规定的方差）

如果要同时满足输出方差和梯度方差一致的化，必须使得输入维度和输出维度一样，有些时候显然是不可能的，所以取了一个折中的办法：

Xavier初始化的推导过程是基于线性函数的，但是它在一些非线性神经元中也很有效。比如tanh（ 泰勒展开接近于线性y=x的函数,4(sigmiod-0.5)也能满足条件）， 但对非线性函数并不具有普适性relu等*）。原因如下：
如果有线性激活函数，那么只有当激活函数为f=x才能够满足，这也就是为什么tanh是可以很好work的。

kaiming初始化:
以上方法对于非线性的激活函数并不是很适用， 因为RELU函数的输出均值并不等于0，何凯明针对此问题提出了改进。
He initialization的思想是：在ReLU网络中，假定每一层有一半的神经元被激活，另一半为0，所以，要保持方差不变，只需要在Xavier的基础上再除以2：

Forward Propagation Case前向：
Backward Propagation Case后向

维度nl就是卷积核大小乘以卷积核个数。值得注意的是，第一层输入没有激活函数，所以说第一层可以不用除2，但是作者说只有这第一层影响不大，方便起见就全都设为一样的0均值和方差。

另外，这里也有前向和后向传播方差一致不能同时满足的情况，作者说了，这里只要选择一个准则来初始化就可以达到效果，根本是要使梯度得到更新， 二选一已经足够了。

; 代码实现

pytorch中的实现方法：(pytorch默认使用 kaiming正态分布初始化卷积层参数。，所以不用自己去手动初始化，因此常被人所遗忘的知识点)权重是用的0均值高斯分布， 偏置是0均值0方差的均匀分布。

kaiming正态分布

torch.nn.init.kaiming_normal_
    (tensor, a=0, mode='fan_in', nonlinearity='leaky_relu')

kaiming均匀分布

torch.nn.init.kaiming_uniform_
    (tensor, a=0, mode='fan_in', nonlinearity='leaky_relu')

    def reset_parameters(self) -> None:
        init.kaiming_uniform_(self.weight, a=math.sqrt(5))
        if self.bias is not None:
            fan_in, _ = init._calculate_fan_in_and_fan_out(self.weight)
            bound = 1 / math.sqrt(fan_in)
            init.uniform_(self.bias, -bound, bound)

参数说明：

 tensor: an n-dimensional torch.Tensor
    a: the negative slope of the rectifier used after this layer (only
        used with 'leaky_relu')
    mode: either 'fan_in' (default) or 'fan_out'. Choosing 'fan_in'
        preserves the magnitude of the variance of the weights in the
        forward pass. Choosing 'fan_out' preserves the magnitudes in the
        backwards pass.

    nonlinearity: the non-linear function (nn.functional name),
        recommended to use only with 'relu' or 'leaky_relu' (default).

自己手动去初始化的代码：

    def __weight_init(self,net):

        for m in net.modules():
            if isinstance(m, nn.Conv2d):
                n = m.kernel_size[0] * m.kernel_size[1] * m.out_channels
                m.weight.data.normal_(0, math.sqrt(2. / n))

            elif isinstance(m, nn.BatchNorm2d):
                m.weight.data.fill_(1)
                m.bias.data.zero_()

PReLu的使用

ReLu还是存在不足，其在负半轴全为零，还是会让较多的神经元失活，因此在负半轴加入了斜率来解决这个问题。

作者将ai作为一个可以学习的参数（这点参数的增加并不会带来过拟合问题），先初始化为0.25：

采用带动量的梯度下降算法：

作者没有采用正则化，因为发现加入的话，会使得a趋近于0。此外，作者发现对a的范围不受任何限制（意味着整个函数还可能是非单调的），最终结果是很少会有超过1的系数。所以这里没有采用任何正则化方法。

初始化方法：a=0就是relu，a=1就是接近线性激活函数

在使用的时候，每一层都固定成一个 固定值也是可以的，此时演变为Leaky ReLU，并且大多数网络使用的时候也是这样做的。

; 后话

当然， 如果使用了BatchNorm的话，不同的初始化方法结果差不多，说明使用BN可以使得初始化不那么敏感了。
此处有人做了实验对比，https://www.datalearner.com/blog/1051561108849107.

欢迎交流，禁止转载！！

Original: https://blog.csdn.net/qq_41917697/article/details/116033589
Author: 球场书生
Title: 神经网络权重初始化代码 init.kaiming_uniform_和kaiming_normal_

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/651358/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

2021泰迪杯数据分析技能赛A题：Python实现通讯产品销售和盈利能力分析（含原始数据）

这周复习了python数据处理的实战，把之前竞赛的题目重新做了一遍。这里侧重数据分析与数据处理的部分。文末含原始题目与数据，需要的小伙伴自取~ 【事先说明】：本文只是在技术维度上…

人工智能 2023年7月18日
0061
Aidlux&VScode编程调试及AI案例测试

本文内容主要来源于江大白老师主讲的《AidLux智慧安防实战训练营》。一、目前使用Aidlux主要有两种方式：（1）边缘设备的方式：阿加犀用高通芯片的S855，和S865制作了…

人工智能 2023年7月27日
0082
机器学习之k-means算法介绍及python代码实现

目录 1.K-means算法介绍 * 1.1背景 1.2K-means算法理解 1.3K-means算法过程 – 1.3.1初始化 1.3.2归类 1.3.3更新质心 …

人工智能 2023年6月2日
0062
多元分析（Multivariate Analysis）

多元分析简介多元回归分析 * 一元线性回归聚类分析 * K-means聚类算法 K-means++算法系统（层次聚类）典型相关分析主成分分析简介多元分析（Multi…

人工智能 2023年6月17日
0072
操作系统学习笔记8 |段页式内存管理

多进程图像中的CPU管理已经告一段落，接下来要介绍另一大方面—— 内存管理。首先我们也来看看内存是如何被使用起来的。最后介绍段页式内存管理的实现过程。参考资料：课程：哈工大操作…

人工智能 2023年6月4日
0075
DEKR 解构式关键点回归（一）：算法思想与原理

前言 CW前阵子玩了下人体姿态估计，用上了微软新鲜出炉的算法——DEKR: Bottom-Up Human Pose Estimation Via Disentangled Key…

人工智能 2023年6月17日
00122
机器学习作业之波士顿房价（boston）数据分析与绘图（注释我都写了这么多，我不信你还看不懂？）

目录一、前言二、简单介绍头文件 * 1、sklearn头文件 – 意外 2、其他头文件三、题目理解 * 1、题目的简单介绍 2、属性标签 3、降维比喻四、代码 …

人工智能 2023年7月15日
00104
学习pandas df[]

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月8日
0050
2023最新SSM计算机毕业设计选题大全（附源码+LW）之java手工艺品在线网站k5284

最近发现近年来越来越多的人开始追求毕设题目的设创、和新颖性。以往的xx管理系统、xx校园系统都过时了。大多数人都不愿意做这类的系统了，确实，从有毕设开始就有人做了。但是很多人又不知…

人工智能 2023年6月27日
0054
Ubuntu18.04安装cuda10.1+cudnn8.0.5+pytorch1.8.1【亲测～】

Ubuntu18.04安装cuda10.1+cudnn8.0.5+pytorch1.8.1【亲测～】目录第一步：Cuda10.1的安装第二步：Cudnn8.05的安装 *…

人工智能 2023年7月22日
00108
前端小游戏——植物大战僵尸

给大家分享一个植物大战僵尸网页游戏源代码，感兴趣的小伙伴可收藏学习（完整源码在文末）文章目录 * – ⌛️效果展示 – ⌛️游戏介绍 – ⌛️…

人工智能 2023年6月20日
0080
Python—基于Flask框架调用百度接口实现语音识别功能

该方案实现了语音到文本的转换功能。 [En] The project realizes the function of converting voice into text. 项目…

人工智能 2023年5月25日
0058
【云原生】一篇打通微服务架构，nacos + gateway + Redis + MySQL + docker

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月30日
0081
Vissim基础

版本基于Vissim8的学生版本，快速入门使用帮助大家掌握Vissim的基本操作路段三段式 ; 左转右转注意事项左转要一连多，右转要一连一停车标志 ; 期望速度决策点注意…

人工智能 2023年6月25日
0075
dataframe数组做元素_pd.DataFrame的基本操作

1. 转置 .T方法 import pandas as pd lst=[["转","置"], […

人工智能 2023年7月6日
0053
【深度学习】（三）图像分类

; 图像分类🍉 文章目录 * – 图像分类🍉* 前言🎠* 一、ILSVRC竞赛* 二、卷积神经网络（CNN）发展* – 1.网络进化 – 2.A…

人工智能 2023年5月26日
00115

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

神经网络权重初始化代码 init.kaiming_uniform_和kaiming_normal_

神经网络权重初始化–容易忽视的细节

大家都在看