网络训练的过程中, 容易出现梯度消失(梯度特别的接近0)和梯度爆炸(梯度特别的大)的情况,导致大部分反向传播得到的梯度不起作用或者起反作用. 研究人员希望能够有一种好的权重初始化方法: 让网络前向传播或者反向传播的时候, 卷积的输出和前传的梯度比较稳定. 合理的方差既保证了数值一定的不同, 又保证了数值一定的稳定.(通过卷积权重的合理初始化, 让计算过程中的数值分布稳定)

Xavier初始化也称为Glorot初始化，因为发明人为Xavier Glorot。Xavier initialization是 Glorot 等人为了解决随机初始化的问题提出来的另一种初始化方法，他们的思想就是尽可能的让输入和输出服从相同的分布，这样就能够避免后面层的激活函数的输出值趋向于0。

因为权重多使用高斯或均匀分布初始化，而两者不会有太大区别，只要保证两者的方差一样就可以了，所以高斯和均匀分布我们一起说。

Pytorch中已经有实现，下面会详细介绍：

torch.nn.init.xavier_uniform_(tensor: Tensor, gain: float = 1.)
torch.nn.init.xavier_normal_(tensor: Tensor, gain: float = 1.)

二、基础知识

均匀分布的方差：

2.假设随机变量X和随机变量Y相互独立，则有

3.假设随机变量X和随机变量Y相互独立，且E(X)=E(Y)=0，则有

三、标准初始化方法

权重初始化满足均匀分布时：

因为上式的方差是：

，所以对应的高斯分布写作：

对于全连接网络，我们把输入X的每一维度x看做一个随机变量，并且假设E(x)=0，Var(x)=1。假设权重W和输入X相互独立，则隐层状态的方差为：

可以看出标准初始化方法得到一个非常好的特性：隐层的状态的均值为0，方差为常量1/3，和网络的层数无关，这意味着对于sigmoid这样的函数来说，自变量落在有梯度的范围内。

但是因为sigmoid激活值都是大于0的，会导致下一层的输入不满足E(x)=0。其实标准初始化也只适用于满足下面将要提到的Glorot假设的激活函数，比如tanh。

四、Xavier初始化的假设条件

在文章开始部分我们给出了参数初始化的必要条件。但是这两个条件只保证了训练过程中可以学到有用的信息——参数梯度不为0（因为参数被控制在激活函数的有效区域）。而Glorot认为：优秀的初始化应该使得各层的激活值和状态梯度的方差在传播过程中的方差保持一致。也就是说我们要保证前向传播各层参数的方差和反向传播时各层参数的方差一致：

我们把这两个条件称为 Glorot条件。

综合起来，现在我们做如下假设：

1.输入的每个特征方差一样：Var(x)；
2.激活函数对称：这样就可以假设每层的输入均值都是0；
3.f′(0)=1
4.初始时，状态值落在激活函数的线性区域：f′(Si(k))≈1。
后三个都是关于激活函数的假设，我们称为Glorot激活函数假设。

五、Xavier初始化的 简单的公式推导：

首先给出关于状态的梯度和关于参数的梯度的表达式：

我们以全连接的一层为例，表达式为：

其中ni表示输入个数。

根据概率统计知识我们有下面的方差公式：

特别的，当我们假设输入和权重都是0均值时（目前有了BN之后，这一点也较容易满足），上式可以简化为：

假设输入x和权重w独立同分布，为了保证输入与输出方差一致，则应该有：

对于一个多层的网络，某一层的方差可以用累积的形式表达，

为当前层数：

特别的，反向传播计算梯度时同样具有类似的形式：

综上，为了保证前向传播和反向传播时每一层的方差一致，应满足：

但是，实际当中输入与输出的个数往往不相等，于是为了均衡考量，我们将输入输出l两层的方差取均值，最终我们的权重方差应满足：

所以Xavier初始化的高斯分布公式：

根据均匀分布的方差公式:

又因为这里|a|=|b|,所以Xavier初始化的实现就是下面的均匀分布：

六、Pytorch实现：

import torch

定义模型 三层卷积 一层全连接
class DemoNet(torch.nn.Module):
    def __init__(self):
        super(DemoNet, self).__init__()
        self.conv1 = torch.nn.Conv2d(1, 1, 3)
        print('random init:', self.conv1.weight)
        '''
        xavier 初始化方法中服从均匀分布 U(−a,a) ，分布的参数 a = gain * sqrt(6/fan_in+fan_out)，
        这里有一个 gain，增益的大小是依据激活函数类型来设定,该初始化方法，也称为 Glorot initialization
        '''
        torch.nn.init.xavier_uniform_(self.conv1.weight, gain=1)
        print('xavier_uniform_:', self.conv1.weight)
        '''
            xavier 初始化方法中服从正态分布，
            mean=0,std = gain * sqrt(2/fan_in + fan_out)
        '''
        torch.nn.init.xavier_normal_(self.conv1.weight, gain=1)
        print('xavier_uniform_:', self.conv1.weight)

if __name__ == '__main__':
    demoNet = DemoNet()

七、对比实验

实验使用tanh为激活函数

1. 各层激活值直方图

上图是原始的初始化，下图是Xavier初始化。Xavier初始化的网络的各层的激活值较为一致，且取值均比原始的标准初始化要小。

2.各层反向传播的梯度（关于状态的梯度）的分布情况

上图是原始的初始化，下图是Xavier初始化。Xavier初始化的网络的各层的梯度较为一致，且取值均比原始的标准初始化要小。作者怀疑不同层上具有不同的梯度可能会导致病态或训练较慢。

3. 各层参数梯度的分布情况

式子（3）已经证明各层参数梯度的方差和层数基本无关。上图是原始的初始化，下图是Xavier初始化。我们发现下图的标准初始化参数梯度小了一个数量级。

4.各层权重梯度方差的分布情况

上图是原始的初始化，下图是Xavier初始化。Xavier初始化权重梯度的方差比较一致。

八、总结

1.Xavier初始化的高斯分布公式：

2.Xavier初始化的均匀分布公式：

3.Xavier初始化是在标准初始化方法的基础上，兼顾了各层在前向传播和分享传播时的参数方差。

4.Xavier初始的缺点：因为Xavier的推导过程是基于几个假设的，其中一个是激活函数是线性的。这并不适用于ReLU激活函数。另一个是激活值关于0对称，这个不适用于sigmoid函数和ReLU函数。在使用sigmoid函数和ReLU函数时，标准初始化和Xavier初始化得到的初始激活、参数梯度特性是一样的。激活值的方差逐层递减，参数梯度的方差也逐层递减。

Original: https://blog.csdn.net/xian0710830114/article/details/125540678
Author: 小殊小殊
Title: 深度学习参数初始化（一）Xavier初始化含代码

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/624796/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【pytorch】1.4 tensor.view()、tensor.reshape()、tensor.resize_() 三者的区别

目录 1、Tensor 内部存储结构 * 1. 1 tensor 的步长属性: stride() 1. 2 tensor 的偏移属性：storage_offset() 1.3 存储…

人工智能 2023年7月23日
0066
#保姆级# StanfordCoreNLP — 句法分析 + 可视化

句法分析（Constituency Parsing）是NLP领域非常重要、也是相对基础的解析任务。句法分析的任务，就是解析出句子中的短语结构、短语之间的层次句法关系。通过Sta…

人工智能 2023年5月28日
0085
免费试用Kaggle的GPU,进行深度学习，每周可以使用41小时GPU和20小时TPU

进入官网：Kaggle: Your Home for Data Science 然后注册一个账号，创建一个Notebook 设置为GPU Adding a free GPU You…

人工智能 2023年7月28日
0063
编程实战（4）——python识别图像中的坐标点并保存坐标数据

编程实战（4）——python识别图像中的坐标点并保存坐标数据文章目录编程实战（4）——python识别图像中的坐标点并保存坐标数据 * – 综述代码思路 + 库…

人工智能 2023年5月26日
00103
机器学习-贝叶斯分类器（附Python代码）

1. 贝叶斯原理 Naive Bayes 官方网址：https://scikit-learn.org/stable/modules/naive_bayes.htmlGitHub地址…

人工智能 2023年7月3日
00121
Python | 股票数据可视化

import numpy as np import pandas as pd from pandas_datareader import data import datetime …

人工智能 2023年6月19日
00106
YOLOV5：数据集制作【照着做你也能训练自己的神经网络】

YOLOV5：数据集制作总体流程：labellmg标记（.xml）-> split.py （生成四个集的txt）-> txt2yolo.py -> 各个图像的t…

人工智能 2023年7月23日
0067
机器学习：利用线性模型分类

线性模型在分类中的应用前面一共介绍了三种线性模型：线性分类，线性回归，逻辑回归。三种模型有一个共同特点都需要计算一个得分：s = w T x s=w^Tx s =w T x，线…

人工智能 2023年7月3日
0085
Coordinate Attention和BiFPN

文章目录 * – + 1 坐标注意力机制(Coordinate Attention) + * 原理： * 结构： * 代码： * 优缺点： + 2 加权双向特征金字塔(…

人工智能 2023年6月25日
0056
数据分析工具Pandas

学习目标：一，掌握数据结构分析，索引操作及高级索引二，掌握算术运算与数据对齐，数据排序三，掌握统计计算与描述，层次化索引四，掌握读写数据操作学习内容： 1.Pa…

人工智能 2023年6月11日
0088
数据挖掘与算法竞赛Baseline构建(不定时补充）

在我们还是一个小白时，我们往往会对比赛感到无从下手，对于别人分享的Baseline往往会感觉，哇，好腻害！那么问题来了，如何写出自己的Baseline呢？填充众数，中位数，均值 …

人工智能 2023年7月17日
0056
合并Excel工作簿、合并多个sheet的基本实现：

合并多个sheet的数据对于某些固定列的数据，分布一个工作簿的多个sheets里面，有时候想要将它组合起来分析，而仅有的阻碍就是它分布在多个sheet里面，如果只有一两个shee…

人工智能 2023年6月11日
0080
Swin Transformer 代码学习笔记(目标检测)

本文主要针对目标检测部分的代码。源码地址：GitHub – SwinTransformer/Swin-Transformer-Object-Detection: Th…

人工智能 2023年6月24日
00100
青少年python系列 41.面向对象-类2

青少年python系列目录_老程序员115的博客-CSDN博客青少年python教学视频ppt源码面向对象程序设计之所以被广泛使用且经久不衰，是因为你可以真真切切地按照现实生活…

人工智能 2023年6月29日
0079
Qt + OpenCV 目标检测（opencv自带xml文件）

文章目录 * – + 一、创建项目&UI设计 + * 文件类型判断 + 二、代码与演示 + * 演示效果一、创建项目&UI设计创建项目，UI设计如下…

人工智能 2023年7月9日
0077
＜人生重开模拟器＞——《Python项目实战》

目录 1.模拟实现 “人生重开模拟器” 1.1 问题导引： 1.2 问题分析： 2. 模拟实现分析及步骤： 3.完整源码： 4.写在最后的话：后记：●由于…

人工智能 2023年6月26日
0069

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

深度学习参数初始化（一）Xavier初始化 含代码

1. 各层激活值直方图

2.各层反向传播的梯度（关于状态的梯度）的分布情况

3. 各层参数梯度的分布情况

4.各层权重梯度方差的分布情况

大家都在看

深度学习参数初始化（一）Xavier初始化含代码