深度学习参数初始化（二）Kaiming初始化含代码

2023年6月23日下午10:21 • 人工智能 • 阅读 70

深度学习参数初始化系列：

一、介绍

Kaiming初始化论文地址：https://arxiv.org/abs/1502.01852

Xavier初始化在ReLU层表现不好，主要原因是relu层会将负数映射到0，影响整体方差。而且Xavier初始化方法适用的激活函数有限：要求关于0对称；线性。而ReLU激活函数并不满足这些条件，实验也可以验证Xavier初始化确实不适用于ReLU激活函数。所以何恺明在对此做了改进，提出Kaiming初始化，一开始主要应用于计算机视觉、卷积网络。

二、基础知识

1.假设随机变量X和随机变量Y相互独立，则有

(1)

2.通过期望求方差的公式, 方差等于平方的期望减去期望的平方.

(2)

3.独立变量乘积公式

(3)

4.连续性随机变量X的概率密度函数为f(x)，若积分绝对收敛,则期望公式如下：

(4)

三、Kaiming初始化的假设条件

与Xavier初始化相似，Kaiming初始化同样适用Glorot条件，即我们的初始化策略应该使得各层的激活值和状态梯度的方差在传播过程中的方差保持一致;Kaiming初始化的参数仍然满足均值是0，且更新的过程中权重的均值一直是0。

与Xavier初始化不同的，Kaiming初始化不在要求每层输出均值都是0（因为Relu这样的激活函数做不到啊）；当然也不再要求f′(0)=1。

Kaiming初始化中，前向传播和反向传播时各自使用自己的初始化策略，但是保证前向传播时每层的方差和反向传播时梯度的方差都是1。

四、 Kaiming初始化的 简单的公式推导

我们使用卷积来进行推导，并且激活函数使用ReLU。

1. 前向传播

对于一层卷积，有：

(5)

其中

是激活函数前的输出，

是权重的个数,

是权重，

是输入。

根据(3)式，可将(4)式推导为：

(6)

根据假设

,但是

是上一层通过ReLU得到的,所以

,则：

（7）

通过(2)式可得

，则（7）式推导为：

(8)

根据期望公式（4）, 通过第

层的输出来求此期望, 我们有

, 其中

表示ReLU函数.

(9)

其中

表示概率密度函数，因为

的时候

,所以可以去掉小于0的区间, 并且大于0的时候

,可推出：

（10）

因为

是假设在0周围对称分布且均值为0, 所以

也是在0附近分布是对称的, 并且均值为0(此处假设偏置为0)，则

（11）

所以

的期望是：

（12）

根据公式(2),因为

的期望等于0，于是有：

则式（12）推导为：

（13）

将(13)式带入(8)式：

(14)

从第一层一直往前进行前向传播, 可以得到某层的方差为 :

这里的

就是输入的样本, 我们会将其归一化处理, 所以

, 现在让每层输出方差等于1, 即:

于是正向传播时，Kaiming初始化的实现就是下面的均匀分布：

高斯分布：

2.反向传播

因为反向传播的时候

(15)

其中

表示损失函数对其求导.

为参数

根据（3）式：

其中

表示反向传播时输出通道数，最后得出

于是反向传播时，Kaiming初始化的实现就是下面的均匀分布：

高斯分布：

五、Pytorch实现

import torch

class DemoNet(torch.nn.Module):
    def __init__(self):
        super(DemoNet, self).__init__()
        self.conv1 = torch.nn.Conv2d(1, 1, 3)
        print('random init:', self.conv1.weight)
        '''
            kaiming 初始化方法中服从均匀分布 U～（-bound, bound）, bound = sqrt(6/(1+a^2)*fan_in)
            a 为激活函数的负半轴的斜率，relu 是 0
            mode- 可选为 fan_in 或 fan_out, fan_in 使正向传播时，方差一致; fan_out 使反向传播时，方差一致
            nonlinearity- 可选 relu 和 leaky_relu ，默认值为 。 leaky_relu
        '''
        torch.nn.init.kaiming_uniform_(self.conv1.weight, a=0, mode='fan_out')
        print('xavier_uniform_:', self.conv1.weight)

        '''
            kaiming 初始化方法中服从正态分布，此为 0 均值的正态分布，N～ (0,std),其中 std = sqrt(2/(1+a^2)*fan_in)
            a 为激活函数的负半轴的斜率，relu 是 0
            mode- 可选为 fan_in 或 fan_out, fan_in 使正向传播时，方差一致;fan_out 使反向传播时，方差一致
            nonlinearity- 可选 relu 和 leaky_relu ，默认值为 。 leaky_relu
        '''
        torch.nn.init.kaiming_normal_(self.conv1.weight, a=0, mode='fan_out')
        print('kaiming_normal_:', self.conv1.weight)

if __name__ == '__main__':
    demoNet = DemoNet()

Original: https://blog.csdn.net/xian0710830114/article/details/125735197
Author: 小殊小殊
Title: 深度学习参数初始化（二）Kaiming初始化含代码

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/648009/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

关于解决pip成功下载模块后，pycharm导入模块出现找不到模块的问题

问题 ModuleNotFoundError: No module named ‘visdom’导入模块时，报错模块’visdom’…

人工智能 2023年7月6日
0059
《Python实例》震惊了，用Python这么简单实现了聊天系统的脏话，广告检测

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月27日
0056
知识图谱学习笔记（1）

（1）知识图谱概述知识图谱的发展史 Cyc，常识知识库，由术语和断言组成，术语包括概念，关系和实体。断言包括事实和规则 Schema.org 提供一个词语本体，用来描述语义标签。…

人工智能 2023年6月10日
0090
在Anaconda Jupyter Notebook中如何安装Pytorch

在Anaconda Jupyter Notebook中如何安装Pytorch pytorch环境 pytorch安装验证是否安装成功 torch.cuda.is_availabl…

人工智能 2023年7月22日
0098
Pandas-数据结构-DataFrame（二）：DF的属性【形状/shape、行索引/index、列索引/columns、查看值/values、转置/T、head.()、tail.()】

DataFrame是一个类似于二维数组或表格(如excel)的对象，既有行索引，又有列索引行索引，表明不同行，横向索引，叫index，0轴，axis=0 列索引，表名不同列，纵向…

人工智能 2023年7月6日
0080
IBM SPSS Statistics描述性统计分析使用教学

本文主要将从描述性统计的定义、描述性统计的应用场景、怎么进行描述性统计三个方面来介绍描述性统计。首先描述性统计是用来计算变量之间的差异，一般用平均值、方差、标准差这些数学公式来计…

人工智能 2023年7月9日
0080
前沿重器[31] | 理性聊聊ChatGPT

前沿重器栏目主要给大家分享各种大厂、顶会的论文和分享，从中抽取关键精华的部分和大家分享，和大家一起把握前沿技术。具体介绍：。（算起来，专项启动已经是20年的事了！） 2022年的…

人工智能 2023年7月31日
0052
并查集必背模板

class UnionFind{ public: UnionFind(int n){ parent = vector(n); rank = vector(n); for(int i…

人工智能 2023年6月4日
0066
stata行logistic回归交互项（交互作用）的可视化分析(1)

交互作用效应(p for Interaction)在SCI文章中可以算是一个必杀技，几乎在高分的SCI中必出现，因为把人群分为亚组后再进行统计可以增强文章结果的可靠性，不仅如此，交…

人工智能 2023年6月19日
0072
时间序列预测——ARIMA模型

文章链接： ARIMA 模型 ARIMA （p，i，q）模型全称为差分自回归移动平均模型（Autoregressive Integrated Moving Average Mode…

人工智能 2023年6月16日
0081
数据预处理概述和开发工具

目录 1、什么是数据预处理 2、常见的数据问题 3、数据预处理的流程 4、常用的数据预处理库 5、开发工具与环境 1.安装jupyter 2.使用jupyter 3.安装数据预处理…

人工智能 2023年7月15日
0062
前馈神经网络（Feedforward neural network）

前馈神经网络（FNN）是一种人工神经网络，其中节点之间的连接不形成循环。因此，它不同于它的后代：递归神经网络。在前馈网络中，信息总是向一个方向移动；它从不倒退。前馈神经网络是设…

人工智能 2023年6月15日
0062
一种RuntimeError Key bert/embeddings/position_embeddings not found in checkpoint的解决思路

一种RuntimeError: Key bert/embeddings/position_embeddings not found in checkpoint的解决思路注意：这个…

人工智能 2023年5月24日
0093
知识图谱 | 存储与可视化篇

知识图谱 | 存储与可视化篇 1 知识图谱基础知识 * 1.1 数据模型 – 1.1.1 RDF图 1.1.2 属性图 1.2 查询语言 2 知识图谱存储方法 * 2….

人工智能 2023年6月1日
0097
机器学习之逻辑回归（Logistic Regression）

在公众号「 python风控模型」里回复关键字：学习资料大家好！大家好，今天我们将看到机器学习技术中一个有趣的算法，称为逻辑回归。因此，在进入主题之前，我们需要复习一些基本术语…

人工智能 2023年6月18日
0097
gym如何搭建自己的环境

如何使用gym库来搭建自己的环境 1.创建自己的环境文件夹 1.1找到gym库的位置这里提供2种方法来寻找gym库： ①用anaconda或者miniconda安装：这种方法可…

人工智能 2023年6月17日
0071

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

深度学习参数初始化（二）Kaiming初始化 含代码

1. 前向传播

2.反向传播

大家都在看

深度学习参数初始化（二）Kaiming初始化含代码