神经网络参数初始化方法

2023年7月13日下午11:34 • 人工智能 • 阅读 65

神经网络训练的过程就是对网络权重不断学习更新的过程，网络初始权重对网络的训练非常重要。不合适的初始化方法可能会导致网络参数传播过程中产生梯度消失、梯度爆炸等现象。

常用的初始化方法有随机初始化、Xavier初始化、he初始化等

1 零初始化

对于逻辑回归，网络权重是可以初始化为0的；对于深度神经网络，网络权重和偏置是不可以一起初始化为0的，不然会造成每层的网络所有节点输出是一致的，具体分析可以参考神经网络权重为什么不能初始化为0？。

2 随机初始化

随机初始化的时候常常采用高斯或均匀分布初始化网络权重。这种方法相对0初始化要好许多，但是在遇到激活函数为sigmoid / tanh的时候，可能会出现梯度消失和梯度爆炸现象。

以四层网络，参数为w 1 , b 1 , w 2 , b 2 , w 3 , b 3 , w 4 , b 4 w_1, b_1, w_2, b_2, w_3, b_3, w_4, b_4 w 1 ,b 1 ,w 2 ,b 2 ,w 3 ,b 3 ,w 4 ,b 4 ，激活函数为sigmoid，σ ( x ) = 1 1 + e − x \sigma(x) = \frac{1}{1+e^{-x}}σ(x )=1 +e −x 1 。

y i = σ ( z i ) y_i = \sigma(z_i)y i =σ(z i )

z i = w i y i − 1 + b i z_i = w_i y_{i-1} + b_i z i =w i y i −1 +b i

sigmoid函数求导数σ ′ = σ ( 1 − σ ) \sigma^{‘} = \sigma (1-\sigma)σ′=σ(1 −σ)后，峰值为0.25；损失函数C对b 1 b_1 b 1 的导数为

∂ C ∂ b 1 = ∂ C ∂ y 4 ∂ y 4 ∂ z 4 ∂ z 4 ∂ y 3 ∂ y 3 ∂ z 3 ∂ z 3 ∂ y 2 ∂ y 2 ∂ z 2 ∂ z 2 ∂ y 1 ∂ y 1 ∂ z 1 ∂ z 1 ∂ b 1 = ∂ C ∂ y 4 σ ( z 4 ) ′ w 4 σ ( z 3 ) ′ w 3 σ ( z 2 ) ′ w 2 σ ( z 1 ) ′ 1 \frac{\partial C}{\partial b_1} = \frac{\partial C}{\partial y_4} \frac{\partial y_4}{\partial z_4} \frac{\partial z_4}{\partial y_3} \frac{\partial y_3}{\partial z_3} \frac{\partial z_3}{\partial y_2} \frac{\partial y_2}{\partial z_2} \frac{\partial z_2}{\partial y_1} \frac{\partial y_1}{\partial z_1} \frac{\partial z_1}{\partial b_1} = \frac{\partial C}{\partial y_4} \sigma(z_4)^{‘} w_4 \sigma(z_3)^{‘} w_3 \sigma(z_2)^{‘} w_2 \sigma(z_1)^{‘} 1 ∂b 1 ∂C =∂y 4 ∂C ∂z 4 ∂y 4 ∂y 3 ∂z 4 ∂z 3 ∂y 3 ∂y 2 ∂z 3 ∂z 2 ∂y 2 ∂y 1 ∂z 2 ∂z 1 ∂y 1 ∂b 1 ∂z 1 =∂y 4 ∂C σ(z 4 )′w 4 σ(z 3 )′w 3 σ(z 2 )′w 2 σ(z 1 )′1

sigmoid 函数对于大到10的值，sigmoid的值几乎是1，对于小到-10的值，sigmoid的值几乎为0。意味着如果权值矩阵被初始化成过大的值，权重w i w_i w i 连乘会出现梯度爆炸的现象，反之，当权值矩阵被初始化成太小的值，可能会出现梯度消失

3 Xavier初始化

Xavier初始化通过保持输入和输出的方差一致（服从相同的分布）避免梯度消失和梯度爆炸问题，使得信号在神经网络中可以传递得更深，在经过多层神经元后保持在合理的范围（不至于太小或太大）。

xavier均匀分布

w ∼ U [ − 6 n i n + n o u t , 6 n i n + n o u t ] w \sim U[-\frac{\sqrt{6}}{\sqrt{n_{in}+n_{out}}},\frac{\sqrt{6}}{\sqrt{n_{in}+n_{out}}}]w ∼U [−n i n +n o u t 6 ,n i n +n o u t 6 ]

xavier正态分布

w ∼ N [ m e a n = 0 , s t d = 2 n i n + n o u t ] w \sim N[mean=0, std=\frac{\sqrt{2}}{\sqrt{n_{in}+n_{out}}}]w ∼N [m e a n =0 ,s t d =n i n +n o u t 2 ]

适用于激活函数为tanh的深层网络，但不适用于RELU

4 He初始化

He初始化解决的问题：ReLU网络每一层有一半的神经元被激活，另一半为0（x负半轴中是不激活的），所以要保持variance不变，只需要在Xavier的基础上再除以2。

He均匀分布

w ∼ U [ − 6 2 n i n + n o u t , 6 2 n i n + n o u t ] w \sim U[-\frac{\sqrt{6}}{2\sqrt{n_{in}+n_{out}}},\frac{\sqrt{6}}{2\sqrt{n_{in}+n_{out}}}]w ∼U [−2 n i n +n o u t 6 ,2 n i n +n o u t 6 ]

He正态分布

$$w \sim N[mean=0, std=\frac{\sqrt{2}}{\sqrt{n_{in}}}]$$

参考

1、参数初始化

2、网络权重初始化方法总结

欢迎关注微信公众号（算法工程师面试那些事儿)，本公众号聚焦于算法工程师面试，期待和大家一起刷leecode，刷机器学习、深度学习面试题等，共勉～

Original: https://blog.csdn.net/qq_40006058/article/details/122809231
Author: 十三吖
Title: 神经网络参数初始化方法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/690846/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

盘点Visual Studio 2022 17.4 给C++开发者带来的新东西

今天，我们很高兴地宣布，Visual Studio 2022 17.4版本正式可用。这篇文章，我将盘点一下那些对C++开发者相关的一些新功能。 Arm64 在17.3版本中，Vis…

人工智能 2023年6月28日
0068
制作数据集—labelImg和labelme

labelImg 首先安装labelImg在Ancconda环境中 pip install labelImg即可然后直接在conda环境中运行 labelImg即可打开软件、软件非…

人工智能 2023年7月3日
00112
C++常用的图像像素值读写的方法

Index 目录索引写在前面先修知识使用at()函数访问像素值使用Mat的成员函数ptr< >( )访问像素值案例演示参考文章写在前面做CV领域的小伙伴…

人工智能 2023年7月18日
0062
从tushare建立自己的A股 qlib数据库

百天计划之第24天，关于”智能量化，财富自由与个人成长”。继续昨天基于tushare和mongo，玩转qlib自带的数据库，继续构建我们的数据库。 01 …

人工智能 2023年7月7日
0049
SAHI强化YOLOv5在小目标上的表现

环境 ubuntu 18.04 64bit sahi 0.8.4 yolov5 5.0 pytorch 1.7.1+cu101 前言目标检测和实例分割是迄今为止计算机视觉中最重要…

人工智能 2023年6月16日
0083
KITTI自动驾驶数据集的点云多种视图可视化

如有错误，恳请指出。在本地上，可以安装一些软件，比如：Meshlab，CloudCompare等3D查看工具来对点云进行可视化。而这篇博客是将介绍一些代码工具将KITTI数据集进…

人工智能 2023年7月26日
0074
阅读笔记|Ensemble Learning for Multi-Source Neural Machine Translation

原文链接: Ensemble Learning for Multi-Source Neural Machine Translation Abstract 本文描述和评价了神经机器翻…

人工智能 2023年5月28日
0099
Lesson 17.11 案例一：SVHN街道实景门牌识别

三【案例】SVHN街道实景门牌识别 SVHN全称Street View House Number数据集，它是深度学习诞生初期被创造出来的众多数字识别数据集中的一个，也是唯一一个基…

人工智能 2023年5月26日
0077
[Python人工智能] 二十六.基于BiLSTM-CRF的医学命名实体识别研究（上）数据预处理

这篇文章写得很冗余，但是我相信你如果真的看完，并且按照我的代码和逻辑进行分析，对您以后的数据预处理和命名实体识别都有帮助，只有真正对这些复杂的文本进行NLP处理后，您才能适应更多的…

人工智能 2023年6月1日
00101
数学建模竞赛常考四大模型总结【预测模型、分类模型、优化模型、评价模型】

预测和分类本质上没啥区别，都是找到一个合适的函数做预测/分类。所以能做预测的模型多半可以做分类。 1.1 神经网络预测条件：大量数据（题目给出大量数据时，就算题中没有要求进行数…

人工智能 2023年6月15日
0096
Opencv c++（图像处理）

目录一、图像读取与显示二、图像预处理高斯模糊的原理与算法 Canny边缘检测三、图像裁剪四、绘制形状和添加文本五、透视变换六、颜色检测七、形状检测和轮廓检测八、人…

人工智能 2023年6月20日
0063
机器学习之线性回归算法Linear Regression（python代码实现）

线性回归（Linear Regression）是一种非常简单、用处非常广泛、含义也非常容易理解的一类经典的算法，非常合适作为机器学习的入门算法。线性回归就是拟合出一个线性组合关系…

人工智能 2023年6月13日
00110
AI杀疯了，NovelAI开源视频教程来了，一键安装

大家好，我是 Jack。在 CSDN 发的上篇文章火了，我看有很多人想看视频版的。这就安排上了。看完本期视频，你也能用 AI 工具做出的效果，有些还是很惊艳的：这回弄了一个…

人工智能 2023年7月28日
0086
深度学习主干网络-VGG16论文网络实现，参数介绍，数据处理，单通道，多通道数据，最大池化可视化。带源码。

VGG16卷积网络详解机器学习基础知识：1.相对熵(KL散度)：两个概率分布（probability distribution）间差异的非对称性度量衡量任意一个分布偏离真实分布的程…

人工智能 2023年7月13日
0073
相机标定—— 张正友标定法（1）

一、相机标定的目的我们首先要明白两个问题：1、相机是如何成像的？2、相机标定的目的是什么？ 1. 相机的成像过程与坐标系的转换相机的成像过程涉及了 4 种坐标系与 3 种变换关…

人工智能 2023年6月10日
0084
【技术分享】什么是K折交叉验证？

训练集，即：训练的集合，是用来训练模型的数据集合。通过这部分数据， 学习得到一个模型。训练集可以当做高中刷题的题库，训练的过程可以比作高…

人工智能 2023年6月15日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

神经网络参数初始化方法

参考

大家都在看