对于神经网络参数初始化的一些理解

2023年7月16日下午8:01 • 人工智能 • 阅读 62

参数初始化

*
– 动机
– 1. 预训练初始化
– 2. 随机初始化
–
+ 2.1 高斯（Gaussian）分布初始化
+ 2.2 均匀分布初始化
+ 2.3 根据范数保持性（Norm-Preserving）
+
* 2.3.1 通过方差缩放的方式
* 2.3.2 正交初始化
– 3. 固定值初始化
– 4. 混合初始化

动机

神经网络本身是个非凸优化问题，并且容易出现梯度消失情况，因此参数初始化是很重要的。
注意神经网络的参数初始化不能为0，因此如果为0的话，同一层的神经元就是一个固定的输出值，一直到最后的输出值，无法区分每个神经元的行为，因此无法表示出神经元的能力。

1. 预训练初始化

先在大量数据上预训练（pre-train）一个骨干网络（backbone），然后把骨干网络，在不同的下游任务上进行微调（fune-turning）。

2. 随机初始化

直接对所有的参数随机进行初始化。

2.1 高斯（Gaussian）分布初始化

参数从一个固定均值（比如0）和固定方差（比如0.01）的高斯分布上进行随机初始化。

2.2 均匀分布初始化

参数可以在区间[ − r , r ] [-r, r][−r ,r ]内采用均匀分布进行初始化。为了优化的高效，不能采用很大的参数，比如饱和型的激活函数，容易直接产生梯度消失。

2.3 根据范数保持性（Norm-Preserving）

一个M层的等宽线性网络：
为了避免梯度消失或者梯度爆炸问题，希望误差项通过范数保持性来估计：

; 2.3.1 通过方差缩放的方式

由最左边的误差项跟最右边的误差项的模既不放大也不缩小，所以通过让他们乘起来等于单位阵I I I。
例如Xavier初始化和He初始化。

通过正交初始化的方式：直接找到一组正交的w w w，让他们相乘等于单位阵I I I。

2.3.2 正交初始化

用均值为0、方差为1的高斯分布初始化一个矩阵，将该矩阵用奇异值分解得到两个正交矩阵，使用其一作为权重矩阵。通常用在循环神经网络的hidden state到hidden state之间的连接权重上。

; 3. 固定值初始化

有些参数比较重要，需要用特定的值进行初始化，比如偏置（bias）通常需要初始化为0、或者循环神经网络（RNN）里的遗忘门（forget gate）。

4. 混合初始化

混合采用以上的初始化方式，对不同部分的参数进行不同方法的初始化方法。

Original: https://blog.csdn.net/qq_37320017/article/details/124394776
Author: YunGo
Title: 对于神经网络参数初始化的一些理解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/697122/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习——手动实现残差网络ResNet 辛普森一家人物识别

深度学习——手动实现残差网络辛普森一家人物识别目标通过深度学习，训练模型识别辛普森一家人动画中的14个角色最终实现 92%-94%的识别准确率。数据 ResNet介绍论…

人工智能 2023年6月6日
0084
Pytorch以及tensorflow中KLdivergence的计算

KL 散度是一个距离衡量指标，衡量的是两个概率分布之间的差异。y p r e d y_{pred}y p r e d 指的是模型的输出的预测概率，形如[0.35,0.25,0.4…

人工智能 2023年5月25日
0089
毕设系列-检测专题-基于YOLOV5的手势识别系统

毕设系列-基于YOLOV5的手势识别系统我们之前做过一期基于Yolov5的口罩检测系统（手把手教你使用YOLOV5训练自己的目标检测模型-口罩检测-视频教程_dejahu的博客-…

人工智能 2023年7月28日
0070
使用PyTorch Geometric构建自己的图数据集

1.如何制作自己的图数据创建一个图，信息如下：定义数据:x是每个点的输入特征，y是每个点的标签。x的维度为[M,F]，M表示结点数，F表示特征个数 x = torch.tens…

人工智能 2023年6月30日
0054
图像分类、目标检测、图像分割—-简介

（1）MNIST：10个类别，手写数字体数据集，6万条训练数据和1万条测试数据，28*28的灰度图；（2）FashionMNIST：10个类别，6万条训练数据和1万条测试数据，2…

人工智能 2023年7月10日
0069
matlab插值拟合

拟合运用matlab提供的工具箱，在APP的CurveFitting里面 ; 插值一维插值函数介绍在这里我们介绍interp1函数的用法：yi=interp1（x，y，xi…

人工智能 2023年6月18日
0083
【自然语言处理】【聚类】基于对比学习的聚类算法SCCL

基于对比学习的聚类算法SCCL 相关博客：【自然语言处理】【聚类】基于神经网络的聚类算法DEC【自然语言处理】【聚类】基于对比学习的聚类算法SCCL【自然语言处理】【聚类】DCSC…

人工智能 2023年5月27日
0087
python绘制热力图

1.seaborn 绘制热力图官方说明：https://seaborn.pydata.org/generated/seaborn.heatmap.html 语法： seaborn….

人工智能 2023年7月5日
0077
数字图像处理——RGB与HSV图像互相转换原理

01 RGB与HSV介绍讲RGB图与HSV图的互相转换之前，我们先分别介绍一下这两种图像。 *首先是RGB图像 RGB图像是一种三通道图像，通常用于表示彩色图，它由相同行、列的红…

人工智能 2023年6月17日
00173
在线会议中人脸面部轮廓图像提取（三）——Dlib库人脸面部轮廓图像特征提取

前言：所使用图片并无盈利等目的，如有侵犯他人肖像权请联系删除。当当当当，第三期来廖！接上一期在线会议中人脸面部轮廓图像提取（二）——HOG人脸面部轮廓图像特征提取，介绍完HOG特…

人工智能 2023年6月18日
00101
R语言从列表中移除元素、删除列表中的指定元素（单个元素或者多个元素）

基础篇 1、算法有哪些特点？它有哪些特征？它和程序的主要区别是什么？ 2、算法的时间复杂度指的是什么？如何表示？ 3、算法的空间复杂度指的是什么？如何表示？ 4、什么是最坏…

人工智能 2023年6月19日
0093
机器学习（十五）异常检测

Log 2022.03.10开始第十五章的学习，先开个头，看样子肯定还要花不少时间。咱家这两天成中高风险区了，不出意外的话以后要待在宿舍上网课了。2022.03.11把书本从研究院…

人工智能 2023年7月27日
0043
【opencv-python测量物体的实际大小】使用opencv-python测量物体的实际大小

效果 ; 第一步，进行轮廓提取，将图片转化为灰度图，然后进行高斯模糊，模糊后提取轮廓，然后进行膨胀收缩使轮廓更加的清晰 def getContours(img): img = cv…

人工智能 2023年5月26日
0089
2021SC@SDUSC山东大学软件学院软件工程应用与实践——yolov5代码分析——第六篇——train.py(2)

2021SC@SDUSC main函数请不要忽视代码中的注释 def main(opt, callbacks=Callbacks()): # Checks set_logging…

人工智能 2023年5月25日
0090
pytorch avg_pool2d

avg_pool2d用法首先看一下官方文档解释 input ：输入张量 kernel_size ：pool的大小，可以是一个单个数字，也可以是一个tuple，如果是单个数字，例如…

人工智能 2023年5月28日
0071
Yolov4-tiny pth转onnx转tensorrt

Yolov4-tiny pth模型转换成onnx Yolov4-tiny模型参考链接 trt加载推理代码提取码：ou91 载入模型并完成转换 def pth2onnx(pth_m…

人工智能 2023年7月10日
0098

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31