深度学习笔记之正则化、激活函数、卷积

2023年7月14日下午3:52 • 人工智能 • 阅读 69

文章目录

一. 正则化(Regularization)
*
1. L 1 L_1 L 1 、L 2 L_2 L 2 正则化
2. Dropout
3. 数据增强
4. 提前停止
5. 批标准化
二. 激活函数
*
1. 激活函数需要具备的性质
2. 死亡Relu问题
三. 卷积
*
1. 池化（pooling）
2.转置卷积
3.空洞卷积
参考

一. 正则化(Regularization)

正则化是一类通过限制模型复杂度，从而避免过拟合，提高泛化能力的方法。

1. L 1 L_1 L 1 、 L 2 L_2 L 2 正则化

在没有添加正则化项前，我们的损失函数是：J ( θ ; x , y ) J(\theta;x,y)J (θ;x ,y )。
而添加正则化后，相当于对损失函数引入了惩罚（约束条件），损失函数变为：J ^ ( θ ; x , y ) = J ( θ ; x , y ) + β Ω ( θ ) \hat J(\theta;x,y)=J(\theta;x,y)+\beta Ω(θ)J ^(θ;x ,y )=J (θ;x ,y )+βΩ(θ)。
其中：

θ \theta θ为训练参数;
x x x是输入;
y y y是输出;
β \beta β是超参数,对范数惩罚的贡献进行加权，从而影响正则化的效果;

L 2 L_2 L 2 正则化：

L 2 L_2 L 2 正则化又称为 岭回归或者 权重衰减，其表达式为：Ω ( θ ) = 1 2 ∣ ∣ w ∣ ∣ 2 2 Ω(θ)={1\over 2}||w||_2^2 Ω(θ)=2 1 ∣∣w ∣∣2 2 ，引入L 2 L_2 L 2 正则化后，我们的损失函数变为：
J ^ ( θ ; x , y ) = J ( θ ; x , y ) + β 2 ∣ ∣ w ∣ ∣ 2 2 \hat J(\theta;x,y)=J(\theta;x,y)+ {\beta\over 2}||w||_2^2 J ^(θ;x ,y )=J (θ;x ,y )+2 β∣∣w ∣∣2 2
损失函数的梯度计算为：
▽ w J ^ = ▽ w J + β w ▽_w\hat J=▽_wJ+\beta w ▽w J ^=▽w J +βw
对于w w w的更新则为：
w = ( 1 − α β ) w − α ▽ w J w=(1-\alpha \beta)w-\alpha▽_wJ w =(1 −αβ)w −α▽w J
其中α \alpha α为学习率，是超参数。

L 1 L_1 L 1 正则化：

L 2 L_2 L 2 正则化表达式为：Ω ( θ ) = ∣ ∣ w ∣ ∣ 1 Ω(θ)=||w||_1 Ω(θ)=∣∣w ∣∣1 ，引入L 2 L_2 L 2 正则化后，我们的损失函数变为：
J ^ ( θ ; x , y ) = J ( θ ; x , y ) + β ∣ ∣ w ∣ ∣ 1 \hat J(\theta;x,y)=J(\theta;x,y)+ \beta ||w||_1 J ^(θ;x ,y )=J (θ;x ,y )+β∣∣w ∣∣1
L 1 L_1 L 1 正则化与L 2 L_2 L 2 正则化：

对比：L 1 L_1 L 1 正则化会强制更多权重为零，而L 2 L_2 L 2 则是降低所有权重的平均大小。换句话说，L 1 L_1 L 1 建议应该从训练过程中丢弃一些特征。
结合使用：Ω ( θ ) = λ 1 ∣ ∣ w ∣ ∣ 1 + λ 2 ∣ ∣ w ∣ ∣ 2 2 Ω(θ)=\lambda_1||w||_1+\lambda_2||w||_2^2 Ω(θ)=λ1 ∣∣w ∣∣1 +λ2 ∣∣w ∣∣2 2

2. Dropout

dropout相当于是向模型注入噪声，不过这种噪声是注入到网络的隐藏层单元。
dropout是指在训练期间，一定数量的层输出会被随机丢弃。而在测试阶段，所有的单元都存在。

通过引入dropout增加了网络的稀疏性。
dropout有效地原因：

节点对其他节点的权重变得更加不敏感，因此模型更加健壮。如果一个隐藏单元必须与其他隐藏单元的不同组合一起工作，那么它更有可能做一些单独有用的事情。
Dropout 可以看作是对多个模型（”集成”）进行平均的一种形式。

; 3. 数据增强

数据增强指为我们的数据集生成新的训练示例的过程。更多的训练数据意味着更低的模型方差，也就是更低的泛化误差。
数据增强的方法：图像翻转、裁剪、旋转、平移、图像颜色修改、图像混合等

4. 提前停止

提前停止指当训练误差不再减小但验证误差开始上升时停止训练的过程。

; 5. 批标准化

本质上是注入噪声。它不是将每个隐藏单元与一个随机值相乘，而是将它们与小批量中所有隐藏单元的偏差相乘。它还在每一步从每个隐藏单元中减去一个随机值（小批量的平均值）。这两种”噪音”都会使模型更加健壮并减少其方差

二. 激活函数

引入激活函数的主要原因是让原本线性的模型变为非线性，使得模型能够处理线性不可分的问题，如异或问题。
由于之前已经写过常见的激活函数（relu，tanh，sigmoid），这篇文章就说点新的补充内容。

1. 激活函数需要具备的性质

连续并可导（允许少数点上不可导）的非线性函数。
激活函数及其导函数要尽可能的简单，有利于提高网络计算效率。
激活函数的值域要在一个合适的区间内，不能太大也不能太小，否则会影响训练的效率和稳定性。

2. 死亡Relu问题

什么是死亡Relu：
在训练过程中，如果参数在一次不恰当的更新后，第一个隐藏层中的某个Relu神经元在所有的训练数据上都不能被激活，那么这个神经元自身参数的梯度永远都会是0，以后的训练过程中永远不能被激活。

避免死亡Relu的方法：

使用 带泄露的Relu(Leaky Relu)， 带参数的Relu（Parametric Relu）等。

R e l u l e a k y = { x x > 0 λ x x ≤ 0 R e l u p a r a m e t i c = { x x > 0 α x x ≤ 0 \begin{aligned}Relu_{leaky}={\begin{cases}x&x>0\\lambda x& x≤0\end{cases}} &\qquad&Relu_{parametic}=\begin{cases}x&x > 0\\alpha x &x≤0\end{cases} \end{aligned}R e l u l e a k y ={x λx x >0 x ≤0 R e l u p a r a m e t i c ={x αx x >0 x ≤0

使用较小的学习率：较大的学习率导致负权重的可能性更高（从而增加了 ReLU 死亡的机会），因此在训练过程中降低学习率。

三. 卷积

1. 池化（pooling）

作用：进行特征选择，降低特征的数量，从而减少参数数量。

卷积与池化：卷积减少连接的数量，池化减少参数的数量。

1×1卷积：1×1卷积实际上是对每个像素点，在不同的channels上进行线性组合且保留了图片的原有平面结构，调控depth，从而完成升维或降维的功能。

最大池化（max pooling）与平均池化(average pooling)

最大池化仅提取数据最显着的特征； 平均池化平滑提取特征。
平均池化有时无法提取重要特征，因为它考虑了所有因素，并给出了可能重要或不重要的平均值； 最大池化只关注非常重要的特征。
平均池化鼓励网络识别对象的完整范围； 最大池化将其限制为仅非常重要的特征，并且可能会遗漏一些细节。

2.转置卷积

卷积操作实现了高维特征向低维特征的转换，而转置卷积则实现了将低维特征映射到高维特征。
具体来说，假设x x x是一个高维张量，z z z是一个低维张量，那么可以用仿射变换来实现高维到低维的映射。
z = W x z=Wx z =W x
而我们很容易地通过转置W W W来实现低维到高维的映射。
x = W T z x=W^Tz x =W T z
卷积操作可以写成仿射变化的形式，例如：
z = w ⊗ x = [ w 1 w 2 w 3 0 0 0 w 1 w 2 w 3 0 0 0 w 1 w 2 w 3 ] x = C x \begin{aligned}z&=w⊗x \&=\begin{bmatrix} w_1&w_2&w_3&0&0\ 0&w_1&w_2&w_3&0 \0&0&w_1&w_2&w_3\end{bmatrix}x \&=Cx\end{aligned}z =w ⊗x =⎣⎡w 1 0 0 w 2 w 1 0 w 3 w 2 w 1 0 w 3 w 2 0 0 w 3 ⎦⎤x =C x
其中:

w = [ w 1 , w 2 , w 3 ] T w=[w_1,w_2,w_3]^T w =[w 1 ,w 2 ,w 3 ]T
⊗ ⊗⊗表示卷积操作

那么转置卷积就有：

z = C T x = [ w 1 0 0 w 2 w 1 0 w 3 w 2 w 1 0 w 3 w 2 0 0 w 3 ] x = r o t 180 ( w ) ⊗ ^ x \begin{aligned}z&=C^Tx \&=\begin{bmatrix} w_1&0&0\ w_2&w_1&0 \w_3&w_2&w_1 \0&w_3&w_2 \0&0&w_3\end{bmatrix}x \&=rot180(w)\hat⊗x\end{aligned}z =C T x =⎣⎢⎢⎢⎢⎡w 1 w 2 w 3 0 0 0 w 1 w 2 w 3 0 0 0 w 1 w 2 w 3 ⎦⎥⎥⎥⎥⎤x =r o t 1 8 0 (w )⊗^x
转置卷积的示意图：

; 3.空洞卷积

定义：
空洞卷积是一种不增加参数数量，同时增加输出单元感受野的一种方法，也称为膨胀卷积。

实现：
空洞卷积通过给卷积核插入”空洞”来变相地增加其大小。如果在卷积核的每两个元素之间插入D − 1 D-1 D −1个空洞，则卷积核的有效大小为：
K ^ = K + ( K − 1 ) × ( D − 1 ) \hat K= K+(K-1)×(D-1)K ^=K +(K −1 )×(D −1 )
其中D D D称为膨胀率，当D = 1 D=1 D =1时卷积核为普通卷积核。

参考

Original: https://blog.csdn.net/weixin_43938099/article/details/123714261
Author: 刘皮狠
Title: 深度学习笔记之正则化、激活函数、卷积

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/692372/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

np.arange()和np.linspace()绘制logistic回归图像时得到不同的结果？

1.公式 logistic回归函数的公式： logistic回归函数的导数公式： σ'(x) = σ(x) * ( 1 – σ(x) ) 2.np.arange()函数…

人工智能 2023年6月17日
00154
Pandas 基础(8) – 用 concat 组合 dataframe

以各个城市的天气为例, 先准备下面的数据: 印度天气的相关信息: import pandas as pd india_weather = pd.DataFrame({ ‘city’…

人工智能 2023年6月2日
0067
YOLO训练KITTI数据集（二）：KITTI数据集的标签转换成YOLOv5所需要的标签格式并进行分割

1.对数据集标签进行合并 modify_annotations_txt.py。这里忽略了Dontcare、Misc并将Person_sitting类合并到了Pedestrian类，…

人工智能 2023年7月12日
0092
No module named ‘torch_geometric‘解决办法

写在前面 1 不能简单的直接pip install torch_geometric或者 conda install torch_geometric2 直接安装，到后面调用的时候还是…

人工智能 2023年6月17日
0067
ArcMap对多年 NDVI 进行线性趋势和F显著性检验

1方法 1.1 趋势分析采用一元线性回归分析和最小二乘法，逐像元拟合近n年间遥感影像每个栅格NDVI的斜率Slope，得到多年NDVI的变化趋势，综合分析流域多年植被覆盖变化额方…

人工智能 2023年6月18日
0084
OpenCV函数用法之calibrateCamera

参考链接：opencv中标定函数calibrateCamera_ychl87的专栏-CSDN博客 OpenCV相机标定calibrateCamera坐标系详解_shenxiaolu…

人工智能 2023年6月18日
00101
入门深度学习—从配置python到网络模型

### 回答1：深度学习_是一种通过算法模拟人类神经系统中神经元之间的连接，进行复杂的数据处理和分析的技术。 _深度学习_广泛应用于图像识别，自然 _语言_处理，语音识别，推荐系…

人工智能 2023年6月29日
0089
python基础：循环语句

循环语句就是在符合条件的情况下，重复执行一个代码段，python中的循环语句有while和for。一、while循环 ; 1.while是一个条件循环语句，与if一样，他也有条件…

人工智能 2023年7月4日
0082
语音识别从入门到进阶一文末附项目/源码

嗨，大家我，欢迎来到AI+语音专栏，本专栏长期更新，每篇文章必备干货，文章附带大量的算法原理+代码实现教学，欢迎关注，一起AI。语音识别原理首先是语音识别和语音唤醒的任务。一听…

人工智能 2023年5月27日
0059
Pytorch Softmax 多分类

Softmax 0. 环境介绍环境使用 Kaggle 里免费建立的 Notebook 教程使用李沐老师的动手学深度学习网站和视频讲解小技巧：当遇到函数看不懂的时候可以按 …

人工智能 2023年7月1日
0062
用MATLAB实现一个数字图像加密解密系统

需要源码的加我Q：1064611704演示视频：https://www.bilibili.com/video/BV1uV4y167VL/?spm_id_from=333.999.0…

人工智能 2023年6月18日
0070
Odyssey 2022 | 希尔贝壳受邀参加国际顶级说话人和语种识别研讨会

Odyssey （说话人和语种识别研讨会）2022 将于2022年6月28日至7月1日在中国北京举办，会议将采用hybrid的形式，国内均线下（在北京市郊长城脚下的古北水镇），国外…

人工智能 2023年5月25日
0088
基于AI的语音信号处理技术

语音信号处理的目的就是在复杂的语音环境中提取有效的语音信息。一、语音信号技术思想及原理分析语音唤醒的原理是让模型学习特定唤醒词的语音信号特征，当输入设备捕捉到一定阈值范围内的…

人工智能 2023年5月25日
0090
SegFormer论文记录（详细翻译）

SegFormer 论文记录代码：GitHub – NVlabs/SegFormer: Official PyTorch implementation of SegF…

人工智能 2023年6月17日
0089
Python——基于最小二乘法和最大似然法的回归分析方程中系数的估计

一、引言一元线性回归：涉及的变量只有一个多元线性回归：涉及的变量两个或两个以上预测结果与真实值是有一定的误差（如图）：本文以y=-2x+8的数据进行拟合为例，给出了利用最小…

人工智能 2023年6月17日
0076
币核E姐有约｜开阔AI的认知，EpiK Protocol如何构建人类永恒知识库

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月1日
0083

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31