深度学习相关概念：过拟合与欠拟合

2023年6月15日上午5:53 • 人工智能 • 阅读 84

深度学习相关概念：过拟合与欠拟合

1.过拟合与欠拟合
2.应对过拟合
*
2.1最优方案
2.1次优方案
–
- 2.1.1L2正则化
- 2.1.2Dropout 随机失活
3.应对欠拟合
*
3.1解决方案：

更多Ai资讯：公主号AiCharm

在神经网络中，我们常常听到过拟合与欠拟合这2个名词，他们到底是什么意思呢？

; 1.过拟合与欠拟合

过拟合：
是指学习时选择的模型所包含的参数过多，以至于出现这一模型对已知数据预测的很好，但对未知数据预测得很差的现象。这种情况下模型可能只是记住了训练集数据，而不是学习到了数据特征。
欠拟合：
模型描述能力太弱，以至于不能很好地学习到数据中的规律。产生欠拟合的原因通常是模型过于简单。

我们要知道机器学习的根本问题是解决优化和泛化的问题。
优化:
是指调节模型以 在训练数据上得到最佳性能。
泛化:
是指训练好的模型 在前所未见的数据(测试集)上的性能好坏。

2.应对过拟合

2.1最优方案

获取更多的训练数据。只要给足够多的数据，让模型学习尽可能多的情况，它就会不断修正自己，从而得到更好的结果。就类似于当初参加高考的你，训练数据就类比是你在刷题，当你刷了非常非常多的题，并学会他们的特征，那么你应对高考则是游刃有余了。

如何获取更多数据，可以有以下几个方法：

从数据源头获取更多数据。
根据当前数据集估计数据分布参数， 使用该分布产生更多数据：这个一般不用，因为估计分布参数的过程也会代入抽样误差。
数据增强（Data Augmentation）：通过一定规则扩充数据。如在物体分类问题里，物体在图像中的位置、姿态、尺度，整体图片明暗度等都不会影响分类结果。我们就可以通过图像平移、翻转、缩放、切割等手段将数据库成倍扩充。

但是获取到 有效的数据往往是非常困难的，代价很大（所以在多数情况下不使用此方案）。那么有没有代价适中，又可以解决过拟合的方案呢？

2.1次优方案

调节模型允许存储的信息量或者 对模型允许存储的信息加以约束，该类方法也称为 正则化。即：

调节模型大小
约束模型权重，即权重正则化（在机器学习中一般使用 L2正则化）
随机失活（Dropout）

2.1.1L2正则化

总损失：
L ( W ) = 1 N ∑ i L i ( f ( x i , W ) , y i ) ⏟ + λ R ( W ) ⏟ L(W)=\underbrace{\frac{1}{N} \sum_{i} L_{i}\left(f\left(x_{i}, W\right), y_{i}\right)}+\underbrace{\lambda R(W)}L (W )=N 1 i ∑L i (f (x i ,W ),y i )+λR (W )
数据损失权重正则损失
L2正则损失 :
R ( W ) = ∑ k ∑ l W k , l 2 R(W)=\sum_{k} \sum_{l} W_{k, l}^{2}R (W )=k ∑l ∑W k ,l 2
L2正则损失对于大数值的权值向量进行严厉惩罚， 鼓励更加分散的权重向量，使模型倾向于 使用所有输入特征做决策，此时的模型泛化性能好！

2.1.2Dropout 随机失活

随机失活：让隐层的神经元以一定的概率不被激活。
实现方式：训练过程中，对某一层使用Dropout，就是随机将该层的一些输出舍弃(输出值设置为0），这些被舍弃的神经元就好像被网络删除了一样。
随机失活比率（ Dropout ratio）：是被设为 0 的特征所占的比例，通常在 0.2～0.5范
围内。

例:

假设某一层对给定输入样本的返回值应该是向量：[0.2, 0.5, 1.3, 0.8, 1.1]。
使用Dropout后，这个向量会有几个随机的元素变成：[0, 0.5, 1.3, 0, 1.1]

Dropout是通过遍历神经网络每一层的节点，然后通过对该层的神经网络设置一个 Dropout ratio(随机失活比率)，即该层的节点有Dropout ratio的概率失活。以这种方式”dropped out”的神经元既不参与前向传播，也不参与反向传播。

随机失活为什么能够防止过拟合呢？
解释1：
随机失活使得每次更新梯度时参与计算的网络参数减少了，降低了模型容量，所以能防止过拟合。
解释2：
随机失活鼓励权重分散，从这个角度来看随机失活也能起到正则化的作用，进而防止过拟合。
总的来说通过Dropout每次输入一个样本，就相当于该神经网络就 尝试了一个新的结构，但是所有这些结构之间 共享权重。因为神经元不能依赖于其他特定神经元而存在，所以这种技术降低了神经元复杂的互适应关系。正因如此，网络需要被迫 学习更为鲁棒的特征（泛化性更强）。

训练时使用随机失活，测试时怎么办？
测试时不使用随机失活，而是计算所有权重，如下图所示

p=0.5
def train(X):
    H1 = np.maximum(0,np.dot(W1,X) + b1)
    U1 = np.random.rand(*H1.shape) < p
    H1 *= U1
    H2 = np.maximun(0,np.dot(W2,H1) + b2)
    U2 = np.random.rand(*H2.shape) < p
    H2 *= U2
    out = np.dot(W3,H2) + b3
def predict(X):
    H1 = np.maximum(0,np.dot(W1,X) + b1) * p
    H2 = np.maximun(0,np.dot(W2,H1) + b2) * p
    out = np.dot(W3,H2) + b3

3.应对欠拟合

3.1解决方案：

欠拟合的情况比较容易克服，解决方法有：

增加新特征，可以考虑加入进特征组合、高次特征，来增大假设空间。
添加多项式特征，这个在机器学习算法里面用的很普遍，例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。
减少正则化参数，正则化的目的是用来防止过拟合的，但是模型出现了欠拟合，则需要减少正则化参数。
使用非线性模型，比如核SVM 、决策树、深度学习等模型。
调整模型的容量(capacity)，通俗地，模型的容量是指其拟合各种函数的能力。
容量低的模型可能很难拟合训练集；使用集成学习方法，如Bagging ,将多个弱学习器Bagging。

更多Ai资讯：公主号AiCharm

Original: https://blog.csdn.net/muye_IT/article/details/123627223
Author: Jasper0420
Title: 深度学习相关概念：过拟合与欠拟合

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/613874/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【ML】机器学习数据集：sklearn中分类数据集介绍

目录 1.乳腺癌分类数据集（二分类） 2.鸢尾花分类数据集（三分类） 3.葡萄酒分类数据集（三分类） 4.手写数字分类数据集（十分类） 5.其他数据集参考资料在机器学习的教程中…

人工智能 2023年6月15日
00112
pytorch中的训练与测试——基础篇

1、创建测试图片路径与输出的保存路径 import os 图片存储在当前路径（os.getcwd()）下，data文件夹中的test文件夹中 input_dir = os.path…

人工智能 2023年7月19日
0054
jq事件绑定：on事件、off事件、方法函数、one事件

事件绑定：事件绑定有形式有：on 、one、方法函数、off解绑事件； on和one的用法是一样的，但区别是on是每次点击都会触发，one是只触发一次； on有三种用法：普通绑定…

人工智能 2023年6月26日
0091
点云语义分割大合集

一、PointNet 二、PointNet++ 三、KPConv 四、RandLA-Net 五、BAAF-Net Original: https://blog.csdn.net/u…

人工智能 2023年5月26日
0072
3090安装torch1.9报错总结

这几天一直在研究如何让代码可以在cuda上跑，结果总是报错解决了一下午才解决成功首先说明的是：3090必须安装cuda11版本，版本不要搞错。首先创建环境 conda cre…

人工智能 2023年7月23日
0046
基于MATLAB的模糊聚类

1 实验目的进一步掌握模糊聚类的原理及应用；基于MATLAB实现模糊模糊聚类。 2 实验内容（1）计算样本或变量间的相似系数，建立模糊相似矩阵；（2）利用模糊运算对相似矩阵…

人工智能 2023年5月31日
00110
命令与文件的查找

一、which（根据PATH环境变量查找脚本路径）通过which来查找执行文件，which这个命令是根据【 PATH】这环境变量所规范的路径，去查找执行文件的文件名，所以，重点…

人工智能 2023年6月30日
00104
工作5年后我才发现：90%的技术问题，可以解决

; 01.前言现在市面上的智能电子产品千千万，为了达到人们使用更加方便的目的，很多智能产品都开发了语音识别功能，用来语音唤醒进行交互；另外，各大公司也开发出来了各种智能语音机器人…

人工智能 2023年5月25日
0064
pandas practice

数据结构 Series– 用列表生成Series时，Pandas默认自动生成整数索引，也可以指定索引。是有索引的一维数组，numpy没有索引import pandas …

人工智能 2023年7月7日
0073
pandas数据分析之排序和排名(sort和rank)

对数据集进行排序和排名的是常用最基础的数据分析手段，pandas提供了方便的排序和排名的方法，通过简单的语句和参数就可以实现常用的排序和排名。本文以student数据集的Data…

人工智能 2023年7月14日
0079
计算图像清晰度

1、方差在相机拍照时，通常会看到相机由模糊至清晰的自动对焦过程，逐渐形成清晰度比较高的图像。其实这是非常简单的处理,，并不需要非常特殊的算法，方法各式各样好多种，而且效率极其高。…

人工智能 2023年6月18日
0074
OpenCV中LineTypes各枚举值(LINE_4 、LINE_8 、LINE_AA )的含义

在OpenCV中凡是与绘图有关的函数几乎都要涉及到这个LineTypes参数的设置。比如说函数line()、函数putText()、函数drawContours()、函数recta…

人工智能 2023年6月19日
00108
Bert一些重要函数的详解

记录一下 embedding_lookup 词向量根据词的索引来获取embedding输入是[batch_size,seq_lenth] 输出[batch_size,seq_le…

人工智能 2023年5月30日
0091
努力成为一名数据分析师

一、什么是数据分析？观测、实验、应用二、重新认识数据分析观测：对事物形成客观量化的认知（报表、图表、仪表盘）。实验：发现规律、验证假设（科学研究、A/B测试）。应用：不断…

人工智能 2023年7月17日
0059
Recovering Realistic Texture in Image Super-resolution by Deep Spatial Feature Transform

Recovering Realistic Texture in Image Super-resolution by Deep Spatial Feature Transform 基…

人工智能 2023年5月28日
0083
PyTorch Geometric (PyG) 安装教程

诸神缄默不语-个人CSDN博文目录 PyG官方下载主页：Installation — pytorch_geometric documentation 以下仅考虑Linux系统的情况…

人工智能 2023年7月22日
0052

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

深度学习相关概念：过拟合与欠拟合

深度学习相关概念：过拟合与欠拟合

2.1最优方案

2.1次优方案

2.1.1L2正则化

2.1.2Dropout 随机失活

3.1解决方案：

大家都在看