深度学习——正则化

2023年6月12日下午7:08 • 数据结构和算法 • 阅读 107

深度学习——正则化

作者：Oto_G

全是自我理解，表达不严谨，仅供参考

本文默认正则化范数为L1范数

这是今天讨论的问题：

为什么融入正则的损失函数能够防止过拟合
为什么正则融入损失函数的形态是：原损失函数 + 范数
*范数是啥

防止过拟合

过拟合，通俗来说就是，你的参数训练的太好了，以至于这组参数只能在你的训练数据上有好的表现 XD

遇到过拟合先冷静下来，因为你遇到的情况可能比你想得还要糟糕，下面是产生过拟合的两种情况，仅供参考 XD

给的训练参数太多了，导致过拟合。如果是这种情况，恭喜你，今天所讲的就是针对它的解决方法ヽ(°▽°)ノ
训练数据和测试数据不兼容，通俗来讲，你的训练数据或者是测试数据有问题，但你误以为是模型过拟合了。如果是这种情况，晚安，玛卡巴卡

好的，说完过拟合，我们回到第一个问题， 为什么融入正则的损失函数能够防止过拟合

可以看到标题已经给出了模型过拟合后的一种解决方案，就是将你的损失函数稍加修改，把正则化这个概念引入你的损失函数

不用担心，引入正则化非常简单，但还是先来看下啥是正则化

首先，和正则表达式区分一下， 在了解正则化前呢，请告诉自己，正则表达式和正则化没有任何关系:P

正则化以我的理解就是，将你训练的参数向量（矩阵）在最小化模型影响地情况下，尽可能地 稀疏化

稀疏矩阵是数值计算中普遍存在的一类矩阵，主要特点是绝大部分的矩阵元素为零

假设你没有使用正则化训练好的参数是左图，那么正则化就是让这个参数尽可能地变成右图，甚至为一些参数直接为0

这样之后，我们再想想， 之前过拟合是由于参数太多导致的，正则化之后，部分参数的权重接近于零，那么就相当于该参数对模型的影响大幅减小，那么也就不会过拟合了

可能这时候有同学会想到，如果引入正则化导致部分参数降低了对模型的影响，会不会降低错参数导致模型效果不佳呀？
答：正则化完全不会降低错参数。首先模型的收敛还是靠损失函数决定，而正则化只是对损失函数进行线性相加，不会导致损失函数意义改变，所以训练后的参数还是适配模型的。反过来讲，正则化之所以能够做到将参数稀疏化，又能保持适配模型，就是靠的其参与到损失函数优化过程中（直接将范数加在了损失函数后面）

正则融入损失函数的形态

接着上面一段，最后说到， 正则化之所以能够做到将参数稀疏化，又能保持适配模型，就是靠的其参与到损失函数优化过程中（直接将范数加在了损失函数后面）

这里引出范数的概念，专业解释可以查下权威书籍，通俗来说，举个例子：有一个参数向量，那么L2范数就是这个参数向量到坐标原点的欧氏距离

具体Lp的范式定义如下，xi为参数向量或矩阵

L1范数：参数的绝对值之和
L2范数：参数与原点的欧氏距离

而正则化就是在原来的损失函数基础上加上L1范数（有时也会L2）乘以权重

权重（这是个超参数，需要先行给定）就是用来调整模型在泛化能力和拟合能力上的关系的，一般设0.1，根据训练情况可以自行调整

直观体会

进入http://playground.tensorflow.org/

配置成如图所示的状态，红色实线框为需要调整的地方，虚线框即为正则化选项（范数和权重），点击左上角按钮即可训练。可以自行尝试选择不同的范数和权重，看看训练结果会如何

下面给出我的训练结果

Original: https://www.cnblogs.com/oto-G/p/15844581.html
Author: Oto_G
Title: 深度学习——正则化

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/605056/

转载文章受原作者版权保护。转载请注明原作者出处！

数据结构和算法

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

服务限流原理及算法

限流是啥？维基百科是这样解释的：在计算机网络中，频率限制被应用在控制网络接口收到或发送的请求频次，它可以被用来阻止dos攻击或者是网络爬虫。直白点说，就是限制服务收到或发出的请求频…

数据结构和算法 2023年6月8日
0077
PTA刷题笔记

两周之内刷完GPLT L2和L3的题，持续更新，包括AK代码，坑点，和少量评论 PTA刷题记录仓库地址: https://github.com/Haorical/Code/tre…

数据结构和算法 2023年6月16日
00108
Acm模板-计算几何(寄算几何)

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

数据结构和算法 2023年6月12日
0076
十大排序算法-冒泡排序

从前往后，相邻元素两两比较，不断将最大的值交换到列表未排序的最末尾，下一次重新开始比较时就不需要和已排序的比较了。算法步骤：比较相邻的元素。如果第一个比第二个大，就交换他们两个…

数据结构和算法 2023年6月12日
0063
Java中使用线程池进行多线程执行结果汇总Demo

当我们在执行很多个同一个任务时，例如查询同一条SQL只不过条件不一样，或者对一个数据进行处理等操作时，它们返回的类型或者对象是相同的情况下可以考虑使用多线程执行这些任务，然后将结果…

数据结构和算法 2023年6月8日
00121
P3966 [TJOI2013]单词

简要题意给出一个 (N) 行的字符串 (S)（保留换行符，除换行符外仅包含小写英文字母），每一行是一个单词，求每个单词在整个字符串的出现次数。 (1 \le N \le 200)…

数据结构和算法 2023年6月12日
0085
二叉搜索树(BST)

二叉搜索树的定义 [14-1] [binary search tree] 二叉搜索树是一棵二叉树, 可为空, 满足以下性质: 每个元素有一个唯一的 key. 根的左子树的 key …

数据结构和算法 2023年6月12日
00124
【HDU 2859 】Phalanx （dp 最大对称子图）

Phalanx 先搬翻译 Descriptions: 给你一个矩阵，只由小写或大写字母构成。求出它的最大对称子矩阵的边长。其中对称矩阵是一个kk的矩阵，它的元素关于从左下角到右上…

数据结构和算法 2023年6月14日
0083
YACS 两数之积题解

link 分别考虑原序列 $a$ 中所有的正数，负数以及 0 的数量：设 $a$ 中正数的数量为 $cnt1$ 个，把 $a$ 中所有正数保存在 $bz$ 中，负数数量为 $c…

数据结构和算法 2023年6月8日
0088
FHQtreap（我有个绝妙的理解方法，但课的时间不够[doge]）

会了FHQ，treap什么的就忘了吧…… #include using namespace std; struct FHQ { int v,w,size,l…

数据结构和算法 2023年6月7日
0081
Divan and bitwise operations

这是一道比较综合的数学题目，光是吧题目看懂就花了我好一会儿时间，先看看题目吧：题目分析：对于m段给定连续段的或值，要求出n个数的序列子序列的异或值之和；题解：这道题，我们先不…

数据结构和算法 2023年6月7日
0080
【JS每日刷题】栈与任务队列1

代码题目来源于前端面试题宝典 const foo = () => console.log(‘First’) const bar = () => setTimeout(…

数据结构和算法 2023年6月8日
0080
代码随想录第十三天 | 150. 逆波兰表达式求值、239. 滑动窗口最大值、347.前 K 个高频元素

根据逆波兰表示法，求表达式的值。有效的算符包括 +、-、*、/ 。每个运算对象可以是整数，也可以是另一个逆波兰表达式。注意两个整数之间的除法只保留整数部分。可以保证给定的逆波兰…

数据结构和算法 2023年6月12日
0054
数论-整除+欧几里得+扩展欧几里得

一、整除的概念定义：a,b是两个任意整数，b≠0，若存在整数q，使得a=b*q,则称 a能够被b整除，也称b能整除a,也称b是a的因数，也称a为b的倍数。用记号b|a表示。整除…

数据结构和算法 2023年6月7日
0071
[Git][基本原理与命令]

Git是工作中最常用的版本控制工具，本文中将介绍其常用的命令。根据作用的不同，可以分为基本命令、撤销命令、合并命令与远程仓库命令，下面将依次介绍这些命令。 git 中提供了底层ap…

数据结构和算法 2023年6月8日
0093
2022山东省队三轮集训

博客园：当前访问的博文已被密码保护请输入阅读密码: Original: https://www.cnblogs.com/winterfrost/p/2022sdptt3.htm…

数据结构和算法 2023年6月12日
0089

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

深度学习——正则化

这是今天讨论的问题：

防止过拟合

正则融入损失函数的形态

直观体会

大家都在看