机器学习之L1正则化和L2正则化（附源码解析）

2023年6月25日下午5:34 • 人工智能 • 阅读 91

前言

今天还是机器学习的基础知识内容，也是最基础的哈。首先说一下什么是正则化，其实它就是一个减少方差的策略。那么什么是方差呢？在这里也引入一个和方差相辅相成的概念–偏差。

偏差度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法本身的拟合能力
方差度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响

我们通常所说的过拟合现象，也就是指的高方差，就是模型在训练集上训练的超级好，几乎全部都能拟合。但是这种情况如果换一个数据集往往就会非常差，正则化的思想就是在我们的目标函数中价格正则项，即：

在这里正则项有两种，分别是L1和L2，先来看一下两者的表达式：

如果加上这种正则项，就是希望我们的代价函数小，同时也希望我们这里的

小，这样就说明每个样本的权重都很小，这样模型就不会太多的关注某种类型的样本，模型参数也不会太复杂，有利于缓解过拟合现象。

L1正则化

先看一下带L1正则化的损失函数：

ps：懒得打了，直接贴一位大佬总结的话吧，反正我是超级赞同的，写的很好。不过在这里我需要强调的一点就是正则化就是相当于给原来的损失函数加了一个约束，同时满足损失函数最小值的参数可能有很多选择，加了正则化之后就会选择同时满足损失函数和正则化函数的参数值。

在这里需要注意的是，因为L1正则化图形的缘故，满足最优解的参数往往都在坐标轴上面，所以L1正则项往往能够使得模型产生稀疏的解，这是因为加上L1之后，我们参数的解往往会发生在坐标轴上导致某些参数的值为0。

L2正则化

先看一下L2正则化的损失函数：

下图所示，这是L2正则。彩色的圈还是Cost等高线，下面黑色的圆圈是L2正则等高线（

） , 和上面的分析一样，如果我们在A’, B’, C’点确定最优解的话，依然是C’点，因为它在Cost相等的情况下正则最小。但是我们发现L2正则下不过出现某个参数为0的情况，而是w1和w2都比较小。所以L2正则项的最优的参数值很小概率出现在坐标轴上，因此每一维的参数都不会是0。当最小化||w||时，就会使每一项趋近于0。

在Pytorch中， L2正则项又叫做weight decay(权值衰减)。那么为啥这个东西叫做权值衰减呢？怎么衰减了？我们这样看：首先，我们原来的时候，参数的更新公式是这样的：

而现在，我们的Obj加上了一个L2正则项

，那么参数的更新方式也就变成了下面这个：

我们知道λ 的取值是0-1的，那么就是说每一次迭代之后，这个参数

本身也会发生一个衰减。也就是说我们加上L2正则项与没有加L2正则项进行一个对比的话，加入L2正则项，这里的机器学习之L1正则化和L2正则化（附源码解析）

就会发生数值上的一个衰减。故这就是这个L2正则项称为权值衰减的原因。

对于L2的代码实现，在API中为了求解方便，L2正则化项并不是加入损失函数中一起求导的，而是将损失函数求导完毕之后，再加上weight_decay的。可能有小伙伴疑问了，我为什么要管这些，直接调用API不久好了么，其实确实是这样，但是在优化器选择上面Adam+L2就会出现问题，不管是动量预测还是环境感知都不准确，所以才出现了新的优化器–AdamW。由此可见了解底层原理还是挺重要的。

接下来看一位大佬调试出来的代码，看看”后台”是如何运行的：

好了，L2正则化的使用和内部实现机制就到这里吧，要知道L2正则化干啥用，怎么用差不多就行了。一般是在模型过拟合的时候用到这个方式，当然除了L2正则化，在模型发生过拟合的时候还有其他的方式，比如Dropout，也是常用的一种方式。

总结

L1正则化的特点：
不容易计算，在零点连续但不可导，需要分段求导
L1模型可以将一些权值缩小到零（稀疏）
执行隐式变量选择。这意味着一些变量值对结果的影响降为0，就像删除它们一样
其中一些预测因子对应较大的权值，而其余的（几乎归零）
由于它可以提供稀疏的解决方案，因此通常是建模特征数量巨大时的首选模型
它任意选择高度相关特征中的任何一个，并将其余特征对应的系数减少到0
L1范数对于异常值更具提抗力
L2正则化的特点：
容易计算，可导，适合基于梯度的方法
将一些权值缩小到接近0
相关的预测特征对应的系数值相似
当特征数量巨大时，计算量会比较大
对于有相关特征存在的情况，它会包含所有这些相关的特征，但是相关特征的权值分布取决于相关性。
对异常值非常敏感
相对于L1正则会更加准确

参考：系统学习Pytorch笔记九：正则化与标准化大总结

Original: https://blog.csdn.net/qq_38375203/article/details/125228696
Author: Aliert
Title: 机器学习之L1正则化和L2正则化（附源码解析）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/651318/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

高效的词表（关键字）匹配工具flashtext工具，以及中文场景下使用的源码修改

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月1日
0083
比较pytorch与keras训练模型的不同并且在Pytorch中使用一维卷积神经网络对一维连续数据分类

卷积神经网络对于周期性的一维信号分类效果是比较好的，本人做电机故障检测，需要对不同故障的轴承振动信号进行分类。之前都是用keras搭建神经网络，确实很方便，使用fit（）函数训练…

人工智能 2023年6月30日
0082
2021年MathorCup高校数学建模挑战赛——大数据竞赛赛道A -思路分享

4.8号公布了复赛获奖名单，比赛正式告一段落，为什么现在才开始写呢？其实一是最近一直很忙，二是感觉自己做的不咋地，趁今天有空就写写吧，时间一长就又不想写了。好了胡扯到此结束，言归正…

人工智能 2023年7月15日
00133
跨模态检索

本文是我阅读跨模态检索综述后结合自己的学习总结的文章，阅读的综述如下：【1】刘颖，郭莹莹，房杰，范九伦，郝羽，刘继明．深度学习跨模态图文检索研究综述[J/OL]．计算机科学与探索…

人工智能 2023年5月26日
0093
yolov5训练可视化指标的含义

背景在v5的训练过程中，使用wandb是一个很常见可视化工具，它有很多的图表，可以对训练过程中可以提取的评价指标进行可视化，今天做一个整理。可视化指标 LOSS loss分为c…

人工智能 2023年6月24日
00104
前端练手3D爱心

文章目录 * – + 盒子模型常用属性（认识） + 效果一爱心半边 + 效果二爱心整合生成 + 效果三实现立方体爱心 + 最终效果 3D爱心盒子模型常用属性（认…

人工智能 2023年6月20日
0062
[已解决]face_recognition库安装，dlib库安装

import face_recognition 在尝试使用face_recognition库时运行报错，No module named ‘face_recognitio…

人工智能 2023年7月6日
0083
【深度学习】训练集、测试集和验证集

码字不易，如果各位看官感觉该文章对你有所帮助，麻烦点个关注，如果有任何问题，请留言交流。如需转载，请注明出处，谢谢。文章链接：https://blog.csdn.net/hero…

人工智能 2023年7月27日
0089
两张图按同一坐标合并_1份ppt走天下！色谱图N合1操作图解，你怎能不知道？

实验中色谱图对于我们来说是很重要的一个环节了，色谱图格式：注意：为了保证合成的图谱中每个子图谱之间具有可比性，请确保每个子图谱的横坐标和纵坐标保持一致。一般液相色谱或者气相色谱检…

人工智能 2023年6月1日
0066
《Word2vec》1 模型的引入介绍与相关概念

文章目录一、Word2Vec模型的背景引入 * 1.1 One-hot模型 1.2 One-Hot编码的手动实现 1.3 Keras中one-hot编码的实现 2. Word2…

人工智能 2023年5月28日
0057
【OpenCV 例程200篇】222. 特征提取之弗里曼链码（Freeman chain code）

OpenCV 例程200篇总目录【youcans 的 OpenCV 例程 300篇】222. 特征提取之弗里曼链码（Freeman chain code）目标特征的基本概念 …

人工智能 2023年5月26日
0081
用于端到端语音识别的文本数据多任务训练

论文 MULTITASK TRAINING WITH TEXT DATA FOR END-TO-END SPEECH RECOGNITION 摘要论文提出了一种基于注意力的端到端…

人工智能 2023年5月27日
0064
PyCharm中安装GPU版本的PyTorch

PyCharm中安装GPU版本的PyTorch 上个月，有个项目要用Pytorch跑，我就开始了安装之路。了解到Pytorch可以安装CPU和GPU版本的，想着GPU版本的更快，遂…

人工智能 2023年7月5日
0053
python爬虫re+requests+bs4爬取汽车之家全部过程，附代码。支持互联网免费至上，看了全部关于汽车之家的文章都是收费的，我很看不过去

爬虫项目讲解我做的是爬取汽车之家全部车型以及配置表的爬虫代码我们要爬取的就是这个网站https://www.autohome.com.cn 这边我已经爬取完毕，但是有一些错误，…

人工智能 2023年6月19日
00127
PyTorch学习笔记：RuntimeError:oneofthevariablesneededforgradientcomputationhasbeenmodifiedby

报错信息： RuntimeError: one of the variables needed for gradient computation has been modified…

人工智能 2023年7月24日
0048
手把手教你用tensorflow2.3训练自己的分类数据集

配合视频一起食用这篇教程效果更佳：手把手教你用tensorflow2训练自己的数据集 tensorflow2.x版本对小白非常友好，2.x的api中对keras进行了合并，大家只需…

人工智能 2023年5月26日
00109

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

机器学习之L1正则化和L2正则化（附源码解析）

前言

L1正则化

L2正则化

总结

大家都在看