对Lasso可以做特征选择，而Ridge却不行的详细解释

2023年6月17日下午6:29 • 人工智能 • 阅读 109

为了限制模型参数的数值大小，就在模型原来的目标函数上加上一个惩罚项，这个过程叫做正则化（Regularization）。

如果惩罚项是参数的l 2 l_2 l 2 范数，就是岭回归(Ridge Regression)
如果惩罚项是参数的l 1 l_1 l 1 范数，就是套索回归（Lasso Regrission）

Ridge是在结构风险最小化的正则化因子上使用模型参数向量的二阶范数形式， Lasso使用的是一阶范数形式。虽然 Ridge可以将参数估计值向0进行收缩，但对于任何调优参数值，它都不能将系数取值变为严格的0。尽管某些参数估计值变得非常小以至于可以忽略，但事实上 Ridge并没有进行变量选择。这可能对预测精确度来说不是问题，但却对模型解释提出了挑战，尤其在变量个数大的时候。一种流行的用来替代 Ridge的模型是”最小绝对收缩与选择算子”模型，通常被称为 Lasso。 Lasso不仅将参数估计向0收缩，当调优参数足够大时，一些参数估计将直接缩减为零，这可以达到特征选择的作用。这样一来， Lasso回归的结果更易于解释。

可能有人会问从 Ridge到 Lasso，只是罚函数从二阶范数变成一阶范数，为什么 Lasso就能够将参数估计收缩成0而 Ridge不能呢？要回答这个问题，我们先看下 Lasso和 Ridge分别对应的另一版本的等价优化方程。对于 Lasso而言，优化下面两个方程是等价的：

Σ i = 1 n ( y i − β 0 − Σ j = 1 p β j x i j ) 2 + λ Σ j = 1 p ∣ β j ∣ = R S S + λ Σ j = 1 p ∣ β j ∣ m i n β { Σ i = 1 n ( y i − β 0 − Σ j = 1 p β j x i j ) 2 } , Σ j = 1 p ∣ β j ∣ ≤ s (1) \Sigma_{i=1}^{n}(y_{i}-\beta_{0}-\Sigma_{j=1}^{p}\beta_{j}x_{ij})^{2}+\lambda\Sigma_{j=1}^{p}|\beta_{j}|=RSS+\lambda\Sigma_{j=1}^{p}|\beta_{j}|\ \underset{\beta}{min}\left{ \Sigma_{i=1}^{n}\left(y_{i}-\beta_{0}-\Sigma_{j=1}^{p}\beta_{j}x_{ij}\right)^{2}\right} ,\ \Sigma_{j=1}^{p}|\beta_{j}|\leq s\tag{1}Σi =1 n (y i −β0 −Σj =1 p βj x i j )2 +λΣj =1 p ∣βj ∣=R S S +λΣj =1 p ∣βj ∣βmin {Σi =1 n (y i −β0 −Σj =1 p βj x i j )2 },Σj =1 p ∣βj ∣≤s (1 )

Σ i = 1 n ( y i − β 0 − Σ j = 1 p β j x i j ) 2 + λ Σ j = 1 p β j 2 = R S S + λ Σ j = 1 p β j 2 m i n β { Σ i = 1 n ( y i − β 0 − Σ j = 1 p β j x i j ) 2 } , Σ j = 1 p β j 2 ≤ s (2) \Sigma_{i=1}^{n}(y_{i}-\beta_{0}-\Sigma_{j=1}^{p}\beta_{j}x_{ij})^{2}+\lambda\Sigma_{j=1}^{p}\beta_{j}^{2}=RSS+\lambda\Sigma_{j=1}^{p}\beta_{j}^{2}\ \underset{\beta}{min}\left{ \Sigma_{i=1}^{n}\left(y_{i}-\beta_{0}-\Sigma_{j=1}^{p}\beta_{j}x_{ij}\right)^{2}\right} ,\ \Sigma_{j=1}^{p}\beta_{j}^{2}\leq s\tag{2}Σi =1 n (y i −β0 −Σj =1 p βj x i j )2 +λΣj =1 p βj 2 =R S S +λΣj =1 p βj 2 βmin {Σi =1 n (y i −β0 −Σj =1 p βj x i j )2 },Σj =1 p βj 2 ≤s (2 )

当p ＝ 2 p＝2 p ＝2时， Lasso的参数估计是所有满足∣ β 1 ∣ + ∣ β 2 ∣ ≤ s |\beta_1|+|\beta_2|≤s ∣β1 ∣+∣β2 ∣≤s的β 1 \beta_1 β1 和β 2 \beta_2 β2 取值中最小化 RSS的。 Ridge是估计所有满足β 1 2 + β 2 2 ≤ s \beta_1^2+β_2^2\leq s β1 2 +β2 2 ≤s的参数取值中最小化 RSS的。当s s s很大时，相应的限制条件几乎是无效的，只要参数估计能够最小化 RSS即使绝对值很大也没有问题。只要s s s所定义的区域包含最小二乘解，那么收缩方法得出的参数估计和一般最小二乘回归就相同。相反，如果s s s很小，那么可能的参数取值范围就很有限。

下面看看看看 Lasso和 Ridge的不同之处

左边是 Lasso对应的误差等位线和正方形限制区域，右边是 Ridge对应的等位线和圆形限制区域。上面图中围绕在β ^ \hat{\beta}β^周围的椭圆表示有相同 RSS的参数估计。随着椭圆的扩大，对应的 RSS增加。 Lasso和 Ridge的估计值就是在一定的限制区域下，椭圆不断扩张的过程中和限制区域的第一个接触点。大家想想看，如果有某个参数的估计是0的话，那么这个接触点该在哪里？一定在某条坐标轴上。由于 Ridge的限制区域是圆形，所以真正的触点无法落在坐标轴上，可能无限接近，但就是到不了。这就是求之而不可得的数学诠释。所以 Ridge无法将参数收缩成0，而 Lasso可以。

上面是2个参数的情况。如果参数个数是3的话，那么lasso的限制区域就是一个三位空间的多面体，而ridge的限制区域就是个球。参数个数再增加的话，就得发挥你自己想象力。希望大家理解 Lasso可以进行变量选择，而 Ridge不行的几何解释。

从代数角度思考，看下面的二维示意图， Lasso的目标函数是非光滑的。我们知道对于非光滑的优化问题，它的最优解要么是在导数为0处，要么就是在不可导的地方，也就是各个角上。对于多维的 Lasso，所谓的”角”，就是那些很多特征的系数为0的地方。所以 Lasso会给出一个稀疏解，能有特征选择的作用。

以上内容主要整理自：

Original: https://blog.csdn.net/xq151750111/article/details/123475162
Author: 长路漫漫2021
Title: 对Lasso可以做特征选择，而Ridge却不行的详细解释

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/631384/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

哪款蓝牙耳机通话效果好？通话效果好的蓝牙耳机推荐

数字世界里隐藏着许多高性价比的产品，不仔细寻找是找不到的。一直对无线耳机感兴趣的我，找到了几款性价比很高的蓝牙耳机。我想在这条推文中做一个比较，向你展示隐藏的蓝牙耳机是什么样子的。…

人工智能 2023年5月27日
0092
Python自动化办公：openpyxl教程(进阶)

在后台回复【阅读书籍】即可获取python相关电子书~ Hi，我是山月。之前给大家分享了openpyxl的基础教程：。不知道大家学习的怎么样了。今天给大家分享一下整理了一周的…

人工智能 2023年7月15日
0061
NLP方向 —- 面试、笔试题集(7)：预训练模型 BERT

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月30日
0076
论文阅读《PTR: Prompt Tuning with Rules for Text Classification》

PTR: Prompt Tuning with Rules for Text Classification 提出背景 Prompt-oriented fine-tuning加速收敛…

人工智能 2023年6月1日
0073
猿创征文｜【深度学习前沿应用】文本生成

; 猿创征文｜【深度学习前沿应用】文本生成作者简介：在校大学生一枚，C/C++领域新星创作者，华为云享专家，阿里云专家博主，腾云先锋（TDP）成员，云曦智划项目总负责人，全国高等…

人工智能 2023年5月27日
0088
3D视觉——1.人体姿态估计(Pose Estimation)入门——使用MediaPipe含单帧(Signel Frame)与实时视频(Real-Time Video)

使用MediaPipe工具包进行开发什么是MediaPipe? MediaPipe是一款由Google Research 开发并开源的多媒体机器学习模型应用框架，用于处理视频、音…

人工智能 2023年6月16日
0079
anaconda安装教程-手把手教你安装

文章目录 anaconda安装教程 * 一、anaconda安装包的下载二、anaconda安装过程三、验证anaconda安装是否成功 anaconda安装教程 ; 一、an…

人工智能 2023年7月4日
00103
常用的图像增强方法

大规模数据集是成功应用深度神经网络的前提。例如，我们可以对图像进行不同方式的裁剪，使感兴趣的物体出现在不同位置，从而减轻模型对物体出现位置的依赖性。我们也可以调整亮度、色彩等因素来…

人工智能 2023年7月28日
0041
SSM框架速成4：图书馆管理系统（SSM实战）

学完了三个框架，现在来整合一下SSM，并且实现一个图书馆增删改查的简单项目。这个整合就是实现简单的CRUD，整合的过程中多复习有关于之前的一些知识和思想，本身并不难，只是可能再配置…

人工智能 2023年6月26日
0073
wincc工程组态论文_Wincc如何让报警消息发出报警声音呢？带你走进Wincc的语音时代，让你的组态工程更炫目…

戳上方蓝字关注我们吧 Wincc语音对报警信息进行播放，大多数是采用了wincc系统对wav文件进行播放，采用wav文件播放具有以下几个弊端， 1、不能对该报警信息进行循环次数的…

人工智能 2023年5月27日
00113
k means聚类算法_一个完整的K-means聚类算法指南！

点击上方关注，All in AI中国 [TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:…

人工智能 2023年6月2日
0076
python学习数据分析模块pandas

目录生成一维数组生成DataFrame 二维数据查看查看二维数据的索引、列名和数据查看数据的统计信息二维数据转置排序数据选择所有求和等于特定值的行数据修改对行求…

人工智能 2023年7月9日
0069
pandas数据处理map、apply、applymap小结

map、apply、applymap小结apply：DataFrame数据函数，series级别操作，应用在DataFrame的行或列中，也可以应用到单独一个Series的每个元素…

人工智能 2023年7月8日
0090
深度学习中模型计算量(FLOPs)和参数量(Params)的理解以及四种计算方法总结

接下来要分别概述以下内容：１首先什么是参数量，什么是计算量２如何计算参数量，如何统计计算量３换算参数量，把他换算成我们常用的单位，比如:mb ４对于各个经典网络，…

人工智能 2023年7月26日
0054
机器学习实战二：波士顿房价预测 Boston Housing

波士顿房价预测 Boston housing 这是一个波士顿房价预测的一个实战，上一次的Titantic是生存预测，其实本质上是一个分类问题，就是根据数据分为1或为0，这次的波士顿…

人工智能 2023年6月23日
00299
TPH-yolov5论文解读

注：个人愚见，有问题欢迎批评指针。论文：《TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for…

人工智能 2023年6月16日
0088

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

对Lasso可以做特征选择，而Ridge却不行的详细解释

大家都在看