数学建模学习：岭回归和lasso回归

2023年6月16日下午8:26 • 人工智能 • 阅读 105

线性回归

在多元线性回归模型中，估计回归系数使用的是OLS，并在最后讨论异方差和多重共线性对模型的影响。事实上，回归中自变量的选择大有门道，变量过多可能会导致多重共线性问题导致回归系数不显著，甚至造成OLS估计失效。

岭回归和lasso回归在OLS回归模型的损失函数上加上了不同的惩罚项，该惩罚项由回归系数的函数组成，一方面，加入的惩罚项能够识别出模型中不重要的变量，对模型起到简化作用，可以看作逐步回归法的升级版，另一方面，加入的惩罚项让模型变得可估计，即使原数据矩阵不满足列满秩。

线性回归模型

在标准线性回归中，通过最小化真实值(y i y_{i}y i )和预测值(y ^ i \hat{y}{i}y ^i )的平方误差来训练模型，这个平方误差值也被称为残差平方和(RSS, Residual Sum Of Squares):
R S S = ∑ i = 1 n ( y i − y ^ i ) 2 R S S=\sum{i=1}^{n}\left(y_{i}-\hat{y}{i}\right)^{2}R S S =i =1 ∑n (y i −y ^i )2
最小二乘法即最小残差平方和，为：
J β ( β ) = arg ⁡ min ⁡ β ∑ i = 1 p ( y i − x i β i − β 0 ) 2 J{\beta}(\beta)=\underset{\beta}{\arg \min } \sum_{i=1}^{p}\left(y_{i}-x_{i} \beta_{i}-\beta_{0}\right)^{2}J β(β)=βar g min i =1 ∑p (y i −x i βi −β0 )2
将其化为矩阵形式：
J β ( β ) = arg ⁡ min ⁡ β ( Y − X β ) T ( Y − X β ) J_{\beta}(\beta)=\underset{\beta}{\arg \min }(Y-X \beta)^{T}(Y-X \beta)J β(β)=βar g min (Y −X β)T (Y −X β)
求解为：
β = ( X T X ) − 1 X T Y \beta=\left(X^{T} X\right)^{-1} X^{T} Y β=(X T X )−1 X T Y
由于求解β \beta β，需要假设矩阵X T X X^{T} X X T X是满秩矩阵
然而X T X X^{T} X X T X往往不是满秩矩阵或者某些列之间的线性相关性比较大，例如会出现变量数(属性数)远超过样例数，导致X X X的列数多于行数，X T X X^{T} X X T X显然不满秩，可解出多个β \beta β，使得均方误差最小化，即在多元回归中，特征之间会出现多重共线问题，使用最小二乘法估计系数会出现系数不稳定问题，缺乏稳定性和可靠性。

岭回归

在矩阵X T X X^{T} X X T X的对角线元素加一个小的常数值λ \lambda λ，取其逆求得系数：
β ^ ridge = ( X T X + λ I n ) − 1 X T Y \hat{\beta}{\text {ridge }}=\left(X^{T} X+\lambda I{n}\right)^{-1} X^{T} Y β^ridge =(X T X +λI n )−1 X T Y
I n I_{n}I n 为单位矩阵，对角线全为1，类似山岭
λ \lambda λ是岭系数，改变其数值可以改变单位矩阵对角线的值

随后代价函数J β ( β ) J_{\beta}(\beta)J β(β)在R S S RSS R S S基础上加入对系数值的惩罚项：
J β ( β ) = R S S + λ ∑ j = 0 n β j 2 = R S S + λ ∥ β ∥ 2 \begin{aligned} J_{\beta}(\beta) &=R S S+\lambda \sum_{j=0}^{n} \beta_{j}^{2} \ &=R S S+\lambda\|\beta\|^{2} \end{aligned}J β(β)=R S S +λj =0 ∑n βj 2 =R S S +λ∥β∥2
矩阵形式为：
J β ( β ) = ∑ i = 1 p ( y i − X i β ) 2 + λ ∑ j = 0 n β j 2 = ∑ i = 1 p ( y i − X i β ) + λ ∥ β ∥ 2 \begin{aligned} J_{\beta}(\beta) &=\sum_{i=1}^{p}\left(y_{i}-X_{i} \beta\right)^{2}+\lambda \sum_{j=0}^{n} \beta_{j}^{2} \ &=\sum_{i=1}^{p}\left(y_{i}-X_{i} \beta\right)+\lambda\|\beta\|^{2} \end{aligned}J β(β)=i =1 ∑p (y i −X i β)2 +λj =0 ∑n βj 2 =i =1 ∑p (y i −X i β)+λ∥β∥2
λ \lambda λ是超参数，用来控制对β J \beta_{J}βJ 的惩罚强度，λ \lambda λ值越大，生成的模型就越简单

λ \lambda λ 的选择方法

1.岭迹分析法（主观性强）
（1）各回归系数的岭估计稳定
（2）用最小二乘法估计时符号不合理的回归系数，其岭估计的符号变得合理
（3）回归系数没有不合乎经济意义的绝对值
（4）残差平方和增长不太多

2.VIF法（方差膨胀因子）
若β \beta β的V I F VIF V I F>10，数据列与列指标之间存在多重共线性，因此我们可以不断增加λ \lambda λ的值来不断减少V I F VIF V I F，知道所有的β \beta β的V I F VIF V I F>10，确定理想的λ \lambda λ的值

3.最小化均方预测误差（最广泛，最准确）
我们使用K折交叉验证的方法，来选择最佳的调整参数。所谓的k折交叉验证，就是把样本数据随机分为k等份，将第1个子样本作为 验证集而保留不用，剩余k-1个子样本作为 训练集来估计模型，再以此预测第1个子样本，并计算第1个子样本的 均方预测误差（MSPE）。之后，将第2个子样本作为验证集，剩余k-1个子样本作为训练集来预测第2个子样本，并计算第二个子样本的MSPE。以此类推，将所有子样本的MSPE加总，可以获得整个样本的MSPE，最后选择调整参数，使得整个样本的MSPE最小，从而确定最理想的λ \lambda λ的值，具有最佳的预测能力。
需要保证数据的量纲一致，若量纲不一致应对数据进行标准化处理。

Lasso回归

代价函数J β ( β ) J_{\beta}(\beta)J β(β)在R S S RSS R S S基础上加入对系数值的惩罚项：
J β ( β ) = R S S + λ ∑ j = 0 n ∣ β j ∣ = R S S + λ ∣ β ∣ \begin{aligned} J_{\beta}(\beta) &=R S S+\lambda \sum_{j=0}^{n} |\beta_{j}| \ &=R S S+\lambda|\beta| \end{aligned}J β(β)=R S S +λj =0 ∑n ∣βj ∣=R S S +λ∣β∣
岭回归与Lasso回归最大的区别在于岭回归引入的是L2范数惩罚项，Lasso回归引入的是L1范数惩罚项。
矩阵形式为：
J β ( β ) = ∑ i = 1 p ( y i − X i β ) 2 + λ ∑ j = 0 n ∣ β j ∣ = ∑ i = 1 p ( y i − X i β ) + λ ∣ β ∣ \begin{aligned} J_{\beta}(\beta) &=\sum_{i=1}^{p}\left(y_{i}-X_{i} \beta\right)^{2}+\lambda \sum_{j=0}^{n} |\beta_{j}| \ &=\sum_{i=1}^{p}\left(y_{i}-X_{i} \beta\right)+\lambda|\beta| \end{aligned}J β(β)=i =1 ∑p (y i −X i β)2 +λj =0 ∑n ∣βj ∣=i =1 ∑p (y i −X i β)+λ∣β∣
其中λ \lambda λ称为正则化参数，如果λ \lambda λ选取过大，会把所有参数θ均最小化，造成欠拟合，如果λ \lambda λ选取过小，会导致对过拟合问题解决不当。
岭回归与Lasso回归最大的区别在于岭回归引入的是L2范数惩罚项，Lasso回归引入的是L1范数惩罚项。Lasso回归能够使得损失函数中的许多β \beta β均变成0，这点要优于岭回归，因为岭回归是要所有的β \beta β均存在的，这样计算量Lasso回归将远远小于岭回归。（ 升级版的逐步回归）
Lasso的缺点也很明显，Lasso没有显示解，只能使用近似估计算法（坐标轴下降法和最小角回归法）

案例分析

分析棉花年产量与种子费，化肥费，农药费，机械费，灌溉费之间的关系

因为数据量纲一致，所以不需要对数据进行标准化处理，我们可以使用stata来对数据进行回归处理，在回归处理结束后，计算β \beta β的方差膨胀因子检验变量之间是否存在多重共线性

我们可以明显看到回归系数的V I F VIF V I F明显大于10，因此变量之间有较强的多重共线性。
由于lasso回归的计算量显著小于岭回归，因此我们在处理多重共线性回归分析中大多使用lasso回归，在选择λ \lambda λ时，岭迹分析法具有较强的主观性，不利于准确的测定，而V I F VIF V I F法在实际中几乎不用，因为岭回归基本筛选不出变量，所以在实际生活大多使用 最小化均方预测误差方法。

通过对数据进行最小化均方预测误差，stata会在最小的MSPE的一栏中标注*号，以此确定合适的λ \lambda λ的值。
数学建模学习：岭回归和lasso回归

上表右边第1列即为Lasso所估计的变量系数。其中，除常数项外，只有3个变量的系数为非零，而其余变量（未出现在表中）的系数则为 0。考虑到作为收缩估计量的Lasso存在偏差（bias），上表右边第2列汇报了”Post Lasso”估计量的结果，即仅使用Lasso进行变量筛选，然后扔掉 Lasso 的回归系数，再对筛选出来的变量进行OLS回归。
注意：以上结果可能随着我们之前设置的随机数种子变化，因为lasso回归的估计是近似算法，且剔除的多重共线性变量是相对的。

; 总结

岭回归在stata使用中会存在bug，如遇到需要岭回归计算的问题，最好使用python实现
何时使用lasso回归：
我们首先使用一般的OLS对数据进行回归，然后计算方差膨胀因子V I F VIF V I F，如果V I F VIF V I F>10时，变量之间存在多重共线性，此时我们需要对变量进行筛选。
我们可以使用逐步回归法来筛选自变量，让回归中仅留下显著的自变量来抵消多重共线性的影响，在学习lasso后可以把lasso回归视为逐步回归法的进阶版，我们可以使用lasso回归来帮我们筛选出不重要的变量，步骤如下：
（1）判断自变量的量纲是否一样，如果不一样则首先进行标准化的预处理；（2）对变量使用lasso回归，记录下lasso回归结果表中回归系数不为0的变量，这些变量就是最终我们要留下来的重要变量，其余未出现在表中的变量可视为引起多重共线性的不重要变量。
在得到了重要变量后，我们实际上就完成了变量筛选，此时我们只将这些重要变量视为自变量，然后进行回归，并分析回归结果即可。（注意：此时的变量可以是标准化前的，也可以是标准化后的，因为lasso只起到变量筛选的目的）

岭回归python代码

def reg_model_Ridge(x,y,alphas,dim):
    '''
    ；岭回归估计
    :param x:
    :param y:
    :param alphas: 随机生成多个模型参数Lambda
    :param dim:维度
    :return: ridge_B 最优模型的系数
    '''
    model_coff=[]
    for alpha in alphas:
        ridge = Ridge(alpha=alpha,normalize=True)
        ridge.fit(x,y)
        model_coff.append(ridge.coef_)

    ridge_cv= RidgeCV(alphas=alphas,normalize=True,scoring="neg_mean_absolute_error", cv=5)
    ridge_cv.fit(x,y)
    ridge_best_lambda = ridge_cv.alpha_

    ridge = Ridge(alpha=ridge_best_lambda,normalize=True)
    ridge.fit(x,y)

    ridge_B = ridge.coef_
    return ridge_B

Original: https://blog.csdn.net/m0_64319570/article/details/124946897
Author: ЖSean
Title: 数学建模学习：岭回归和lasso回归

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/626428/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

经典卷积网络–ResNet残差网络

经典卷积网络–ResNet残差网络 1、ResNet残差网络 2、tf.keras实现残差结构 3、tensorflow2.0实现ResNet18(使用CIFAR10数…

人工智能 2023年5月23日
0053
协同过滤算法在海量数据下的性能如何

问题描述本文主要解决的问题是协同过滤算法在海量数据下的性能问题。协同过滤是一种常用的推荐算法，其通过分析用户之间的相似度来预测用户对物品的评分或者进行推荐。然而，在处理海量数据时…

人工智能 2024年1月2日
0031
【强化学习】Actor-Critic（演员-评论家）算法详解

1 Actor Critic算法简介 1.1 为什么要有Actor Critic Actor-Critic的Actor的前身是Policy Gradient，这能让它毫不费力地在连…

人工智能 2023年7月27日
0057
推荐系统（6）：推荐算法之基于内容的推荐算法

目录 0. 相关文章链接 1. 什么是基于内容的推荐算法 2. 基于内容的推荐算法举例 3. 基于内容的推荐算法总结 4. 相似度计算 5. 基于内容推荐系统的高层次结构 6. 基…

人工智能 2023年6月15日
00100
【计算机图形学】poisson Image Editing泊松图像融合算法

poissonImageEditing 1. 概述为了解决将源图像的一部分区域ROI(Region of Interest)直接复制到目标图像时，边界过渡不自然的问题，如下图中间…

人工智能 2023年6月20日
0071
Dev C++详细安装教程及软件下载

C++安装步骤（软件下载链接在文末） 1、双击”Dev-C++Setup.exe”运行安装程序。 2、点击 OK，暂时先不选择语言，默认选择English。…

人工智能 2023年6月27日
00114
MATLAB —— 曲线拟合

《 MATLAB_在日常计算中的应用》由大量的 _MATLAB_计算实例组成。通俗易懂，图文并茂，资料丰富，实用性强。提供大量 _MATLAB_计算实例以及全部实例的M文件，方便读…

人工智能 2023年6月18日
0076
创新实践 | SaaS增长新趋势：产品驱动增长PLG（下）

SaaS产品增长第一步，一定是找方向，SaaS产品的北极星指标处于商业目标，用户价值，和战略选择的交点上，且一般落实在功能使用量上。与To C产品的AARRR略有不同，To B S…

人工智能 2023年6月4日
0046
聚类分析①

1、概念 1.1 聚类的定义聚类(Clustering)是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的…

人工智能 2023年5月31日
0082
【个人】服务器命令记录

docker run –name=yolo6.1.1 -itd –gpus all –restart=always -p 2299:22 liy…

人工智能 2023年6月4日
0093
PYTORCH学习（3）：多维tensors求余弦相似度和欧氏距离

1、为什么要写这篇blog 因为最近在使用pytorch复现关于图像处理的深度学习论文时，需要求4维张量与4维张量（Batch，Channel，sizeA，sizeB）的余弦相似度…

人工智能 2023年6月24日
0065
瑞芯微RV1126/1109开发流程之opencv交叉编译

1、下载opencv并解压这里的opencv版本是我一直用者的opencv3.4.0没有opencv的可以到这里（https://opencv.org/releases/page/…

人工智能 2023年7月19日
0053
Autoware入门到精通

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月27日
0056
正则化的线性回归：岭回归和 Lasso 回归

目录 1. 岭回归 2. Lasso 回归 3.Lasso回归和岭回归的同和异：参考资料引言 注：正则化是用来防止过拟合的方法。在最开始学习机器学习的课程…

人工智能 2023年6月18日
0085
MacOS 使用miniconda 虚拟环境 TensorFlow深度学习环境

TensorFlow 官网地址 https://tensorflow.google.cn/ TensorFlow 2 软件包需要使用高于 19.0 的 pip 版本（对于 macO…

人工智能 2023年5月23日
0094
Python 大数据的进行信用卡欺诈检测（附源码与注释）

本案例可用于帮助大家对前面知识的掌握，同样也可以用于毕业设计等用途，我写文的初衷只是帮助大家对知识的掌握。一、背景和目的该数据集包含使用信用卡进行的金融交易的数据。这些数据是指…

人工智能 2023年7月15日
0059

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30