【数模/预测】岭回归和Lasso回归

2023年6月18日上午6:35 • 人工智能 • 阅读 77

声明：文章参考数学建模清风的网课编写。

多元线性回归，假设x 1 , x 2 , . . . , x p x_{1},x_{2},…,x_{p}x 1 ,x 2 ,…,x p 是自变量， y y y是因变量，且满足如下线性关系：y i = β 0 + ∑ j β j x i j + μ i , i = 1 , 2 , . . . , n ; j = 1 , 2 , . . . , p ; y_{i} = \beta {0} + \sum{j}\beta {j} \ x{ij} + \mu {i}, \ \ i = 1, 2, …, n; \ \ j = 1, 2, …, p;y i =β0 +j ∑βj x ij +μi ,i =1 ,2 ,…,n ;j =1 ,2 ,…,p ;其中β 0 , β 1 , . . . , β p \beta {0},\beta {1},…,\beta {p}β0 ,β1 ,…,βp 为回归系数，μ i \mu_{i}μi 为无法观测且满足一定条件的扰动项。

一般求解多元线性回归系数使用的方法为： 普通最小二乘法（OLS）。

那么，最小二乘法是如何求解回归系数呢？

β ^ \hat{\beta}β^的取值依赖于，预测值与真实值的偏差∑ i = 1 n ∣ y i − y i ^ ∣ \sum_{i=1}^{n} |y_{i} – \hat{y_{i}}|∑i =1 n ∣y i −y i ^∣。预测值与真实值的偏差最小时取得β ^ \hat{\beta}β^。
μ i \mu_{i}μi 被称为残差∣ y i − y i ^ ∣ |y_{i} – \hat{y_{i}}|∣y i −y i ^∣。
可以理解为：线性回归就是从对原始数据拟合的多条直线中取了偏差最小的一条。

最小二乘法求解回归系数步骤：
1.建立方程，即误差与系数之间的方程。当误差值取最小时的系数即为回归系数：
设有n个因变量Y Y Y以及n列自变量X X X:Y = [ y 1 y 2 ⋮ y n ] , X = [ X 1 , X 2 , . . . , X n ] = [ x 11 x 12 … x 1 n x 21 x 22 … x 2 n ⋮ ⋮ ⋱ ⋮ x p 1 x p 2 … x p n ] Y = \begin{bmatrix} y_{1}\ y_{2}\ \vdots \ y_{n} \end{bmatrix}, X = \begin{bmatrix} X_{1}, X_{2} , … , X_{n} \end{bmatrix} = \begin{bmatrix} x_{11}& x_{12}& \dots & x_{1n}\ x_{21}& x_{22}& \dots & x_{2n}\ \vdots & \vdots & \ddots & \vdots\ x_{p1}& x_{p2}& \dots & x_{pn} \end{bmatrix}Y =⎣⎡y 1 y 2 ⋮y n ⎦⎤,X =[X 1 ,X 2 ,…,X n ]=⎣⎡x 11 x 21 ⋮x p 1 x 12 x 22 ⋮x p 2 ……⋱…x 1 n x 2 n ⋮x p n ⎦⎤我们可以找到一组系数：β = [ β 1 β 2 ⋮ β p ] \beta = \begin{bmatrix} \beta_{1}\ \beta_{2}\ \vdots \ \beta_{p} \end{bmatrix}β=⎣⎡β1 β2 ⋮βp ⎦⎤使得X ′ β X’\beta X ′β(矩阵运算)的值尽可能接近Y Y Y:Y ^ = X ′ β = [ X 1 ′ β X 2 ′ β ⋮ X n ′ β ] \hat{Y} = X’ \beta = \begin{bmatrix} X_{1}’\beta \ X_{2}’\beta\ \vdots \ X_{n}’\beta \end{bmatrix}Y ^=X ′β=⎣⎡X 1 ′βX 2 ′β⋮X n ′β⎦⎤定义误差（接近程度）为：Y − Y ^ = Y − X ′ β = [ Y 1 − X 1 ′ β Y 2 − X 2 ′ β ⋮ Y n − X n ′ β ] Y – \hat{Y} = Y – X’ \beta = \begin{bmatrix} Y_{1} – X_{1}’\beta \ Y_{2} – X_{2}’\beta\ \vdots \ Y_{n} – X_{n}’\beta \end{bmatrix}Y −Y ^=Y −X ′β=⎣⎡Y 1 −X 1 ′βY 2 −X 2 ′β⋮Y n −X n ′β⎦⎤进一步消除误差的符号，对每一项平方再相加。得到接近程度的最终表示式：L = ( Y − Y ^ ) ′ ( Y − Y ^ ) = [ Y 1 − X 1 ′ β , Y 2 − X 2 ′ β , . . . , Y n − X n ′ β ] [ Y 1 − X 1 ′ β Y 2 − X 2 ′ β ⋮ Y n − X n ′ β ] \begin{align} L &= (Y – \hat{Y})'(Y – \hat{Y}) \ &= \left [ Y_{1} – X_{1}’\beta, \ \ \ Y_{2} – X_{2}’\beta,…, \ \ \ Y_{n} – X_{n}’\beta\right ]\begin{bmatrix} Y_{1} – X_{1}’\beta \ Y_{2} – X_{2}’\beta\ \vdots \ Y_{n} – X_{n}’\beta \end{bmatrix} \end{align}L =(Y −Y ^)′(Y −Y ^)=[Y 1 −X 1 ′β,Y 2 −X 2 ′β,…,Y n −X n ′β]⎣⎡Y 1 −X 1 ′βY 2 −X 2 ′β⋮Y n −X n ′β⎦⎤

2.对建立的方程求导。利用一阶导数为0，二阶导数大于零求最小值：
对L L L求导涉及对矩阵求导，因此这里只给出求导结果（这里使用β ^ \hat{\beta}β^，因为求解出的是系数的估计值）：∂ L ∂ β ^ = − 2 X ′ Y + 2 X ′ X β ^ \frac{\partial L}{\partial \hat{\beta} } = -2X’Y + 2X’X\hat{\beta}∂β^∂L =−2 X ′Y +2 X ′X β^

可以求出并证明二阶导数是大于0的，由一阶导数可以得到：β ^ = ( X ′ X ) − 1 Y \hat{\beta} = (X’X)^{-1}Y β^=(X ′X )−1 Y时误差最小，此时取得回归系数的估计值。

最小二乘法存在的问题：
由回归系数表达式β ^ = ( X ′ X ) − 1 Y \hat{\beta} = (X’X)^{-1}Y β^=(X ′X )−1 Y，其中( X ′ X ) − 1 (X’X)^{-1}(X ′X )−1读作： X的转置乘X的逆。

可知使用最小二乘法估计回归系数必须要求 X的转置乘X的逆存在，而当自变量存在完全多重共线性时会导致 X的转置乘X的逆不存在。

那么，如何解决这一问题呢？

岭回归通过调整误差方程：L = ( Y − Y ^ ) ′ ( Y − Y ^ ) + λ ∑ i = 1 p β i 2 , λ > 1 L = (Y – \hat{Y})'(Y – \hat{Y}) + \lambda \sum_{i=1}^{p} \beta _{i}^{2}, \ \ \ \ \lambda> 1 L =(Y −Y ^)′(Y −Y ^)+λi =1 ∑p βi 2 ,λ>1经过调整后，对方程求导：∂ L ∂ β ^ = − 2 X ′ Y + 2 X ′ X β ^ + 2 λ β ^ \frac{\partial L}{\partial \hat{\beta} } = -2X’Y + 2X’X\hat{\beta}+2\lambda\hat{\beta}∂β^∂L =−2 X ′Y +2 X ′X β^+2 λβ^可以求出并证明二阶导数是大于0的，由一阶导数可以得到：β ^ = ( X ′ X + λ I ) − 1 X ′ Y \hat{\beta} = (X’X+\lambda I)^{-1}X’Y β^=(X ′X +λI )−1 X ′Y可以证明：当λ > 1 \lambda> 1 λ>1时，( X ′ X + λ I ) − 1 (X’X+\lambda I)^{-1}(X ′X +λI )−1总是存在的问题迎刃而解。

岭回归需要选择合适的λ \lambda λ值：

使用最小化均方误差的方式估计λ \lambda λ值：我们使⽤ K 折交叉验证的⽅法来选择最佳的调整参数。所谓的K 折交叉验证，是说将样本数据随机分为 K 个等分。将第 1 个⼦样本作为 “验证集”（validation set）⽽保留不⽤，⽽使⽤其余 K-1 个⼦样本作为 “训练集”（training set）来估计此模型，再以此预测第 1 个⼦样本，并计算第1个⼦样本的 “均⽅预测误差”（Mean Squared Prediction Error）。其次，将第 2 个⼦样本作为验证集，⽽使⽤其余 K-1 个⼦样本作为训练集来预测第2个⼦样本，并计算第 2 个⼦样本的 MSPE。以此类推，将所有⼦样本的 MSPE 加总，即可得整个样本的 MSPE。最后，选择调整参数，使得整个样本的 MSPE 最⼩，故具有最佳的预测能⼒。

与岭回归基本相同，此时：L = ( Y − Y ^ ) ′ ( Y − Y ^ ) + λ ∑ i = 1 p ∣ β i ∣ L = (Y – \hat{Y})'(Y – \hat{Y}) + \lambda \sum_{i=1}^{p} |\beta _{i}|L =(Y −Y ^)′(Y −Y ^)+λi =1 ∑p ∣βi ∣Lasso回归与相比，最大特点是可以将不重要的变量回归系数压缩至0（可以用来筛选变量，相当于高级逐步回归），岭回归虽然也对原本的系数进行了一定程度上的压缩，但不会压缩为0，最终会保留所有变量。

缺点是：无显式解，只能使用近似估计算法，估计结果不稳定存在误差。

当变量存在多重共线性时，方差膨胀因子VIF>10则说明存在多重共线性的问题，此时我们需要对变量进行筛选。

使用Lasso回归得到了重要变量后，我们实际上就完成了变量筛选，此时我们只将这些重要变量视为自变量，然后进行回归，并分析回归结果即可。（注意：此时的变量可以是标准化前的，也可以是标准化后的，因为lasso只起到变量筛选的目的）。

Original: https://blog.csdn.net/qq_55799677/article/details/126230555
Author: 智子、
Title: 【数模/预测】岭回归和Lasso回归

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/634026/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

NanoDet代码逐行精读与修改（四）动态软标签分配：dynamic soft label assigner

–neozng1@hnu.edu.cn 4. Dynamic Soft Label Assigner 4.1. 初始化和参数 4.2. 筛除不在ground truth…

人工智能 2023年7月9日
0064
深度学习中的卷积操作

本文从信号处理中的 互相关运算 引入 深&amp…

人工智能 2023年7月31日
00146
有空就学学的实例分割1——Tensorflow2搭建Mask R-CNN实例分割平台

有空就学学的实例分割1——Tensorflow2搭建Mask R-CNN实例分割平台学习前言什么是Mask R-CNN 源码下载 Mask R-CNN实现思路 * 一、预测部分…

人工智能 2023年5月26日
0059
Series对象（生成，访问和使用）

Series对象的生成使用Pandas.Series pandas.Series( data, index, dtype, copy)data:数据,可以是序列类型，可以是int…

人工智能 2023年7月8日
0075
音频基础 2

02｜如何量化分析语音信号？语音的基本特征根据发音原理，语音可分为清音和清音。语音的声调和能量分布可以通过基频、谐波、共振峰等特征进行分析。为了更好地分析言语，我们首先来看看言…

人工智能 2023年5月25日
0069
【深度学习】ROI Pooling 和 ROI Align 计算机视觉目标检测

文章目录 ROI Pooling和ROI Align：一篇好的文章 ROI Pooling 如何计算？ AdaptiveMaxPool2d 在做啥 Fast RCNN或者Fast…

人工智能 2023年5月28日
00135
深度聚类：将深度表示学习和聚类联合优化

参考文献：简介经典聚类即数据通过各种表示学习技术以矢量化形式表示为特征。随着数据变得越来越复杂和复杂，浅层（传统）聚类方法已经无法处理高维数据类型。结合深度学习优势的一种直接方…

人工智能 2023年5月31日
0074
【声音可视化】语音学软件：praat

; 语音分析软件：praat praat是一款便捷好用，并且免费的语音分析软件。可以协助我们完成对声音的多维度可视化分析，这里总结一些经验给大家~ 官网 ohttps://www….

人工智能 2023年5月25日
0093
Learning Transferable Features with Deep Adaptation Networks

研究发现，随着domain之间差异性的增大，高层特征的可迁移性显著下降。作者针对这种情况，提出了”多核”和”多层”的想法，&#822…

人工智能 2023年6月17日
0077
TransFuse跑自己的数据集

原始链接如下 1.数据准备一级目录，数据分为训练（train）、验证（val）、测试（test），如果数据少的话验证和测试一样也行，但是一定都要有，因为代码里有个地方写死了，当然…

人工智能 2023年7月27日
0061
机器学习强基计划0-3：数据集核心知识串讲，构造方法解析

目录 0 写在前面 1 数据集是什么？ 2 真相与泛化性 3 数据集的分类 4 数据集的构造方法 * 4.1 留出法 4.2 k k k 折交叉验证 4.3 自助法 ; 0 写在前…

人工智能 2023年7月26日
0067
Adam优化器（通俗理解）

网上关于Adam优化器的讲解有很多，但总是卡在某些部分，在此，我将部分难点解释进行了汇总。理解有误的地方还请指出。 Adam，名字来自： Adaptive Moment Estim…

人工智能 2023年7月29日
0061
Jetson nano部署Yolov5 ——从烧录到运行 1:1复刻全过程

前言因为一次竞赛接触了jetson nano和yolov5，网上的资料大多重复也有许多的坑，在配置过程中摸爬滚打了好几天，出坑后决定写下这份教程供大家参考事先声明，这篇文章的许…

人工智能 2023年7月30日
00116
[Python]如何在新版Pycharm中配置pip源与安装openCV等库

pycharm版本：2022.2.2 222.4167.33 一、配置pip源（此处用清华源做演示）配置pip源的目的是提高文件的下载速度第二步：点击”管理仓库&#…

人工智能 2023年6月19日
00118
云服务器安装detectron2报错

硬件环境： 1、显卡：2080Ti2、CUDA环境：cuda11.1 虚拟环境： 1、python：3.82、pytorch：1.10.1+cu1113、torchvision ：…

人工智能 2023年7月22日
00141
Pytorch—猫狗分类实战

本案例使用 jupyter notebook 实现数据集来源 https://www.kaggle.com/biaiscience/dogs-vs-cats 查看数据集数据集共…

人工智能 2023年7月1日
0066

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【数模/预测】岭回归和Lasso回归

大家都在看