【数模/预测】岭回归和Lasso回归

声明:文章参考数学建模清风的网课编写。

多元线性回归,假设x 1 , x 2 , . . . , x p x_{1},x_{2},…,x_{p}x 1 ​,x 2 ​,…,x p ​是自变量, y y y是因变量,且满足如下线性关系:y i = β 0 + ∑ j β j x i j + μ i , i = 1 , 2 , . . . , n ; j = 1 , 2 , . . . , p ; y_{i} = \beta {0} + \sum{j}\beta {j} \ x{ij} + \mu {i}, \ \ i = 1, 2, …, n; \ \ j = 1, 2, …, p;y i ​=β0 ​+j ∑​βj ​x ij ​+μi ​,i =1 ,2 ,…,n ;j =1 ,2 ,…,p ;其中β 0 , β 1 , . . . , β p \beta {0},\beta {1},…,\beta {p}β0 ​,β1 ​,…,βp ​为回归系数,μ i \mu_{i}μi ​为无法观测且满足一定条件的扰动项。

一般求解多元线性回归系数使用的方法为: 普通最小二乘法(OLS)

那么,最小二乘法是如何求解回归系数呢?

β ^ \hat{\beta}β^​的取值依赖于,预测值与真实值的偏差∑ i = 1 n ∣ y i − y i ^ ∣ \sum_{i=1}^{n} |y_{i} – \hat{y_{i}}|∑i =1 n ​∣y i ​−y i ​^​∣。预测值与真实值的偏差最小时取得β ^ \hat{\beta}β^​。
μ i \mu_{i}μi ​被称为残差∣ y i − y i ^ ∣ |y_{i} – \hat{y_{i}}|∣y i ​−y i ​^​∣。
可以理解为:线性回归就是从对原始数据拟合的多条直线中取了偏差最小的一条。

最小二乘法求解回归系数步骤:
1.建立方程,即误差与系数之间的方程。当误差值取最小时的系数即为回归系数:
设有n个因变量Y Y Y以及n列自变量X X X:Y = [ y 1 y 2 ⋮ y n ] , X = [ X 1 , X 2 , . . . , X n ] = [ x 11 x 12 … x 1 n x 21 x 22 … x 2 n ⋮ ⋮ ⋱ ⋮ x p 1 x p 2 … x p n ] Y = \begin{bmatrix} y_{1}\ y_{2}\ \vdots \ y_{n} \end{bmatrix}, X = \begin{bmatrix} X_{1}, X_{2} , … , X_{n} \end{bmatrix} = \begin{bmatrix} x_{11}& x_{12}& \dots & x_{1n}\ x_{21}& x_{22}& \dots & x_{2n}\ \vdots & \vdots & \ddots & \vdots\ x_{p1}& x_{p2}& \dots & x_{pn} \end{bmatrix}Y =⎣⎡​y 1 ​y 2 ​⋮y n ​​⎦⎤​,X =[X 1 ​,X 2 ​,…,X n ​​]=⎣⎡​x 11 ​x 21 ​⋮x p 1 ​​x 12 ​x 22 ​⋮x p 2 ​​……⋱…​x 1 n ​x 2 n ​⋮x p n ​​⎦⎤​我们可以找到一组系数:β = [ β 1 β 2 ⋮ β p ] \beta = \begin{bmatrix} \beta_{1}\ \beta_{2}\ \vdots \ \beta_{p} \end{bmatrix}β=⎣⎡​β1 ​β2 ​⋮βp ​​⎦⎤​使得X ′ β X’\beta X ′β(矩阵运算)的值尽可能接近Y Y Y:Y ^ = X ′ β = [ X 1 ′ β X 2 ′ β ⋮ X n ′ β ] \hat{Y} = X’ \beta = \begin{bmatrix} X_{1}’\beta \ X_{2}’\beta\ \vdots \ X_{n}’\beta \end{bmatrix}Y ^=X ′β=⎣⎡​X 1 ′​βX 2 ′​β⋮X n ′​β​⎦⎤​定义误差(接近程度)为:Y − Y ^ = Y − X ′ β = [ Y 1 − X 1 ′ β Y 2 − X 2 ′ β ⋮ Y n − X n ′ β ] Y – \hat{Y} = Y – X’ \beta = \begin{bmatrix} Y_{1} – X_{1}’\beta \ Y_{2} – X_{2}’\beta\ \vdots \ Y_{n} – X_{n}’\beta \end{bmatrix}Y −Y ^=Y −X ′β=⎣⎡​Y 1 ​−X 1 ′​βY 2 ​−X 2 ′​β⋮Y n ​−X n ′​β​⎦⎤​进一步消除误差的符号,对每一项平方再相加。得到接近程度的最终表示式:L = ( Y − Y ^ ) ′ ( Y − Y ^ ) = [ Y 1 − X 1 ′ β , Y 2 − X 2 ′ β , . . . , Y n − X n ′ β ] [ Y 1 − X 1 ′ β Y 2 − X 2 ′ β ⋮ Y n − X n ′ β ] \begin{align} L &= (Y – \hat{Y})'(Y – \hat{Y}) \ &= \left [ Y_{1} – X_{1}’\beta, \ \ \ Y_{2} – X_{2}’\beta,…, \ \ \ Y_{n} – X_{n}’\beta\right ]\begin{bmatrix} Y_{1} – X_{1}’\beta \ Y_{2} – X_{2}’\beta\ \vdots \ Y_{n} – X_{n}’\beta \end{bmatrix} \end{align}L ​=(Y −Y ^)′(Y −Y ^)=[Y 1 ​−X 1 ′​β,Y 2 ​−X 2 ′​β,…,Y n ​−X n ′​β]⎣⎡​Y 1 ​−X 1 ′​βY 2 ​−X 2 ′​β⋮Y n ​−X n ′​β​⎦⎤​​

2.对建立的方程求导。利用一阶导数为0,二阶导数大于零求最小值:
对L L L求导涉及对矩阵求导,因此这里只给出求导结果(这里使用β ^ \hat{\beta}β^​,因为求解出的是系数的估计值):∂ L ∂ β ^ = − 2 X ′ Y + 2 X ′ X β ^ \frac{\partial L}{\partial \hat{\beta} } = -2X’Y + 2X’X\hat{\beta}∂β^​∂L ​=−2 X ′Y +2 X ′X β^​

可以求出并证明二阶导数是大于0的,由一阶导数可以得到:β ^ = ( X ′ X ) − 1 Y \hat{\beta} = (X’X)^{-1}Y β^​=(X ′X )−1 Y时误差最小,此时取得回归系数的估计值。

最小二乘法存在的问题:
由回归系数表达式β ^ = ( X ′ X ) − 1 Y \hat{\beta} = (X’X)^{-1}Y β^​=(X ′X )−1 Y,其中( X ′ X ) − 1 (X’X)^{-1}(X ′X )−1读作: X的转置乘X的逆

可知使用最小二乘法估计回归系数必须要求 X的转置乘X的逆存在,而当自变量存在完全多重共线性时会导致 X的转置乘X的逆不存在。

那么,如何解决这一问题呢?

岭回归通过调整误差方程:L = ( Y − Y ^ ) ′ ( Y − Y ^ ) + λ ∑ i = 1 p β i 2 , λ > 1 L = (Y – \hat{Y})'(Y – \hat{Y}) + \lambda \sum_{i=1}^{p} \beta _{i}^{2}, \ \ \ \ \lambda> 1 L =(Y −Y ^)′(Y −Y ^)+λi =1 ∑p ​βi 2 ​,λ>1经过调整后,对方程求导:∂ L ∂ β ^ = − 2 X ′ Y + 2 X ′ X β ^ + 2 λ β ^ \frac{\partial L}{\partial \hat{\beta} } = -2X’Y + 2X’X\hat{\beta}+2\lambda\hat{\beta}∂β^​∂L ​=−2 X ′Y +2 X ′X β^​+2 λβ^​可以求出并证明二阶导数是大于0的,由一阶导数可以得到:β ^ = ( X ′ X + λ I ) − 1 X ′ Y \hat{\beta} = (X’X+\lambda I)^{-1}X’Y β^​=(X ′X +λI )−1 X ′Y可以证明:当λ > 1 \lambda> 1 λ>1时,( X ′ X + λ I ) − 1 (X’X+\lambda I)^{-1}(X ′X +λI )−1总是存在的问题迎刃而解。

岭回归需要选择合适的λ \lambda λ值:

使用最小化均方误差的方式估计λ \lambda λ值:我们使⽤ K 折交叉验证的⽅法来选择最佳的调整参数。所谓的K 折交叉验证,是说将样本数据随机分为 K 个等分。将第 1 个⼦样本作为 “验证集”(validation set)⽽保留不⽤,⽽使⽤其余 K-1 个⼦样本作为 “训练集”(training set)来估计此模型,再以此预测第 1 个⼦样本,并计算第1个⼦样本的 “均⽅预测误差”(Mean Squared Prediction Error)。其次,将第 2 个⼦样本作为验证集,⽽使⽤其余 K-1 个⼦样本作为训练集来预测第2个⼦样本,并计算第 2 个⼦样本的 MSPE。以此类推,将所有⼦样本的 MSPE 加总,即可得整个样本的 MSPE。最后,选择调整参数 ,使得整个样本的 MSPE 最⼩,故具有最佳的预测能⼒。

与岭回归基本相同,此时:L = ( Y − Y ^ ) ′ ( Y − Y ^ ) + λ ∑ i = 1 p ∣ β i ∣ L = (Y – \hat{Y})'(Y – \hat{Y}) + \lambda \sum_{i=1}^{p} |\beta _{i}|L =(Y −Y ^)′(Y −Y ^)+λi =1 ∑p ​∣βi ​∣Lasso回归与相比,最大特点是可以将不重要的变量回归系数压缩至0(可以用来筛选变量,相当于高级逐步回归),岭回归虽然也对原本的系数进行了一定程度上的压缩,但不会压缩为0,最终会保留所有变量。

缺点是:无显式解,只能使用近似估计算法,估计结果不稳定存在误差。

当变量存在多重共线性时,方差膨胀因子VIF>10则说明存在多重共线性的问题,此时我们需要对变量进行筛选。

使用Lasso回归得到了重要变量后,我们实际上就完成了变量筛选,此时我们只将这些重要变量视为自变量,然后进行回归,并分析回归结果即可。(注意:此时的变量可以是标准化前的,也可以是标准化后的,因为lasso只起到变量筛选的目的)。

Original: https://blog.csdn.net/qq_55799677/article/details/126230555
Author: 智子、
Title: 【数模/预测】岭回归和Lasso回归

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/634026/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球