详解岭回归与L2正则化

2023年6月16日下午8:22 • 人工智能 • 阅读 67

在上文中(一文让你彻底搞懂最小二乘法（超详细推导）)，我们经过推导得到了最小二乘法的解析解 θ = ( X T X ) − 1 X T Y \theta=\left(X^{T} X\right)^{-1} X^{T} Y θ=(X T X )−1 X T Y，其中X X X 为观测到的将样本按行排列的特征矩阵，假设大小为m × n m \times n m ×n，则 m m m 代表样本的个数, n n n 代表样本的特征数。

PS：解析解其实很好记
X θ = y X T X θ = X T y θ = ( X T X ) − 1 X T y X \theta=y \ X^{T} X \theta=X^{T} y \ \theta=\left(X^{T} X\right)^{-1} X^{T} y X θ=y X T X θ=X T y θ=(X T X )−1 X T y

有了解析解，在得到观测数据后，直接带入公式即可算出参数θ \theta θ。然而在实际应用中可能会面临一个情况：X T X X^{T} X X T X不可逆，显然这个式子就没法计算了，那么这个时候应该怎么办呢？

下面先具体分析导致最小二乘法失效的情况，然后再给出常用的解决方法。

最小二乘法中的不可逆与病态问题

当X T X X^{T} X X T X为奇异矩阵时（不可逆），此时最小二乘法的解析解无法进行计算。导致X T X X^{T} X X T X不可逆比较可能的原因是X X X中的列向量线性相关，即数据中存在特征冗余，某些特征可以根据其它特征的线性组合来得到。

奇异矩阵：对于一个方阵，若该方阵的行列式等于0，则称该方阵为奇异矩阵，若不等于0，则称为非奇异矩阵。由此：不逆矩阵⇔ \Leftrightarrow ⇔奇异矩阵

事实上，除了不可逆外，当X T X X^{T} X X T X为 病态矩阵(ill-conditioned matrix) 时，最小二乘法也会失效，此时虽然也能按照解析解进行计算，但由于解的方差过大，不稳定，结果精度很差。

病态矩阵，一言蔽之，就是在 求解方程组时对数据的微小扰动比较敏感的矩阵。比如在求解方程组A x = b Ax=b A x =b时，如果我们对系数矩阵A A A或右端项b b b进行了一个微小的扰动，算出的解和原方程组的解差别很大，这样的矩阵A A A就称为病态矩阵。

举个例子，比如对于方程组：
[ 400 − 201 − 800 401 ] [ x 1 x 2 ] = [ 200 − 200 ] \left[\begin{array}{cc}400 & -201 \ -800 & 401\end{array}\right]\left[\begin{array}{l}x_{1} \ x_{2}\end{array}\right]=\left[\begin{array}{c}200 \ -200\end{array}\right][4 0 0 −8 0 0 −2 0 1 4 0 1 ][x 1 x 2 ]=[2 0 0 −2 0 0 ]

解为x 1 = − 100 , x 2 = − 200 x_1=-100,x_2=-200 x 1 =−1 0 0 ,x 2 =−2 0 0，如果我们对A A A施加一个微小的扰动，比如400改成401，则方程组：
[ 401 − 201 − 800 401 ] [ x 1 x 2 ] = [ 200 − 200 ] \left[\begin{array}{cc}401 & -201 \ -800 & 401\end{array}\right]\left[\begin{array}{l}x_{1} \ x_{2}\end{array}\right]=\left[\begin{array}{c}200 \ -200\end{array}\right][4 0 1 −8 0 0 −2 0 1 4 0 1 ][x 1 x 2 ]=[2 0 0 −2 0 0 ]

会得到一个截然不同的解：x 1 = 40000 , x 2 = 79800 x_1=40000,x_2=79800 x 1 =4 0 0 0 0 ,x 2 =7 9 8 0 0。

由于数据X X X我们是通过观测得来的，其本身就存在一定的误差，这是不可避免也是正常的，但这个误差却导致了方程组解的截然不同，这就说明这个方程的结果缺乏稳定性。理想情况下方程组应该对数据微小的扰动具有抗噪性，保证其解的大体一致。

一般用 条件数来衡量矩阵的病态程度，条件数定义为：矩阵的范数，乘以其逆矩阵的范数，即：
cond ⁡ ( A ) = ∥ A ∥ ⋅ ∥ A − 1 ∥ \operatorname{cond}(A)=\|A\| \cdot\left\|A^{-1}\right\|c o n d (A )=∥A ∥⋅∥∥A −1 ∥∥
条件数的具体值依赖于矩阵范数的选取，比如可以选1范数、2范数、无穷范数等（各种矩阵范式的定义和计算方式见矩阵范数与向量范数的公式及其理解），虽然值有所不同，但相对大小一致。

条件数越大，矩阵越病态，越接近不可逆，从而也越难得到精确解。极端情况下，当A A A不可逆时，条件数为无穷，这时我们即使不改变b b b，解x x x也可以改变（因为有无穷组解）。当然判断是否病态有时候不需要去计算条件数，可以通过经验观察得知，比如矩阵行/列近似相关，元素间相差较大数量级等情况下通常容易出现病态。

病态问题在最小二乘法法中是容易出现的，比如当我们在处理包含较多自变量的大型回归问题时，由于自变量较多, 有时难免自变量间存在近似的线性关系从而导致特征矩阵的列向量近似线性相关, 即呈现出病态，这时最小二乘估计的的精度较差, 会表现出相当的不稳定。

岭回归

从上述分析我们知道传统的最小二乘法在矩阵不可逆或病态的情况下缺乏稳定性与可靠性。 岭回归是一种改良版的最小二乘法，它放弃了最小二乘法的无偏性，但更加稳定可靠，在实际应用中也更加常用。

先给出结论，岭回归解为：
θ = ( X T X + λ I ) − 1 X T y \theta=\left(X^{T} X+\lambda I\right)^{-1} X^{T} y θ=(X T X +λI )−1 X T y

其中λ λλ是一个超参数，称为岭系数，I I I是单位矩阵（由于对角线全是1，看起来像 “山岭”，由此得名岭回归）。

可以看到，相比传统最小二乘法，它加入了一个常数λ乘以单位矩阵的扰动λ I \lambda I λI，这使得( X T X + λ I ) \left(X^{T} X+\lambda I\right)(X T X +λI )一定可逆，保证能进行计算。

因为，对于任意非零向量u u u，有：
u ⊤ X T X u = ( X u ) T X u ⟶ 令 v = X u v T v ≥ 0 u^{\top} X^{T} X u=(X u)^{T} X u \stackrel{\text { 令 } v=X u}{\longrightarrow} v^{T} v \geq 0 u ⊤X T X u =(X u )T X u ⟶令v =X u v T v ≥0

所以( X T X ) \left(X^{T} X \right)(X T X )是半正定矩阵，那么对于任意的实数λ > 0 \lambda >0 λ>0，X T X + λ I X^{T} X +\lambda I X T X +λI必正定，一定可逆。

半正定矩阵：设A A A 为n n n阶方阵，A ∈ R n × n A \in R^{n \times n}A ∈R n ×n，如果对于任意的非零向量 X ∈ R n X \in R^{n}X ∈R n ，都有 X T A X ≥ 0 X^{T} A X \geq 0 X T A X ≥0 ，则称A A A为半正定矩阵，如果严格X T A X > 0 X^{T} A X > 0 X T A X >0 ，则称A A A为正定矩阵。

老实讲，线代里面的概念真不少……，但很多概念又是互相等价的（只是侧重点不同），长时间不用就容易忘记了，这里我从网上收集进行了整理，如下

A ∈ R n × n \mathbf{A} \in \mathbb{R}^{n \times n}A ∈R n ×n，A A A可逆的等价于：

A A A的行列式∣ A ∣ | A |∣A ∣不等于0
A A A是非奇异矩阵
A A A为满秩矩阵，即rank ⁡ ( A ) = n \operatorname{rank}(A)=n r a n k (A )=n
A的行（列）向量组线性无关
齐次方程组A x = 0 \mathbf{A x}=\mathbf{0}A x =0 只有零解，非齐次方程组A x = b \mathbf{A x}=\mathbf{b}A x =b 有且仅有唯一解x = A − 1 b \mathbf{x}=\mathbf{A}^{-1} \mathbf{b}x =A −1 b
A A A 与单位矩阵I I I等价（秩相等或可以经过初等行/列变换得到）
A T A A^{T} {A}A T A 是对称正定矩阵
A A A 所有的特征值非零

L2正则化

岭回归更多是从线性代数的角度来解释并解决传统最小二乘法的不可逆或病态问题。事实上，从机器学习角度来看，岭回归对应着L2正则化。

在机器学习中， 正则化（regularization）是防止模型过拟合（overfitting）、降低模型泛化误差的一类方法。

过拟合，简单来说就是模型对当前数据拟合得非常好，训练集上的误差损失甚至可以等于0，但是在实际应用中的泛化误差却很大。为什么会出现这种情况？

直观上来理解，我们在训练集上训练一个模型，目标是期望模型能够归纳学习出训练集中存在的普遍规律，之后好将该其应用于未知数据中。然而训练集是由我们观测、采集得到的，可能存在噪声、误差、错误等情况，在某些情况下（比如模型过于复杂），模型很有可能把这些噪声、错误的也学进去，也就是模型把当前训练集的特有规律学了，反而没有学到普遍规律，那么假如我们重新采样一批数据来训练，模型可能学到的又是别的东西，这将导致模型预测的结果非常不稳定，也就是具有很高的方差（variance）。

解决这类问题的一种有效方法是正则化，而正则化方法又包括很多，比如Norm penalty、Dropout、BatchNorm、LayerNorm等。Norm penalty的解决方法就是在原有的损失函数基础上增加一项对模型参数的惩罚项（penalty），其基本框架可以表示为：
J ( θ ) = argmin ⁡ [ L ( θ ) + λ P ( θ ) ] J(\theta)=\operatorname{argmin}[L(\theta)+\lambda P(\theta)]J (θ)=a r g m i n [L (θ)+λP (θ)]
其中惩罚项P ( θ ) P(\theta)P (θ)可以看作是我们提前对模型的参数应该具有的样子做了一个假设或者说是约束，比如L1正则化下，我们期望模型的参数应该是稀疏的，L2正则化下，我们期望模型的参数应该是很小，接近于0的。

为什么对模型参数进行惩罚可以防止模型过拟合？可以这么理解，大多情况下，过拟合主要是因为数据太少或者是模型过于复杂，解决方法要么增加数据，要么精简模型。参数惩罚相当于后者，它通过参数衰减（极端情况下衰减为0）的方式来使得数据中那些不重要的特征几乎不起作用，这样间接就实现了精简模型参数的效果。

在该框架视角下，岭回归即对应着在最小二乘法基础上增加了一个L2正则化，如下公式所示，其中第一项L ( θ ) L(\theta)L (θ)就是传统的优化项— 样本的误差平方和，第二项P ( θ ) P(\theta)P (θ)为L2正则化项：：
J ( θ ) = ∑ i = 1 n ( y i − f θ ( x i ) ) 2 + λ ∑ j = 1 m ( θ j 2 ) J(\theta)=\sum_{i=1}^{n}\left(y_{i}-f_\theta(x_i)\right)^{2}+\lambda \sum_{j=1}^{m}\left( {\theta}_j^2\right)J (θ)=i =1 ∑n (y i −f θ(x i ))2 +λj =1 ∑m (θj 2 )
将这个式子表达成矩阵形式：
J ( θ ) = ( X θ − Y ) T ( X θ − Y ) + λ θ T θ J(\theta)=(\mathbf{X} \theta-\mathbf{Y})^{T}(\mathbf{X} \theta-\mathbf{Y})+\lambda {\theta}^{T} \theta J (θ)=(X θ−Y )T (X θ−Y )+λθT θ
目标仍然不变，求使得该式值最小的θ \theta θ。对这个式子进行求导，第一项的导数在上文我们已经知道：∂ ∂ θ L ( θ ) = 2 X T X θ − 2 X T Y \frac{\partial}{\partial \theta} L(\theta)=2 X^{T} X \theta-2 X^{T} Y ∂θ∂L (θ)=2 X T X θ−2 X T Y，再次根据辣个公式∂ x T a ∂ x = ∂ a T x ∂ x = a \frac{\partial x^{T} a}{\partial x}=\frac{\partial a^{T} x}{\partial x}=a ∂x ∂x T a =∂x ∂a T x =a，第二项的导数可以求得：∂ ∂ θ λ P ( θ ) = 2 λ θ \frac{\partial}{\partial \theta} \lambda P(\theta)=2\lambda \theta ∂θ∂λP (θ)=2 λθ，（忘记的同学建议复习一下~），令其等于0：
∂ ∂ θ J ( θ ) = 2 X T X θ − 2 X T Y + 2 λ θ = 0 \frac{\partial}{\partial \theta} J(\theta)=2 X^{T} X \theta-2 X^{T} Y+2\lambda \theta=0 ∂θ∂J (θ)=2 X T X θ−2 X T Y +2 λθ=0
解得θ = ( X T X + λ I ) − 1 X T y \theta=\left(X^{T} X+\lambda I\right)^{-1} X^{T} y θ=(X T X +λI )−1 X T y，殊途同归！

补充一下，我们都知道，在误差符合高斯正态分布下，最小二乘法是最佳的线性无偏估计，而作为一种改良的最小二乘估计法，岭回归显然是有偏估计，它放弃了最小二乘法的无偏性来换取低方差，使得解相对稳定，这个性质也和正则化的普遍特性一致，即 以提升bias为代价来降低variance，这里借用网上的一张图来表示，岭回归和正则化所作的事情就是如下图中的从右上——>左下。

无偏估计：很多批次样本估计出来的参数值的平均值（更严格说应该是期望）和真实的参数值相等，如下图中Low Bias的两个图，与之相反，有偏估计如High Bias的两个图所示。

Reference
https://www.jianshu.com/p/1677d27e08a7
https://blog.csdn.net/weixin_44692890/article/details/120233459
https://zhuanlan.zhihu.com/p/85940993
https://zhuanlan.zhihu.com/p/464085937

如果对你有帮助，请点个赞让我知道:-D

Original: https://blog.csdn.net/MoreAction_/article/details/125004112
Author: 胤风
Title: 详解岭回归与L2正则化

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/626414/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数字图像与机器视觉基础补充(2)

@TOC 一、将彩色图像文件转换为灰度文件使用Opencv 1.使用Opencv import cv2 as cv img = cv.imread(‘D:\car.BMP’,1) …

人工智能 2023年6月22日
00104
基于MATLAB的图像去遮挡修复数字图像处理系统

资源下载地址：https://download.csdn.net/download/sheziqiong/85639467 一、总述本次设计要求将图片前景的黑色栏杆去除，恢复遮挡…

人工智能 2023年6月20日
0087
python-opencv-cv2.resize()函数详解

1.cv2.resize()参数说明？ cv2.resize(src, dsize, dst=None, fx=None, fy=None, interpolation=None)…

人工智能 2023年5月26日
0078
线性回归算法【AIoT阶段三】

目录前言正文前言你好，感谢你能点进来本篇博客，本篇博客是正式进入AI世界的第一章，是【AIoT阶段三】的内容：线性回归算法，关于所有AIoT的详细介绍，详见博客： A…

人工智能 2023年6月16日
00113
lightgbm的使用和参数说明

两种的底层都是一致的 import lightgbm as lgb import lightgbm as lgb LightGBM Python 模块能够使用以下几种方式来加载数据…

人工智能 2023年7月14日
0064
深度学习之快速实现数据集增强的方法

我们在深度学习训练之前准备数据集的时候，特别是打标注的数据集，需要耗费大量的人力物力打标签，在打完的基础我们还可以直接对数据集进行二次增强，即数据集增强。目录一、常用的数据集…

人工智能 2023年7月26日
0068
脑电EEG代码开源分享【4.特征提取-时域篇】

往期文章希望了解更多的道友点这里0. 分享【脑机接口 + 人工智能】的学习之路1.1 . 脑电EEG代码开源分享【1.前置准备-静息态篇】1.2 . 脑电EEG代码开源分享【…

人工智能 2023年7月26日
0067
Vite 详解

目录序论： vite架子分析 2、环境变量 3、模式 4、兼容老浏览器 5、typescript相关 6、基本配置核心配置全集推荐两个插件插件Volar 、 Vue 3 Sn…

人工智能 2023年6月29日
0099
R数据分析：PLS结构方程模型介绍，论文报告方法和实际操作

前面给大家写的关于结构方程模型的文章都是基于变量的方差协方差矩阵来探讨变量间关系的，叫做covariance-based SEM，今天给大家介绍一下另外一个类型的SEM，叫做偏最小…

人工智能 2023年7月15日
0093
PyTorch分布式训练方法

实验｜Vachel 算力支持｜幻方AIHPC PyTorch分布式训练 2018年，将近3亿参数的Bert模型横空出世，将NLP领域推向了新的高度。近年来人工智能领域的发展愈来愈趋…

人工智能 2023年7月21日
0049
机器学习之SVM

文章目录一、SVM基本介绍二、SVM工作原理 * 1. 线性支持向量机（数据可分） 2. 软边距支持向量机（数据不可分）三、sklearn实现SVM * 注：SVM涉及距离，…

人工智能 2023年6月15日
0068
做arma模型步骤_自回归综合移动平均模型

作者：王鹏封面：吉江自回归综合移动平均模型什么是ARIMA模型? 自回归综合移动平均模型(Autoregressive Integrated Moving Average M…

人工智能 2023年6月18日
00150
[到手飞] 用OpenCV的级联分类器一键训练自己的目标检测数据集

这是一个帮助一键完成OpenCV级联分类器参数配置以及训练的脚本，简化了程序的调用与配置最近需要编写一个目标检测项目，本来用的是YOLO框架，结果一通大刀阔斧自信满满的&#822…

人工智能 2023年7月19日
0091
Opencv项目实战：05 物体检测

1，效果展示为此，我专门还去查了查，怎么将视频转化为gif图，不知不觉中，我又多学会了一项技能。 OK!cool，效果很不错，今天需要搭配一些文件，都是可以从官网里找到的，那么我…

人工智能 2023年7月27日
0054
yolov5检测图片用detect.py

一、检测问题解决今天在用detect.py以及自己训练的模型检测图片时，遇到了一些问题，在这总结一下子1、修改代码看下面这段代码，是yolo.py中的Model类中的forwar…

人工智能 2023年7月22日
0057
R语言lm函数语法、R语言模型公式中（formula）常用符号及其说明（~、+、：、*、

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月16日
0080

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

详解岭回归与L2正则化

最小二乘法中的不可逆与病态问题

岭回归

L2正则化

大家都在看