【机器学习】浅谈正规方程法&梯度下降

2023年6月15日下午8:43 • 人工智能 • 阅读 73

🤵‍♂️ 个人主页: @计算机魔术师
👨‍💻 作者简介：CSDN内容合伙人，全栈领域优质创作者。

🌐 推荐一款找工作神器网站: 牛客网🎉🎉|笔试题库|面试经验|实习招聘内推
还没账户的小伙伴速速点击链接跳转牛客网登录注册开始刷爆题库，速速通关面试吧🙋‍♂️

该文章收录专栏
✨— 机器学习 —✨

正规方程法（最小二乘）与 梯度下降法都是为了求解线性回归的最优参数，但是不同的是正规方程法只需要一步就可以得到代价函数最优点，而梯度下降则是迭代下降，看起来似乎正规方程法要好得多，但实际梯度下降使用场景更多，下面我们介绍这两种算法以及优缺点

; 一、梯度下降

1.1 一个参数

我们从最简单的线性方程解释，后面推广到的多个参数的方程

典型的房价预测问题

我们假设其数据模型为线性回归模型，方程如下

h θ ( x ) h_\theta(x)h θ(x ) = θ 1 ∗ x \theta_1x θ1 ∗x
我们希望能求出θ 1 \theta_1 θ1 参数，让方程h θ ( x ) h_\theta(x)h θ(x ) 更加拟合数据，梯度下降的方法就是通过求 代价函数*最小得到最优参数或者局部最优参数的，

代价函数
代价函数就是实际数据与数学模型（这里是一元一次方程）所预测的差值的平方之和的平均值，（其中y y y 为真实预测值）

J θ ( x ) J_\theta(x)J θ(x ) =∑ x = 1 n （ h θ ( x ) − y ） 2 n \sum_{x=1}^n \frac{（h_\theta(x) – y）^2}{ n }∑x =1 n n （h θ(x )−y ）2 （代价函数方程J θ ( x ) J_\theta(x)J θ(x ) ）

如：

蓝线的长度就是 代价函数，可以看到 代价函数越大拟合效果越差，代价函数越小，拟合效果越好。

其中关于 所求方程h θ ( x ) h_\theta(x)h θ(x )（左图）和 θ 1 \theta_1 θ1 的的 代价函数( θ 1 ) (\theta_1)(θ1 )(右图）如下图：

可以看到当方程越拟合数据， 代价函数越小，当 代价函数J ( θ 1 ) J(\theta_1)J (θ1 )值为0时，回归方程h θ ( x ) h_\theta(x)h θ(x )完全拟合数据，此时我们要做的就是让代价函数变小。
（后面所讲的正规方程解法就是直接令代价函数为0，求解θ \theta θ参数的）

; 1.2梯度下降核心方程

迭代求解方程
θ 1 \theta_1 θ1 = θ 1 \theta_1 θ1 – α ∗ δ J ( θ 1 ) δ θ 1 \alpha*\frac{δJ(\theta_1)}{δ\theta_1}α∗δθ1 δJ (θ1 )

其中α \alpha α是 学习率， δ J ( θ 0 ) δ θ 0 \frac{δJ(\theta_0)}{δ\theta_0}δθ0 δJ (θ0 ) 是对 代价函数J ( θ 1 ) J(\theta_1)J (θ1 )求关于θ 1 \theta_1 θ1 的偏导数，由于只有一个参数（一阶），所以这里的方程 δ J ( θ 1 ) δ θ 1 \frac{δJ(\theta_1)}{δ\theta_1}δθ1 δJ (θ1 ) 也可以表示为 d J ( θ 1 ) d θ 1 \frac{dJ(\theta_1)}{d\theta_1}d θ1 dJ (θ1 ) (即求导数）。
原理讲解

当θ 1 \theta_1 θ1 所在的代价函数区间是单调递增的，如下图（ 红线标记），
此时d J ( θ 1 ) d θ 1 \frac{dJ(\theta_1)}{d\theta_1}d θ1 dJ (θ1 ) （即h θ ( x ) h_\theta(x)h θ(x )的斜率）大于0，则θ 1 \theta_1 θ1 =θ 1 \theta_1 θ1 -α ∗ δ J ( θ 1 ) δ θ 1 \alpha*\frac{δJ(\theta_1)}{δ\theta_1}α∗δθ1 δJ (θ1 ) 为θ 1 \theta_1 θ1 减去一个正数，θ 1 \theta_1 θ1 往左边退（向代价函数最小值靠近），
当θ 1 \theta_1 θ1 所在的代价函数区间是单调递减时的如图（ 蓝线标记），此时θ 1 \theta_1 θ1 =θ 1 \theta_1 θ1 -α ∗ δ J ( θ 1 ) δ θ 1 \alpha*\frac{δJ(\theta_1)}{δ\theta_1}α∗δθ1 δJ (θ1 ) 为θ 1 \theta_1 θ1 减去一个负数，θ 1 \theta_1 θ1 往右边退（向代价函数最小值靠近）

1.3学习率 α \alpha α

有时我们的迭代方程下降时，可能很缓慢，
需要走很多步（化很久时间）才能到达局部最优或者全局最优如下图：

此时学习率α \alpha α的作用就是调整步子长度，让其更快的下降到局部最优或者全局最优
注意：

α \alpha α需要根据数据调节，

设置大了，走一步太大了跳到对面那一头了，与想要的结果违背，如图

设置小了，步子又太小，所以设置α \alpha α也是一个细活

; 1.4两个参数

两个参数 θ 1 \theta_1 θ1 ,θ 0 \theta_0 θ0 ,方程为

h θ ( x ) h_\theta(x)h θ(x ) = θ 0 + \theta_0 +θ0 + θ 1 ∗ x \theta_1*x θ1 ∗x

迭代求解方程 (注意：参数是同步更新的，你的腿只能走一步）

θ 0 \theta_0 θ0 =θ 0 \theta_0 θ0 -α ∗ δ J ( θ 0 ) δ θ 0 \alpha*\frac{δJ(\theta_0)}{δ\theta_0}α∗δθ0 δJ (θ0 )
θ 1 \theta_1 θ1 =θ 1 \theta_1 θ1 -α ∗ δ J ( θ 1 ) δ θ 1 \alpha*\frac{δJ(\theta_1)}{δ\theta_1}α∗δθ1 δJ (θ1 )

此时的代价函数为J ( θ 0 , θ 1 ) J(\theta_0,\theta_1)J (θ0 ,θ1 )，如下图（是一个碗状，与一个参数的图像一样都是凹函数）

为了更好理解，我们可以绘制出其的等高线

则目标所求的既是等高线中心或碗底，即让代价函数最小

1.5多个参数

在问题案例中，往往有个参数 θ i ( i = 1 , 2 , 3… ) \theta_i(i=1,2,3…)θi (i =1 ,2 ,3…)

此时的代价方程则时关于多个θ i \theta_i θi 参数，如图

迭代求解方程 (注意：参数是同步更新的，你的腿只能走一步）
θ 0 \theta_0 θ0 = θ 0 \theta_0 θ0 – α ∗ δ J ( θ 0 ) δ θ 0 \alpha\frac{δJ(\theta_0)}{δ\theta_0}α∗δθ0 δJ (θ0 )
θ 1 \theta_1 θ1 = θ 1 \theta_1 θ1 – α ∗ δ J ( θ 1 ) δ θ 1 \alpha\frac{δJ(\theta_1)}{δ\theta_1}α∗δθ1 δJ (θ1 )
θ 2 \theta_2 θ2 = θ 2 \theta_2 θ2 – α ∗ δ J ( θ 2 ) δ θ 2 \alpha*\frac{δJ(\theta_2)}{δ\theta_2}α∗δθ2 δJ (θ2 )
…

θ n \theta_n θn = θ n \theta_n θn – α ∗ δ J ( θ n ) δ θ n \alpha*\frac{δJ(\theta_n)}{δ\theta_n}α∗δθn δJ (θn )

从中也可以看到在梯度下降迭代中，有两个最优结果（其他案例可能有许多），

整个迭代过程可以形象的理解为你现在在山顶，要找一条最快的路下山，山底就是你的目标地点，也就是 代价函数最小

; 1.6数据标准化

梯度下降在量化纲位不同，如果数
据范围分别是是【0~1000，0 ~5】或者【-0.00004 ~ 0.00002，10 ~ 30】, 那么在使用梯度下降算法时，他们的等高线是一个又窄又高的等高线，如下图：

在梯度下降算法中，参数更新就会如上图左右震荡，收敛缓慢，我们就需要对特征进行 特征缩放—数据标准化
详解见文章
【机器学习】梯度下降之数据标准化

二、正规解法

对正规解法来说，一般例子是对代价函数J ( θ ) J(θ)J (θ)求偏导数，令其为 0 便可以直接算出最优参数θ θθ,但大多数情况下θ θθ是一个多维向量(即有多个参数 θ i ( i = 1 , 2 , 3… ) \theta_i(i=1,2,3…)θi (i =1 ,2 ,3…)），此时代价函数f ( θ ) f(θ)f (θ)是关于θ θθ多维向量的函数，那么要求从θ 0 θ_0 θ0 到 θ n θ_n θn 的值，就分别对对应的θ i θ_i θi (i = 1,2,3,4…)求偏导数，并令其为0求其最优参数.

假设有M个数据，每个数据N个特征
方程如下：

θ = ( x T ∗ x ) − 1 ∗ x T ∗ y θ = (x^T * x )^{-1} * x^T * y θ=(x T ∗x )−1 ∗x T ∗y

这里的x x x为矩阵，该矩阵每一行为x i ( i = 1 , 2 , 3… ) x_i(i=1,2,3…)x i (i =1 ,2 ,3…)（x i x_i x i 为列向量，维度为特征N）的向量转置组成，即任意一行的每一列为x i x_i x i 其特征
x x x矩阵同下图A矩阵：

这里的 a 11 a_{11}a 11 代表第一个数据x 1 x_1 x 1 的第一个特征值，依次往下，化简即为

第一行即为x 1 x_1 x 1 N维向量的的转置

方程原理讲解视频：

【线性回归】正规方程（最小二乘法)】

由于正规方程是直接求解，所以不需要迭代熟练，不需要”下山”,所以不需要对其进行特征缩放（如梯度下降需要数据标准化）

; 2，1 使用场景和优缺点

假设我们有M个数据集，N个特征

梯度下降缺点：首先需要先提前设定好学习率，并调试，这无疑是额外的工作需要尝试不同的学习率，
梯度下降缺点：需要多次迭代下降，计算可能会更慢
x
*
正规解法缺点:在对于大量的数据来说，梯度学习也可以很好的运行结果，而正规方程求解中 ( x T ∗ x ) − 1 (x^T * x )^{-1}(x T ∗x )−1 这一步中，其维度即为x的特征维度，由于计算机在计算矩阵的逆的时间复杂度时O （ n 3 ） O（n^3）O （n 3 ） ,在特征维度非常大时，运行时间很久，

综上所述：
可以看到他们二者适用场景不同于数据的大小，那我们怎么定义数据”大”还是”小”呢, 吴恩达老师给出了一个比较好的区间：

N > 10000 => 梯度下降
N < 10000 => 正规解法
但是不是绝对的判断，还需要根据情况而定

2.2 正规方程（不可逆性）* 选读

方阵中的两个维度之间存在线性变换关系，导致方阵不满秩
n（特征数量）相较于m（样本数量）过大，导致其产生的齐次方程组Ax=0不只有零解

这些不可逆的矩阵我们称为 奇异矩阵，逆矩阵在不存在时，我们所求的逆矩阵为伪逆

实际上我们案例对应的情况有

如，房价预测多了一些特征值，而这个特征值和所有特征值有线性相关，即出现上述第一种情况
在特征n >= 数据集数量m的情况下，例如 10 个数据，每个数据有 100 个特征，那么我们所要求的 θ就是一个101维向量，10个样本太少了，求得的结果偏离真实值，对应上述情况二，这个时候我们可以减去一些特征，或者使用正则化方法（）

其实这种不可逆的情况非常少见，所以在平时案例不用特别担心

Original: https://blog.csdn.net/weixin_66526635/article/details/125201143
Author: 计算机魔术师
Title: 【机器学习】浅谈正规方程法&梯度下降

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/617356/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

[毕业设计] 基于大数据B站数据分析项目 – 情感分析

文章目录 0 数据分析目标 1 B站整体视频数据分析 * 1.1 数据预处理 1.2 数据可视化 1.3 分析结果 2 单一视频分析 * 2.1 数据预处理 2.2 数据清洗 2….

人工智能 2023年7月15日
0069
[论文笔记]ACL-2021-Improving Named Entity Recognition by External Context Retrieving and Cooperative

[论文笔记]ACL-2021-Improving Named Entity Recognition by External Context Retrieving and Coope…

人工智能 2023年5月27日
0082
Pytorch中RNN参数解释

其实构建rnn的代码十分简单，但是实际上看了下csdn以及官方tutorial的解释都不是很详细，说的意思也不能够让人理解，让大家可能会造成一定误解，因此这里对rnn的参数做一个详…

人工智能 2023年6月6日
00115
Argoverse数据集可视化/Argoverse-api

github:GitHub – argoai/argoverse-api: Official GitHub repository for Argoverse datas…

人工智能 2023年6月15日
00152
如何用Python解析JSON数据

使用Python读取和解析JSON数据教程 JSON格式是网站和API使用的通用标准格式，现在主流的一些数据库（如PostgreSQL）都支持JSON格式。在本文中，我们将介绍如…

人工智能 2023年7月6日
00152
基础 | date_range时间序列–时间切片

👉 今天简单介绍date_range freq 几个参数实例函数语法： date_range(start=None, end=None, periods=None, freq=N…

人工智能 2023年7月7日
00109
知识图谱2021 paper_biji

Improving Conversational Recommender System by Pretraining Billion-scale Knowledge Graph 利…

人工智能 2023年6月1日
0093
Lynis 漏洞扫描工具部署及效果展示

Lynis 漏洞扫描工具部署及效果展示介绍 Lynis是一个安全审计工具，它可以在Linux，macOS和其他基于Unix的系统上运行。Lynis的主要重点是执行系统的运行状况检…

人工智能 2023年6月6日
00100
MongoDB之查询操作

一、find简介 1、查询所有 db.test.find()db.test.find({})2、根据键值对db.test.find({“key”:value…

人工智能 2023年7月31日
0060
opencv的基础用法及其在QT中的应用

文章目录 * – + 一.基础用法 + * 1.图片色彩空间转换 * 2.保存图片 * 3.图片浏览器 * 4.播放视频文件 * 5.调整图片大小 * 6.截图抠图 …

人工智能 2023年6月19日
0072
【老生谈算法】matlab实现图像压缩算法源码——图像压缩

; matlab图像压缩算法详解 1、文档下载：本算法已经整理成文档如下，有需要的朋友可以点击进行下载序号文档（点击下载）本项目文档【老生谈算法】图像压缩试验matlab….

人工智能 2023年6月20日
00102
使用遗传算法解决旅行商问题

遗传算法（Genetic Algorithm，GA）最早是由美国的 John holland于20世纪70年代提出,该算法是根据大自然中生物体进化规律而设计提出的。是模拟达尔文生物…

人工智能 2023年6月23日
00109
基于CNN网络的轴承故障诊断

内容参考：《基于卷积神经网络的轴承故障诊断算法研究》–张伟代码参考:https://github.com/AaronCosmos/wdcnn_bearning_fault_di…

人工智能 2023年7月5日
0091
自编码器(Auto-Encoder)

一、自编码器原理自编码器算法属于自监督学习范畴，如果算法把x作为监督信号来学习，这里算法称为自监督学习(Self-supervised Learning) 在监督学习中神经网络的…

人工智能 2023年7月25日
0081
【C语言深度解剖】float变量在内存中存储原理&&指针变量与“零值”比较

大家好好我是沐曦希💕 文章目录 🎆float 变量 * 💥浮点数在内存中的存储原理 🔭IEEE 754规定 – 🎠有效数字M的规定 🚗指数E的规定 + 🎉指数E为一个无…

人工智能 2023年6月13日
0085
质量评估指标：SSIM（Structural similarity 结构相似性）

文章目录一、结构相似性二、定义三、应用四、SSIM源码一、结构相似性 SSIM 是一种基于感知的模型，它将图像退化视为结构信息的感知变化，同时还结合了重要的感知现象，如亮…

人工智能 2023年6月17日
0089

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31