【下降算法】最速下降法、Newton法、共轭梯度法

2023年7月26日下午11:06 • 人工智能 • 阅读 76

文章目录

*
–
+ 1. 一维搜索
+ 2. 最速下降法
+
* 最速下降法特征
* 最速下降法的优缺点
+ 3. Newton法
+
* 算法基本思想
* 牛顿法和梯度下降法的效率对比
+ 4. 共轭梯度法

1. 一维搜索

最优化问题一般选择某一组变量，然后在满足一定的限制条件下，求出使目标值达到最优（最大或最小）的变量值。大部分时候，最优化问题都采用迭代计算的方式来求解。而大多数迭代下降算法都具有的共同点是在得到某次迭代点x k x^k x k后，需要按照一定规则来确定一个方向d k d^k d k，沿着该方向在直线上求函数的极小点得到下一个迭代点x x xk+1 。
这样不断在一维的目标函数上，求其在各迭代点的直线方向上的极小点，直到求出问题最优解的方式就被称为一维搜索，或者线搜索。其一般过程可用如下公式表示：

其中 d k d^k d k 表示在这一步的搜索方向，步长因子 λ λλ 决定了沿着该方向前进多远，这两者共同决定了该搜索算法的好坏。一维搜索的算法有好多种，以下介绍几种常见的。

; 2. 最速下降法

上文中的一维搜索（x x xk+1 = x k x^k x k + λ d k λd^k λd k）可归结为 单变量函数的最优化问题，也是最速下降法的基础。其迭代过程中最重要的就是为下次迭代选择一个合适的方向d k d^k d k。
人们利用了 梯度方向是函数值增长最快的方向的思想，来让迭代点沿着负梯度方向前进，保证函数的”最速”下降。
以下直接给出公式：

在最速下降法中，步长 λ λλ 由式子求出，是一种精确步长的搜索方式。其与梯度下降法的区别也在于此，梯度下降中的步长往往是由工程师自己预先设置好的一个固定值，因此梯度下降法只是最速下降法中的一种特殊形式。

补充：梯度下降法容易陷入局部极小值（如下图所示）。

形象点地说，假设有一小球要从山顶滚到山脚，那么每次沿最陡峭（梯度）的方向向下滚是最快的。
在确定了每次下降的方向的同时也需要小心地选择一个合适的步长。若是过大，可能导致迭代点发散，过小则导致收敛太慢。

最速下降法在极小化目标函数时的相邻两个搜索方向是正交的。

【例】利用最速下降法求 m i n f ( x ) = x 1 2 + 2 x 2 2 − 2 x 1 x 2 − 4 x 1 minf(x) = x_1^2 + 2x_2^2 – 2x_1x_2 – 4x_1 m i n f (x )=x 1 2 +2 x 2 2 −2 x 1 x 2 −4 x 1 ，取初始向量 x 0 = ( 1 , 1 ) T x_0 = (1,1)^T x 0 =(1 ,1 )T。

最速下降法特征

相邻两次迭代的方向互相垂直。

最速下降法在两个相邻点之间的搜索方向是正交的。
最速下降法向极小点逼近是曲折前进的，这种现象称为 锯齿现象，锯齿现象会影响收敛速度！

缺点：最速下降法收敛速度慢！
在最速下降法中，利用精确一维搜索求最佳步长，使得相邻两次迭代的搜索方向总是垂直的，使得逼近极小点过程是”之”字形。

这样从任何一个初始点开始，都可以很快达到极小点附近，但是 越靠近极小点步长越小，移动越慢，导致最速下降法的收敛速度很慢。实际运用中，在可行的计算时间内可能得不到需要的结果。

; 最速下降法的优缺点

优点：理论明确，程序简单，每次的计算量小，所需的存储量小，对初始点要求不合格。
缺点：收敛速度并不快，因为最速下降方向仅仅是指某点的一个局部性质。

【补充】一些有效算法是通过对它的改进或利用它与其他收敛快的算法结合而得到的，因此它是无约束优化的方法之一。在计算的前中期使用梯度下降，而在接近极小点时使用其他算法进行迭代会是更理想的方案。

3. Newton法

此处介绍的牛顿法是其在一维搜索中的推广形式。与最速下降法一样可用于求解一般无约束的多元优化问题。其基本思想还是 采用泰勒二阶展开来拟合极小点附近的函数来进行迭代：

; 算法基本思想

考虑从 x k x^k x k 到 x x x k+1 的迭代过程，在 x k x^k x k 点处对函数 f ( x ) f(x)f (x ) 泰勒展开：

略去高阶项，得到

对 f ( x ) f(x)f (x ) 求梯度得（第三项求导后是高阶可以省略）：

移项得：

两边同时乘二阶导数项的逆矩阵，然后移项可得极小点：

Newton法的计算步骤如下：

【例】用Newton方法求f ( x 1 , x 2 ) = x 1 2 + 25 x 2 2 f(x_1,x_2) = x_1^2 + 25x_2^2 f (x 1 ,x 2 )=x 1 2 +2 5 x 2 2 的极小点。

由于牛顿法是基于当前位置的切线来确定下一次的位置，所以牛顿法又被很形象地称为是”切线法”。牛顿法的搜索路径（二维情况）如下图所示：

牛顿法和梯度下降法的效率对比

从本质上去看，牛顿法是二阶收敛，梯度下降是一阶收敛，所以牛顿法就更快。
如果更通俗地说的话，比如你想找一条最短的路径走到一个盆地的最底部，梯度下降法每次只从你当前所处位置选一个坡度最大的方向走一步，牛顿法在选择方向时，不仅会考虑坡度是否够大，还会考虑你走了一步之后，坡度是否会变得更大。所以，可以说牛顿法比梯度下降法看得更远一点，能更快地走到最底部。（牛顿法目光更加长远，所以少走弯路；相对而言，梯度下降法只考虑了局部的最优，没有全局思想。）
根据wiki上的解释，从几何上说，牛顿法就是用一个二次曲面去拟合你当前所处位置的局部曲面，而梯度下降法是用一个平面去拟合当前的局部曲面，通常情况下，二次曲面的拟合会比平面更好，所以牛顿法选择的下降路径会更符合真实的最优下降路径。

图中红色的是牛顿法的迭代路径，绿色的是梯度下降法的迭代路径。

; 4. 共轭梯度法

共轭梯度法是基于 共轭方向的一种算法。针对目标函数为二次函数的问题， 其搜索方向是与二次函数系数矩阵相关的共轭方向。 用这类方法求解n元二次正定函数的极小问题，最多进行n次一维搜索。

几何意义：
假设 f ( x ) f(x)f (x ) 是 n n n 元正定二次函数：
【下降算法】最速下降法、Newton法、共轭梯度法

对于二维情况 n = 2 n=2 n =2，任任取初始点 x 0 x^0 x 0 沿某个下降方向 d 0 d^0 d 0 作精确一维搜索，得 x 1 = x 0 + l a m d a 0 d 0 x^1 = x^0 + lamda_0d^0 x 1 =x 0 +l a m d a 0 d 0 。
由精确一维搜索的性质，可知：

这里参考了西北工业大学的PPT：最优化方法第二章：线搜索算法

【参考资料】CSDN博客：@https://blog.csdn.net/zxxxxxxy/article/details/103850557

Original: https://blog.csdn.net/Serendipity_zyx/article/details/120515338
Author: 美式咖啡不加糖x
Title: 【下降算法】最速下降法、Newton法、共轭梯度法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/717513/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Cora 数据集介绍

数据集包含以下文件： ind.cora.x : 训练集节点特征向量，保存对象为：scipy.sparse.csr.csr_matrix，实际展开后大小为： (140, 1433) …

人工智能 2023年6月4日
0075
【MMML】多模态机器学习高被引综述论文笔记

论文名称：Multimodal Machine Learning: A Survey and Taxonomy论文下载：https://arxiv.org/abs/1705.094…

人工智能 2023年6月16日
0078
R 聚类热图-数据的标准化

热图（heatmap）的典型应用是简单地聚合大量数据，并使用一种渐进的色带来优雅地表现，最终效果一般优于离散点的直接显示，可以很直观地展现空间数据的疏密程度或频率高低。但也由于很直…

人工智能 2023年6月2日
00103
计量经济学学习与Stata应用笔记(三)Stata入门实例

计量经济学学习与Stata应用笔记(三)Stata入门实例使用的版本为stata15。电力行业规模报酬的经典研究本例为Nerlove(1963)对电力行业规模的经典研究。导…

人工智能 2023年7月15日
00119
我的设计模式之旅、11 生成器（建造者）模式

编程旅途是漫长遥远的，在不同时刻有不同的感悟，本文会一直更新下去。思考总结思考问题没有生成器模式的情况下在构建不同形式的复杂对象时的问题：如果为每种可能的对象都创建一个子类…

人工智能 2023年6月4日
00113
python 中，sklearn包下的f1_score、precision、recall使用方法，Accuracy、Precision、Recall和F1-score公式，TP、FP、TN、FN的概念

目录 sklearn.metrics.f1_score sklearn.metrics.precision_score sklearn.metrics.recall_score A…

人工智能 2023年7月26日
00222
【OpenCV】Chapter6.频率域图像滤波

最近想对OpenCV进行系统学习，看到网上这份教程写得不错，于是跟着来学习实践一下。【youcans@qq.com, youcans 的 OpenCV 例程, https://yo…

人工智能 2023年6月20日
0086
数据分析之落地sop流程

作者：JanieLiu公众号《溜溜笔记说》前言数据分析涉及很多知识点，各个网站也都能搜到，但很少有一种系统化的流程来参考，也有读者后台留言问到数据分析的流程，所以我认认真真的整…

人工智能 2023年7月18日
0050
NeRF入门知识汇总

NeRF 在2020年ECCV上名声大噪，作为best paper展示（https://www.matthewtancik.com/nerf）作者在网上收罗了NeRF的相关评说，汇…

人工智能 2023年5月26日
0079
利用Python进行数据分析的学习笔记——chap9

数据聚合与分组运算 GroupBy技术 import numpy as np import pandas as pd from pandas import DataFrame,Se…

人工智能 2023年7月17日
0068
数据分析工具pandas

一、pandas的数据结构分析 Pandas 中有两个主要的数据结构：Series 和DataFrame 。 Series 是一维的数据结构，DataFrame是二维的、表格型的数…

人工智能 2023年7月6日
0061
13.OpenFeign 多个传递参数的方式：开发重点（springcloud）

回答1：这个错误提示是说在当前的环境中找不到名为org. framework. 的程序包。可能是因为你没有在项目中引入该依赖，或者依赖的版本不对。你可以检查一下项目的依赖配置，看…

人工智能 2023年6月27日
0096
opencv移植到ARM

文章目录前言一、opencv是什么？二、怎么安装成自己想要的 * 1.拿到源码用cmake-gui进行配置 – cmake cmake-gui 配置总结前言…

人工智能 2023年7月20日
00107
Flink最全面教程(自己总结的)

DataSet/Stream API 1.1 Environment 1.1.1 getExecutionEnvironment 1.2 Source 1.2.1 基于本地集合的s…

人工智能 2023年7月29日
0068
Qos介绍及功能-＞分类标记-＞流量管理（令牌桶）-＞拥塞管理与拥塞避免

目录一、QoS大纲思维导图编辑二、Qos概述 2.1、QOS三种服务模型： 2.1.1、尽力而为服务模型 2.1.2、综合服务模型（现实网络中并不多见） 2.1.3、区分服务…

人工智能 2023年7月1日
0069
mask rcnn 超详细代码解读（一）

mask r-cnn 代码解读（一）文章目录 1 代码架构 2 model.py 的结构 3 train过程代码解析 * 3.1 Resnet Graph 3.2 Region …

人工智能 2023年5月25日
00119

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31