“升维的降维打击”-参数训练的驻点分析

2023年10月27日下午10:26 • Python • 阅读 35

1.优化失败的原因

图1 训练参数的常见情况

在上一节中，讨论了如何通过梯度下降方法训练深度学习模型。随着参数训练更新次数的增加，可能会遇到两种常见的失败情况：第一种，损失函数随着更新次数的增加呈现出平稳的状态，并没有非常明显的下降趋势；第二种，损失函数的数值虽然在下降，但是在某次更新后不再继续下降，且损失函数数值并没有很小。

这两种情况发生的原因通常是梯度为0或很小，导致参数不再更新或变化不大。在高等数学中，将这种梯度为0的情况称为驻点（Critical Point）。根据损失函数的不同，又可以将驻点细分为局部极小点（Local Minima）、局部极大点（Local Maxima）和鞍点（Saddle Point）。

局部极小点意为在一定范围内，所有的函数值都比该点的函数值大；局部极大点意为在一定范围内，所有函数值都比该点函数值小。从二维函数的角度来看，鞍点一个方向的截面呈现出局部极小点的情况，另一个方向的截面呈现出局部极大点的情况，形状如同”马鞍”状。

图2 鞍点示例

深度学习模型在参数优化的过程中使用的是梯度下降方法，所以当遇到梯度为0的情况下，可以排除局部极大点的情况。当训练时遇到局部极小点的情况，便无法判断下一步的更新方向；但遇到鞍点的情况，或许可以判断下一步的更新方向。因此，区分当前驻点是局部极小点和鞍点对深度学习模型的参数优化具有极大的参考价值。

2.区分局部极小点和鞍点

2.1理论分析

根据局部极小点和鞍点的定义，假设在处梯度为0，需要考虑在向量附近的情况。依据泰勒定理可知，在处附近，可以近似将损失函数进行二阶展开。

在式中表示为梯度，是一个向量，有,;是一个矩阵，存储的是二阶导数，被称为Hessian矩阵，因此有。由损失函数的二阶泰勒展开式可知，损失函数在附近的值和梯度的Hessian矩阵有关。由于为驻点，因此为0 ，原式转化为公式（2）。

因此的驻点类型是局部极小点还是鞍点取决于带有Hessian矩阵的最后一项。

将记为,最后一项则记为。假设对于任意的向量，有大于0，此时大于，因此的类型为局部极小点；假设对于任意的向量，有小于0，此时小于，因此的类型为局部极大点；若对于任意的向量，有正有负，此时的类型为鞍点。

依据线性代数的矩阵理论对于任意的向量，大于0，可认为为正定矩阵（Positive Definite），此时矩阵的所有特征值（Eigen Value）均大于0；对于任意的向量，小于0，可认为为负定矩阵（Negative Definite），此时矩阵的所有特征值（Eigen Value）均小于0;对于任意的向量，有正有负，此时矩阵的所有特征值（Eigen Value）也有正有负。综上，驻点类型的判断取决于Hessian矩阵，如果Hessian矩阵为正定矩阵，其所有的特征值均大于0，驻点类型为局部极小值；如果Hessian矩阵为负定矩阵，其所有的特征值均小于0，驻点类型为局部极大值；如果Hessian矩阵有正有负，其所有的特征值也有正有负，驻点类型为鞍点。

2.2实例分析

通过一个案例来分析判断驻点是局部极小点、局部极大点和鞍点的哪一种。假定，机器学习模型为,只有一笔训练数据x=1，y=1。该图绘制出了损失函数随两个参数和变化的曲面图。最中间黑色点、左下方一排黑色点和右上方一排黑色点是梯度为0的驻点。图中由蓝至红的颜色变化，表示损失函数数值逐渐增大，因此易知中心黑色点为鞍点，左下方一排黑色点和右上方一排黑色点是局部极小点。

图3 驻点研判分析

可以从数学理论的角度来分析这些驻点的类型。计算该模型的损失函数可得公式（3）

根据上面的理论分析，首先需要求其驻点，分别求损失函数关于w_{1}和w_{2}的偏导数可得公式（4）。

可得驻点为,或。对应的点即为图中中心黑色点；对应的点即为左下方一排黑色点和右上方一排黑色点。接下来计算二阶偏导数，可得Hessian矩阵见公式（5）。

分别将,和代入Hessian矩阵可得矩阵见公式（6）和公式（7）。

计算式（6）对应的特征值可求得，，因此中间黑色的点为鞍点；计算式（7）对应的特征值可求得公式（8）

由公式（8）可知，和必有一值为0，且和之和大于等于0，因此，左上和右下黑色的点为局部极小点。

3.鞍点的更新方法

在训练深度模型的过程中，如果参数更新停留在鞍点，从理论上来说，可以找到下一步的更新方向。对公式（2）进一步分析，假设是的特征向量，是特征值且小于0 ，且和的差距为特征向。因此，公式（2）的后半部分可写成。由线性代数理论可得（9）式

由于，因此公式（9）表示，当和的差距为特征向量时即，。因此，只需要沿着的方向更新参数，便可以使损失函数下降。

图4 鞍点更新的示例

仍以模型为例，取的特征值，易知其中一个特征向量为

因此，如图所示的黑色箭头部分即为特征向量的方向，只需要沿着右上方更新参数，参数会更新至局部极小点。

4.升维的”降维打击”

图5 鞍点和局部极小点比较

在实际训练的过程中，参数更新遇到鞍点的情况比局部极小点的情况多。以上图为例，左上方是一个二维参数的损失函数曲线；左下方是一个三维参数的损失函数曲面。左上方的曲线可以看成左下方曲面的二维投影，在二维的时候红色的驻点为局部极小点，在三维的时候红色的驻点就成了鞍点。驻点为鞍点仍然有可能是损失函数下降，而驻点为极小点，参数的更新就遇到了瓶颈，无法进一步优化更新。这表明，当模型维度上升时，驻点为鞍点的概率随着增加了，对比低维度的模型实际上起到了”降维打击”的作用。登高望远，站的高度越高，视野就更加开阔了，可选择的道路和方向就多了。这和荀子”登高而招，臂非加长也，而见者远；顺风而呼，声非加疾也，而闻者彰。假舆马者，非利足也，而致千里；假舟楫者，非能水也，而绝江河。君子生非异也，善假于物也。”的思维是一致的。

图6 实际训练的情况

图中蓝色的点表示，训练一个神经网络参数更新至驻点时的情况，纵轴表示损失函数的数值，横轴表示正的正的特征值在所有特征值的比值。如图所示，由于基本上无法找到一个比值为1的点，因此在实际进行深度学习模型训练的过程中，遇到的大部分驻点都是鞍点（特征值都有正有负），局部极小点基本上不会出现。

更多内容请关注我的微信公众号白泽图鉴获取!!!

Original: https://blog.51cto.com/u_14278341/6020590
Author: 白泽图鉴
Title: “升维的降维打击”-参数训练的驻点分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/806476/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

import matplotlib 时报错：ImportError: DLL load failed while importing _path: 找不到指定的模块。

在网上找了很多种解决方法，都一一试过了，比如卸载numpy和matplotlib再重新安装，或者换成更低的版本，都不管用。最后终于解决了。先说报错原因，这个问题是由于直接用pip…

Python 2023年8月30日
0068
新手教程：使用Pycharm的本地conda环境运行程序

一.新建Projects并利用conda新建环境点击File的New Project选项 1.这里的第一个location代表的是工程文件储存的位置，我将所有的pycharm文件…

Python 2023年9月7日
00383
python list和series转换dataframe_Python：将dataframe列从Series转换为Datetime datatype

您可以使用带格式字符串的to_datetime()来提取日期：date = pd.to_datetime(df.Start_Time, format=’%Y, %m, …

Python 2023年8月7日
0073
基于Python的GUI图形用户界面编程

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年10月11日
0032
2021, 一看就会,最新Python3.9.7安装傻瓜式教程，最新Pycharm2021.2.2安装教程

1，我们去python官网下载python3.9.7 2，下载完成后我们双击打开 3，出现这个就安装完成了 4，win+r打开windows命令窗口，输入cmd 5，输入pytho…

Python 2023年8月5日
0080
python调用海康威视工业相机SDK实现图片采集

海康工业相机图像采集流程环境设置先安装MVS，下载地址海康机器人官网。条件：Python+海康官方的mvs文件下的development/samples下的python文件夹…

Python 2023年10月8日
00104
scrapy session和cookie区别 Selenium模拟登录验证码识别

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年10月4日
0037
pandas的DataFrame

认识DataFrame数据对象导入pandas包： import pandas as pd 加载读取文件：加载CSV文件 df=pd.read_csv(‘data/movie….

Python 2023年8月18日
0049
pandas DataFrame 按照30s 向下取整

print(ss[‘time’]) 0 2014-01-21 03:31:111 2014-01-21 04:53:552 2014-01-21 05:16:183 2014-01…

Python 2023年8月18日
0045
[三] 3 图表绘制工具：Matplotlib — 图表绘制之箱形图

目录九、箱形图 * 1、plt.plot.box() 2、plt.boxplot() 3、分组绘图九、箱形图箱形图又称为盒须图、盒式图或箱线图，它主要用于反映原始数据分布的特…

Python 2023年9月4日
0094
Django Form组件

Django Form 组件有两大功能，用于对页面进行初始化，生成 HTML 标签，此外还可以对用户提交对数据进行校验（显示错误信息）数据重置校验规则 form组件和传统for…

Python 2023年8月4日
0063
pygame精灵组有哪些方法_pygame 精灵的行走及二段跳的实现方法(必看篇)

pygame 精灵的行走及二段跳的实现方法(必看篇) 这里有新鲜出炉的精品教程，程序狗速度看过来！ Pygame Python游戏模块 Pygame是跨平台 Python模块，专…

Python 2023年9月25日
0034
树莓派配置Python虚拟环境、安装PyQt5、安装PySide2

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年11月6日
0057
python如何实现点云可视化交互——Open3D实例教程（获取所选点的信息）保姆级教学

前言 Open3D是目前python中可用的用于 3D 数据处理的现代库，可以对点云、网格等三维数据进行读取、采样、配准、可视化等操作。其中对点云等三维模型进行可视化的功能在Pyt…

Python 2023年8月3日
00150
scrapy爬取京东商品评论并保存至Mysql数据库中

scrapy爬取京东商品评论并保存至Mysql数据库一、总体概述二、实践过程 * 2.1网页解析 2.2使用单线程爬取代码如下： 2.3使用scrapy爬取数据 2.4绘制词云…

Python 2023年10月2日
0040
pandas中drop用法_机器学习笔记：Pandas的delete、drop函数的用法

机器学习笔记：Pandas的delete、drop函数的用法目录drop函数 Axis(轴)含义 drop用法实验 delete函数 drop函数 DataFrame.drop(…

Python 2023年8月8日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

“升维的降维打击”-参数训练的驻点分析

1.优化失败的原因 ​

2.区分局部极小点和鞍点 ​

2.1理论分析 ​

2.2实例分析 ​

3.鞍点的更新方法 ​

4.升维的”降维打击” ​

大家都在看