梯度下降算法(Gradient descent)

2023年7月25日下午6:29 • 人工智能 • 阅读 59

首先，我们需要明确梯度下降就是求一个函数的最小值，对应的梯度上升就是求函数最大值。简而言之： 梯度下降的目的就是求函数的极小值点，例如在最小化损失函数或是线性回归学习中都要用到梯度下降算法。

##梯度下降算法作为很多算法的一个关键环节，其重要意义是不言而喻的。

梯度下降算法的思想：先任取点（x0,f(x0))，求f(x)在该点x0的导数f”(x0),在用x0减去导数值f”(x0),计算所得就是新的点x1。然后再用x1减去f”(x1)得x2…以此类推，循环多次，慢慢x值就无限接近极小值点。

损失函数用来衡量机器学习模型的精确度。一般来说，损失函数的值越小，模型的精确度就越高。如果要提高机器学习模型的精确度，就需要尽可能降低损失函数的值。而降低损失函数的值，我们一般采用梯度下降这个方法。所以， 梯度下降的目的，就是为了最小化损失函数。

我们设定场景来帮助理解：

梯度下降法的基本思想可以类比为一个下山的过程。

假设这样一个场景：一个人被困在山上（最左上），需要从山上下来(找到山的最低点，也就是山谷)。但此时山上的浓雾很大，导致可视度很低；因此，下山的路径就无法确定，必须利用自己周围的信息一步一步地找到下山的路。这个时候，便可利用梯度下降算法来帮助自己下山。 怎么做呢，首先以他当前的所处的位置为基准，寻找这个位置最陡峭的地方，然后朝着下降方向走一步，然后又继续以当前位置为基准，再找 最陡峭的地方，再走直到最后到达最低处。

如上图，假如为山的纵切面，那每次下山一小步，经过N次后你便可以到达山底。

这类似于”走一步，看一步的想法”。在原有的位置上找到能到达的最低点，再以该点为起点继续寻找当前的最低点，以此往复，即可以到达最低处。当然，这样理解比较抽象，所以，下面我们给出数学概念。

二、数学解释

梯度下降其实就是我们学习人工智能算法的一个基本算法，比如我们小学开始接触数学时候我们学习加减乘除，最基本的算法

1、梯度

一阶函数里梯度就是表示某一函数在该点处的方向导数沿着该方向取得较大值，即函数在 * 当前位置的 导数 *。如果函数为一元函数，梯度就是该函数的导数。

如果为二元函数，梯度定义为：

我们可以看到，梯度就是分别对每个变量进行微分，然后用逗号分割开，梯度是用<>包括起来，说明梯度其实一个向量。向量有方向，梯度的方向就指出了函数在给定点的 上升最快的方向。

再看刚才的例子，我们需要到达山底，就需要在每一步观测到此时最陡峭的地方，梯度就恰巧告诉了我们这个方向。 梯度的方向是函数在给定点上升最快的方向， 那么梯度 的反方向就是函数在给定点下降最快的方向, 这正是我们所需要的。所以我们只要沿着梯度的方向一直走，就能走到局部的最低点！

可以看出： 单变量函数中，梯度代表的是图像斜率的变化，多变量函数中，梯度代表的是向量，变化最快的地方，即最陡峭的方向

2、核心公式

3、步长（学习率）

前面一直讨论如何下山最快和如何用数学方法来解决下山最快和下山的方向，那么还忽视了一个问题，就是下山的步子。

我们可以通过

来控制每一步走的距离，步长太大走的就容易偏离路线，其实就是不要走太快，错过了最低点。同时也要保证不要走的太慢，导致太阳下山了，还没有走到山下。所以

的选择在梯度下降法中往往是很重要的！梯度下降算法(Gradient descent)

不能太大也不能太小，太小的话，可能导致迟迟走不到最低点，太大的话，会导致错过最低点！

小步长表现为计算量大，耗时长，但比较精准。

大步长，即较大的a aa，表现为震荡，容易错过最低点，计算量相对较小。

注意：由于函数凹凸性，对于凸函数能够无限逼近其最优解，对于非凸函数，只能获取局部最优解

4、梯度下降法的一般步骤

即：

1、给定待优化连续可微分的函数J（θ），学习率或步长

，以及一组初始值（真实值）
2、计算待优化函数梯度
3、更新迭代
4、再次计算新的梯度
5、计算向量的模来判断是否需要终止循环

5、一元函数梯度下降实例

代码段

#f(x)=x^2
import numpy as np
#&#x5B9A;&#x4E49;&#x539F;&#x51FD;&#x6570;f(x)=x^2
def f(x):
    return np.power(x, 2)
#&#x5B9A;&#x4E49;&#x51FD;&#x6570;&#x6C42;&#x5BFC;&#x516C;&#x5F0F;1
def d_f_1(x):
    return 2.0 * x
#&#x5B9A;&#x4E49;&#x51FD;&#x6570;&#x6C42;&#x5BFC;&#x516C;&#x5F0F;2
def d_f_2(f, x, delta=1e-4):
    return (f(x+delta) - f(x-delta)) / (2 * delta)
xs = np.arange(-10, 11)# &#x9650;&#x5236;&#x81EA;&#x53D8;&#x91CF;x&#x7684;&#x8303;&#x56F4;
plt.plot(xs, f(xs))#&#x7ED8;&#x56FE;
plt.show()
learning_rate = 0.1# &#x5B66;&#x4E60;&#x7387;&#xFF08;&#x6B65;&#x957F;&#xFF09;
max_loop = 30# &#x8FED;&#x4EE3;&#x6B21;&#x6570;
x_init = 10.0# x&#x521D;&#x59CB;&#x503C;
x = x_init
lr = 0.01# &#x3B5;&#x503C;&#xFF0C;&#x4E0D;&#x8FC7;&#x6211;&#x4EEC;&#x4E0B;&#x9762;&#x7528;&#x7684;&#x662F;&#x8FED;&#x4EE3;&#x6B21;&#x6570;&#x9650;&#x5236;
for i in range(max_loop):
    # d_f_x = d_f_1(x)
    d_f_x = d_f_2(f, x)
    x = x - learning_rate * d_f_x
    print(x)

print('initial x =', x_init)
print('arg min f(x) of x =', x)
print('f(x) =', f(x))

//&#x80FD;&#x505A;&#xFF0C;&#x4F46;&#x4E0D;&#x5EFA;&#x8BAE;&#x4F7F;&#x7528;
#include "stdio.h"

double fun(double x){       //&#x5B9A;&#x4E49;&#x521D;&#x59CB;&#x51FD;&#x6570;
    return x*x/2.0 - 2*x;
}

double der_fun(double x){       //&#x6C42;&#x51FD;&#x6570;&#x7684;&#x5BFC;&#x6570;
    return x - 2.0;
}

int main(){
    double length,accuracy;     //&#x5B9A;&#x4E49;&#x6B65;&#x957F;&#xFF0C;&#x7CBE;&#x786E;&#x5EA6;
    double x0,x1;      //&#x5B9A;&#x4E49;&#x521D;&#x59CB;&#x4F4D;&#x7F6E;
    printf("&#x8BF7;&#x8F93;&#x5165;&#x6B65;&#x957F;,&#x7CBE;&#x786E;&#x5EA6;&#x53CA;&#x5176;&#x521D;&#x59CB;&#x4F4D;&#x7F6E;&#xFF1A;");
    scanf("%lf %lf %lf",&length,&accuracy,&x0);
    while(length*(-1)*der_fun(x0) > accuracy){
        x0 = x0 - length*der_fun(x0);
    }
    printf("x = %.5lf\ny = %.5lf",x0,fun(x0));
    return 0;

}

6、批量梯度下降算法

可以看出，计算机会每次从所有数据中计算梯度，然后求平均值，作为一次迭代的梯度，对于高维数据，计算量相当大，因此，把这种梯度下降算法称之为 批量梯度下降算法。

7、随机梯度下降算法

由于随机选取某个点，省略了求和和求平均的过程，降低了计算复杂度，提升了计算速度，但由于随机选取的原因，存在较大的震荡性。

Original: https://blog.csdn.net/m0_63794226/article/details/125289189
Author: 醉蕤
Title: 梯度下降算法(Gradient descent)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/715587/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Anaconda安装Jupyter Notebook及使用

文章目录 * – + 一、什么是Jupyter Notebook + * 1. 网页应用 * 2. 文档 + 二、安装 Jupyter Notebook + * 1. …

人工智能 2023年7月29日
00107
rocketmq+dashboard+grafana+prometheus

rocketmq安装启动namesrv，类似于为服务的注册中心 nohup sh mqnamesrv & nohup：后台执行坑：在执行之前，先到namsrv.sh中修…

人工智能 2023年7月20日
0071
bp神经网络预测模型原理,神经网络模型怎么预测

如何建立bp神经网络预测模型。建立BP神经网络预测模型，可按下列步骤进行：1、提供原始数据2、训练数据预测数据提取及归一化3、BP网络训练4、BP网络预测5、结果分析现用一个…

人工智能 2023年6月23日
00106
《数据挖掘》学堂在线【第一章：概述】习题答案参考与解析

《数据挖掘》系列文章目录第一章概述第二章数据第三章数据预处理第四章数据仓库和OLAP第五章回归分析第六章频繁模式第七章分类第八章聚类第九章离群点检测本章目录 …

人工智能 2023年7月16日
0097
【期末课设】python爬虫基础与可视化，使用python语言以及支持python语言的第三方技术实现爬虫功能，定向爬取网页的图片数据，并且实现批量自动命名分类下载。

1.大作业的内容本要求使用python语言以及支持python语言的第三方技术实现爬虫功能，定向爬取网页的图片数据，并且实现批量自动命名分类下载。2.案例需求要求采用虚拟浏览器等动…

人工智能 2023年7月17日
0078
TensorFlow 对数据集标记的xml文件解析记录

环境 Windows：10 Python 3.7.10 TensorFlow：2.3 matplotlib：3.3.4 lxml：4.7.1 最近要用TensorFlow做20种水…

人工智能 2023年5月25日
0074
【论文笔记】—低光图像增强—Supervised—URetinex-Net—2022-CVPR

【论文介绍】【题目】：URetinex-Net: Retinex-based Deep Unfolding Network for Low-light Image Enhance…

人工智能 2023年6月16日
0090
基于stm32单片机语音识别控制小车机器人

资料编号：067 下面是相关功能视频演示： 67-基于stm32单片机语音识别控制小车机器人（实物图+源码+原理图+全套资料）单片机采用stm32，可以通过语音控制小车前后左右行…

人工智能 2023年6月26日
00102
提取人脸特征的三种方法

安装dlib方法： https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/121470556 思路： 1、使用dli…

人工智能 2023年5月28日
0060
六、HSV颜色空间应用实例——颜色分割提取与替换

教程汇总：python基础入门系列通过之前的章节（四、OpenCV颜色空间——HSV颜色模型），我们已经初步认识了HSV颜色空间的特性与优势，现在就来看两个典型的应用实例，颜色分…

人工智能 2023年7月20日
0067
【学习笔记】集成学习（二）：回归问题

Datawhale组队学习第27期：集成学习本次学习的指导老师萌弟的教学视频本贴为学习记录帖，有任何问题欢迎随时交流~部分内容可能还不完整，后期随着知识积累逐步完善。开始时间：2…

人工智能 2023年6月18日
0077
Python二手车价格预测（二）—— 模型训练及可视化

系列文章目录一、Python数据分析-二手车数据获取用于机器学习二手车价格预测二、Python二手车价格预测（一）—— 数据处理文章目录系列文章目录前言一、明确任务二…

人工智能 2023年6月17日
0087
快速入门自动驾驶中目标检测算法

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月17日
0088
HTML小游戏8 —— 小霸王游戏机网页版（附完整源码）

💂 网站推荐:【神级源码资源网】【摸鱼小游戏】 🤟 风趣幽默的前端学习课程：👉28个案例趣学前端 💅 想寻找共同学习交流、摸鱼划水的小伙伴，请点击【摸鱼学习交流群】 *💬 免…

人工智能 2023年7月31日
00151
DataFrame索引的创建与基础用法

DataFrame 是一个表格型的数据结构（数据框），它含有一组有序的列，每列可以是不同的数据类型。DataFrame 既有行索引，也有列索引，可以看作是由多个Series索引组成…

人工智能 2023年7月16日
0067
CWRU滚动轴承数据集简介

西储大学滚动轴承数据集简介本文主要参考西储大学提供的官方数据介绍文件滚动轴承故障实验基础 · 试验台简介轴承故障测试实验台上图为西储大学滚动轴承故障测试试验台，该试验台主…

人工智能 2023年7月15日
0095

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

梯度下降算法(Gradient descent)

1、梯度

2、 核心公式

3、步长 <img decoding="async" alt="梯度下降算法(Gradient descent)" src="https://img-blog.csdnimg.cn/df2fd46743f84adfa057c534a32523a1.png"> （学习率）

4、 梯度下降法的一般步骤

5、 一元函数梯度下降实例