梯度下降与一元线性回归

2023年6月17日下午3:00 • 人工智能 • 阅读 108

梯度下降

基本概念

梯度下降法（gradient descent),又名最速下降法（steepest descent)是求解 无约束最优化问题最常用的方法。它是一种迭代方法，每一步主要的操作是求解目标函数的梯度向量，将当前位置的负梯度方向作为搜索方向（因为在该方向上目标函数下降最快）

方向导数：方向导数是在函数定义域的点对某一方向求导得到的导数。

梯度：梯度是一个向量，函数在该点处沿着该方向（此梯度的方向）变化最快。

算法流程

（1）随机初始参数

（2）确定学习率

（3）求出损失函数对参数梯度

（4）按照公式更新参数

（5）重复(3)(4)直到满足终止条件（如：损失函数或参数更新变化值小于某个阈值，或者训练次数达到设定阈值）

=0，

=0.05下，两轮迭代参数

的变化过程。

解：（1）初始化：

=0，

=0.05

（2）计算

=0的梯度： 2(

-3)=-6

（3）修改

=0-0.05*(-6)=0.3

（4）abs(0-0.3)>0.0001，转向（2）

（5）计算

=0.3的梯度：2(

-3)=2(0.3-3)=-5.4

（6）修改

=0.3-0.05*(-5.4)=0.57

实例:用代码实现梯度下降

1.单元函数求最低点
计算函数

（1）手工推导

（2）代码实现

import numpy as np
import matplotlib.pyplot as plt
f&#x7684;&#x51FD;&#x6570;
def f(x):
    return x ** 2 * 0.5 - 2 * x + 3
def d_f(x):
    return x - 2

#&#x5B9A;&#x4E49;&#x68AF;&#x5EA6;&#x4E0B;&#x964D;&#x6CD5;
def gradient_descent():#gradient&#x68AF;&#x5EA6;
    times = 100#&#x8FED;&#x4EE3;&#x6570;
    alpha = 0.1#&#x5B66;&#x4E60;&#x7387;
    x = 10#&#x8BBE;&#x7F6E;&#x7684;&#x521D;&#x59CB;&#x503C;
    x_axis = np.linspace(-10,10)#&#x8BBE;&#x5B9A;x&#x8F74;&#x7684;&#x5750;&#x6807;&#x7CFB;
    fig = plt.figure(1,figsize=(5,5))#&#x8BBE;&#x5B9A;&#x753B;&#x5E03;&#x7684;&#x5927;&#x5C0F;
    ax = fig.add_subplot(1,1,1)#&#x8BBE;&#x5B9A;&#x753B;&#x5E03;&#x5185;&#x53EA;&#x6709;&#x4E00;&#x4E2A;&#x56FE;
    ax.set_xlabel('X',fontsize=14)
    ax.set_ylabel('Y',fontsize=14)
    ax.plot(x_axis,f(x_axis))#&#x4F5C;&#x56FE;
    #&#x8FDB;&#x884C;&#x8FED;&#x4EE3;
    for i in range(times):
        x1 = x
        y1 = f(x)
        print("&#x7B2C;%d&#x6B21;&#x8FED;&#x4EE3;&#xFF1A;x=%f,y=%f" % (i+1,x,y1))
        x = x - alpha * d_f(x)#&#x66F4;&#x65B0;x
        y = f(x)
        ax.plot([x1,x],[y1,y],'ko',lw=1,ls='-',color='coral')
    plt.show()
if __name__ == "__main__":
    gradient_descent()

对if __name__ == "__main__"的理解
参考：https://blog.csdn.net/xiaoxik/article/details/78749361

代码运行结果：

2.多元函数求最低点

（1）手工推导

（2）代码实现：

import matplotlib.pyplot as plt
import numpy as np
from mpl_toolkits.mplot3d import Axes3D
def f(x,y):
    return (x - 10)**2 + (y - 10)**2
def d_fx(x,y):
    return 2 * (x - 10)
def d_fy(x,y):
    return 2 * (y - 10)

def gradient_descent():
    times=100
    alpha=0.1
    x=20
    y=20
    fig = Axes3D(plt.figure())
    x_axis = np.linspace(0,20,100)
    y_axis = np.linspace(0,20,100)
    x_axis, y_axis = np.meshgrid(x_axis, y_axis)#&#x5C06;&#x6570;&#x636E;&#x8F6C;&#x5316;&#x4E3A;&#x7F51;&#x683C;&#x6570;&#x636E;
    z = f(x_axis,y_axis)
    fig.set_xlabel('X',fontsize=14)
    fig.set_ylabel('Y',fontsize=14)
    fig.set_zlabel('Z',fontsize=14)
    fig.view_init(elev=60,azim=300)#&#x8BBE;&#x7F6E;3D&#x56FE;&#x7684;&#x4FEF;&#x89C6;&#x89D2;&#x5EA6;&#xFF0C;&#x65B9;&#x4FBF;&#x67E5;&#x770B;&#x68AF;&#x5EA6;&#x4E0B;&#x964D;&#x66F2;&#x7EBF;
    fig.plot_surface(x_axis,y_axis,z,rstride=1,cstride=1,cmap=plt.get_cmap('rainbow'))#&#x4F5C;&#x51FA;&#x5E95;&#x56FE;
    #&#x8BA1;&#x7B97;&#x6781;&#x503C;

    for i in range(times):
        x1 = x
        y1 = y
        z1 = f(x,y)
        print("&#x7B2C;%d&#x6B21;&#x8FED;&#x4EE3;&#xFF1A;x=%f,y=%f,z=%f" %(i+1,x1,y1,z1))
        x = x - alpha * d_fx(x,y)
        y = y - alpha * d_fx(x,y)
        z= f(x,y)
        fig.plot([x1,x],[y1,y],[z1,z],'ko',lw=2,ls='-')
    plt.show()

if __name__ == "__main__":
    gradient_descent()

代码运行结果：

批量梯度下降（BGD)

批量梯度下降算法需要计算整个训练集的梯度，即：

其中 为学习率，用来控制更新的”力度/步长”。

优点：对于凸目标函数，可以保证全局最优；对于非凸目标函数，可以保证一个局部最优。

缺点：速度慢；数据量大时不可行；无法在线优化（即无法处理动态产生的新样本）。

随机梯度下降（SGD)

逐步减小学习率，SGD表现得同BGD很相似，最后都可以有不错的收敛。

优点:更新频次快，优化速度更快；可以在线优化（可以处理动态产生的新样本）；一定的随机性导致有几率跳出局部最优（随机性来自于用一个样本的梯度去代替整体样本的梯度）。

缺点：随机性可能导致收敛复杂化，即使到达最优点仍然会进行过度优化，因此SGD的优化过程相比BGD充满动荡。

一元线性回归

线性回归概念

回归分析中，如果只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析;如果回归分析中包括两个或者两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。

一元线性回归其实就是从一堆训练集中去算出一条直线，使数据集到直线之间的距离差最小。

最简单的模型如图所示：

下面两个模型都是线性回归模型

原理引入

唯一特征x，共有m=500个数据数量，Y是实际结果，要从中找到一条直线，使数据集到直线之间的距离差最小，如下图所示：

那要如何完成这个操作呢？

思路如下：

先假设一条直线：

为了之后的计算将其改为：

实例：

波士顿房价

代码如下：

import matplotlib.pyplot as plt
import matplotlib
from math import pow
from random import uniform
import random

x0 = [150,200,250,300,350,400,600]
y0 = [6450,7450,8450,9450,11450,15450,18450]
#&#x4E3A;&#x4E86;&#x8BA1;&#x7B97;&#x65B9;&#x4FBF;&#xFF0C;&#x5C06;&#x6240;&#x6709;&#x6570;&#x636E;&#x7F29;&#x5C0F;100&#x500D;
x = [1.5,2,2.5,3,3.5,4,6]
y = [64.5,74.5,84.5,94.5,114.5,154.5,184.5]

#&#x7EBF;&#x6027;&#x56DE;&#x5F52;&#x51FD;&#x6570;&#x4E3A;y=theta0 + theta1*x
#&#x53C2;&#x6570;&#x5B9A;&#x4E49;
theta0 = 0.1#&#x5BF9;theta&#x8D4B;&#x503C;
theta1 = 0.1#&#x5BF9;theta&#x8D4B;&#x503C;
alpha = 0.1#&#x5B66;&#x4E60;&#x7387;
m = len(x)
count0 = 0
theta0_list = []
theta1_list = []

#&#x4F7F;&#x7528;&#x6279;&#x91CF;&#x68AF;&#x5EA6;&#x4E0B;&#x964D;&#x6CD5;
for num in range(10000):
    count0 +=1
    diss = 0#&#x8BEF;&#x5DEE;
    deriv0 = 0
    deriv1 = 0
    #&#x6C42;&#x5BFC;
    for i in range(m):
        deriv0 +=(theta0+theta1*x[i]-y[i])/m
        deriv1 +=((theta0+theta1*x[i]-y[i])/m)*x[i]

    #&#x66F4;&#x65B0;theta0&#x548C;theta1
    for i in range(m):
        theta0 = theta0 - alpha*(theta0+theta1*x[i]-y[i])/m
        theta1 = theta1 - alpha*((theta0+theta1*x[i]-y[i])/m)*x[i]

    #&#x6C42;&#x635F;&#x5931;&#x51FD;&#x6570;J()
    for i in range(m):
        diss = diss + (1/(2*m))*pow((theta0+theta1*x[i]-y[i]),2)

    theta0_list.append(theta0*100)
    theta1_list.append(theta1)
    #&#x5982;&#x679C;&#x8BEF;&#x5DEE;&#x5DF2;&#x7ECF;&#x5F88;&#x5C0F;&#xFF0C;&#x5219;&#x9000;&#x51FA;&#x5FAA;&#x73AF;
    if diss<=100: 100 break theta0="theta0*100#&#x524D;&#x9762;&#x6240;&#x6709;&#x6570;&#x636E;&#x7F29;&#x5C0F;&#x4E86;100&#x500D;&#xFF0C;&#x6240;&#x4EE5;&#x6C42;&#x51FA;&#x6765;&#x7684;theta0&#x9700;&#x8981;&#x653E;&#x5927;100&#x500D;&#xFF0C;theta1&#x4E0D;&#x7528;&#x53D8;" #使用随机梯度下降法 theta2="0.1" theta3="0.1" count1="0" theta2_list="[]" theta3_list="[]" for num in range(10000): +="1" diss="0" # 误差 deriv2="0" deriv3="0" 求导 i range(m): * x[i] - y[i]) m m) 更新theta2和theta3 alpha (theta2 theta1="theta1" ((theta2 求损失函数j() rand_i="random.randint(0,m)" (1 (2 m)) pow((theta2 y[i]), 2) theta2_list.append(theta2 100) theta3_list.append(theta3) 如果误差已经很小，则退出循环 if <="0.001:" print("批量梯度下降最终得到theta0="{},theta1={}".format(theta0,theta1))" print("得到的回归函数是：y="{}+{}*x".format(theta0,theta1))" print("随机梯度下降最终得到theta0="{},theta1={}".format(theta2,theta3))" #画原始数据和函数图 matplotlib.rcparams['font.sans-serif']="['SimHei']" plt.plot(x0,y0,'bo',label="&#x6570;&#x636E;" ,color="black" ) plt.plot(x0,[theta0+theta1*x x x0],label="&#x6279;&#x91CF;&#x68AF;&#x5EA6;&#x4E0B;&#x964D;" plt.plot(x0,[theta2+theta3*x plt.xlabel('x(面积)') plt.ylabel('y(价格）') plt.legend() plt.show() plt.scatter(range(count0),theta0_list,s="1)" plt.scatter(range(count0),theta1_list,s="1)" plt.xlabel('上方为theta0,下方为theta1') plt.scatter(range(count0),theta2_list,s="3)" plt.scatter(range(count0),theta3_list,s="3)" code></=100:>

参考：https://blog.csdn.net/hcxddd/article/details/116396611?spm=1001.2014.3001.5501

Original: https://blog.csdn.net/weixin_64417453/article/details/122631345
Author: weixin_64417453
Title: 梯度下降与一元线性回归

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/630569/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

神经网络权重初始化代码 init.kaiming_uniform_和kaiming_normal_

神经网络权重初始化–容易忽视的细节为什么要初始化 kaiming初始化方法由来代码实现 PReLu的使用后话禁止转载！！为什么要初始化神经网络要优化一个非常…

人工智能 2023年7月12日
0074
labelme 构造自己的数据集

文章目录前言一、labelme是什么？二、安装三、使用前言在我们训练模型的过程中，都是用的现成的数据集比如cifar10数据集等，在我们实际运用过程中，肯定要训练自己的…

人工智能 2023年7月28日
0056
kaldi安装

kaldi安装教程下载源文件官网地址：http://kaldi-asr.org/doc/install.html#install_install 安装Git ，sudo apt…

人工智能 2023年5月25日
0074
Spark入门（一篇就够了）

文章目录引言 1. Spark 基础 * 1.1 Spark 为何物 1.2 Spark VS Hadoop 1.3 Spark 优势及特点 – 1.3.1 优秀的数…

人工智能 2023年7月27日
0057
利用Pycharm将python文件打包为exe文件（超详细，附带如何设置文件图标）

文章目录前言一、下载pyinstaller库二、打开Pycharm进行打包（不更改图标） * 1.进入Terminal控制台进行编辑 2.转入对应路径（可看情况忽略） 3.控…

人工智能 2023年7月4日
0065
怎么使用小爱同学音响_天猫精灵、小爱同学，哪一款智能音响才是你的最爱？…

科学技术的不断发展也让我们每年都能跟上新的智能浪潮。例如，两年前的智能手机、智能平板电脑和可穿戴设备在过去两年无疑是火上浇油。小编也紧跟潮流，进了天猫精灵，每天都和天猫精灵聊天。 …

人工智能 2023年5月27日
00124
tensorflow/keras使用GPU进行训练

原文 1 需要的环境配置 Anaconda环境，Anaconda安装教程 CUDA，CUDA下载，这里需要注意CUDA、cuDNN、tensorflow的对应版本，对应版本查询 c…

人工智能 2023年6月17日
0094
tensorflow 猫狗识别数据增强

文章目录卷积网络参数网络配置模型训练和效果展示完整代码数据增强 * 角度旋转平移变换缩放 channel_shift 翻转 rescale变化图像填充任务介绍： …

人工智能 2023年5月25日
0088
UpdatePack7R2 v22.11.10 Win7累积更新离线整合补丁

这是个Windows 7 更新补丁安装包，Win7累积更新离线安装包，它包括所有关键更新和安全更新及Internet Explorer所有版本的更新，此外还集成了NVMe驱动和US…

人工智能 2023年6月30日
0064
同学：你因作业作弊已被AI抓获，Python制作一款AI检测抄袭小脚本。

导语你的童年我的童年好像都一样小小身体大大书包上呀上学堂世界上本没有喜欢上学的小孩被爸妈打多了，也就有了~ 上学意味着什么呢~意味着开始做作业假期作业没写怎么办？赶…

人工智能 2023年5月30日
0096
DNN（全连接神经网络）

一. DNN网络一般分为三层 1.输入层 2.隐藏层 3.输出层简单网络如下：二.前向传播从第二层开始，每一个神经元都会获得它上一层所有神经元的结果。即每一个 y = wx …

人工智能 2023年6月23日
0057
Python正则表达式(一看就懂)

目录哈喽O(∩_∩)O😄 什么是正则表达式(⊙_⊙) 简单说，正则表达式是… 正则表达式怎么用❓ sreach的用法🍊 匹配连续的多个数值🍉 字符”+&#…

人工智能 2023年7月3日
0097
K-Means聚类及调用sklearn库代码实现

K-Means聚类又叫做K均值聚类，即将n个样本分到k个类中，每个样本到其所属类的中心的距离最小。由于每个样本只能属于一个类，因此也是属于一种硬聚类。基本原理：输入k值，代表将总…

人工智能 2023年6月2日
00107
Pandas案例精进 | 药品发放汇总与Excel表数据回填

小小明：「凹凸数据」专栏作者，Pandas数据处理高手，致力于帮助无数数据从业者解决数据处理难题。 Pandas案例需求有一个卫生院需要统计一下每个村扶贫药品发放的数据。数据形…

人工智能 2023年7月7日
0059
Amos中介效应检验

想要学习更多SPSS、AMOS、R等软件操作，请关注”数据分析成长记”微信公众号，更多精彩文章等你来读！ Amos–中介效应检验中介效应，它指…

人工智能 2023年6月18日
00132
PyTorch使用多GPU并行训练及其原理和注意事项

常见的多GPU使用方法模型并行（model parallel） -> 大型网络（对速度没有提升）当模型需要的显卡很大，一张GPU的显存放不下时，使用这种方式就可以训练一个…

人工智能 2023年7月21日
0066

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

梯度下降与一元线性回归

大家都在看