神经网络技巧篇之寻找最优参数的方法

2023年7月14日上午7:55 • 人工智能 • 阅读 78

在神经网络的学习中，其中一个重要目的就是找到 使损失函数的值尽可能小的参数，为了找到这个最优参数，我们使用梯度（导数）作为线索，沿着梯度方向来更新参数，并重复这个步骤，从而逐渐靠近最优参数，这个过程叫做随机梯度下降法（SGD,Stochastic Gradient Descent），有兴趣的可以参阅下面我以前写的关于SGD的文章

Python随机梯度下降法（一）神经网络技巧篇之寻找最优参数的方法 https://blog.csdn.net/weixin_41896770/article/details/119950830 ;

Python随机梯度下降法（二）神经网络技巧篇之寻找最优参数的方法 https://blog.csdn.net/weixin_41896770/article/details/120074804 ;

Python随机梯度下降法（三）神经网络技巧篇之寻找最优参数的方法 https://blog.csdn.net/weixin_41896770/article/details/120151414 ;

Python随机梯度下降法（四）【完结篇】神经网络技巧篇之寻找最优参数的方法 https://blog.csdn.net/weixin_41896770/article/details/120264473 ;

这篇文章主要介绍另外几种寻找最优参数的方法，做一个比较，在此之前，我们先来看一个 探险家的故事：有一个奇怪的探险家，想在一片广袤的干旱地带，寻找到 最深的谷底，对于正常人来说这件事情不难，但是这次探险有两个条件，一个是不准看地图，另外一个就是蒙着眼睛，什么都不看。这样的前提条件，如何去寻找呢？那这个时候地面的坡度就是一个很重要的因素了，通过脚底来感受地面的倾斜状况，那么只需要朝着所在位置最大坡度的方向前进就好，再重复这个步骤，这样就可以找到最深的谷底了。
这个故事大家已经知道，其实是属于一个随机梯度下降的方法（SGD），现在我们通过等高线来模拟这个搜索路径

common.optimizer.py【后面的方法都在这个文件中】

import numpy as np

class SGD:
    '''随机梯度下降法，lr是学习率'''
    def __init__(self,lr=0.01):
        self.lr=lr

    def update(self,params,grads):
        for i in params.keys():
            params[i]-=self.lr*grads[i]

parameter_optimizers.py 【】
SGD的数学式：（其中 W 是权重参数，是学习率，是损失函数关于权重的梯度）

import numpy as np
import matplotlib.pyplot as plt
from collections import OrderedDict
from common.optimizer import *

def f(x,y):
    return 1/20*x**2 + y**2

def df(x,y):
    '''f函数的偏导数'''
    return 1/10*x,2*y

params={}
params['x'],params['y']=-7,2#从(-7,2)的位置开始搜索
grads={}
grads['x'],grads['y']=0,0

mySGD=SGD(lr=0.9)
x_temp=[]
y_temp=[]
for i in range(30):
    x_temp.append(params['x'])
    y_temp.append(params['y'])
    grads['x'],grads['y']=df(params['x'],params['y'])
    mySGD.update(params,grads)

#画函数f的等高线
x=np.arange(-10,10,0.01)
y=np.arange(-5,5,0.01)
X,Y=np.meshgrid(x,y)
Z=f(X,Y)
plt.plot(x_temp,y_temp,'o-',color='red')
plt.contour(X,Y,Z)
plt.plot(0,0,'+')
plt.show()

从图中可以看出搜索路径呈现”之”字形往（0,0）方向移动，效率比较低，现在我们把另外三个方法Momentum,AdaGrad,Adam，放在一起进行比较。

Momentum：

数学式：
和前面SGD公式一样，其中 W 是权重参数，

是学习率，

是损失函数关于权重的梯度，α变量类似地面摩擦力，设定0.9之类的值，v变量，对应物理的速度，表示物体在梯度方向上受力，在这个力的作用下，物体的速度增加这一物理法则。其中v以字典型变量的形式保存与参数结构相同的数据

class Momentum:
    '''动量SGD,模拟小球在地面滚动'''
    def __init__(self,lr=0.01,momentum=0.9):
        self.lr=lr
        self.momentum=momentum
        self.v=None

    def update(self,params,grads):
        if self.v is None:
            self.v={}
            for k,v in params.items():
                self.v[k]=np.zeros_like(v)
        for k in params.keys():
            self.v[k]=self.momentum*self.v[k]-self.lr*grads[k]
            params[k]+=self.v[k]

AdaGrad：

数学式：

和前面公式比较，多了一个h的参数，这个参数是保存所有 梯度值的平方和（矩阵的乘法），由于在神经网络的学习中，学习率的值很重要，过小会导致花费时间过多，过大就会导致学习发散而不能正确进行，所以在更新参数的时候，乘以一个神经网络技巧篇之寻找最优参数的方法

可以调整学习的尺度，换句话说就是参数的元素中变动较大的元素，学习率将变小。

class AdaGrad:
    '''调节学习率的SGD'''
    def __init__(self,lr=0.01):
        self.lr=lr
        self.h=None

    def update(self,params,grads):
        if self.h is None:
            self.h={}
            for k,v in params.items():
                self.h[k]=np.zeros_like(v)
        for k in params.keys():
            self.h[k]=self.h[k]+grads[k]*grads[k]
            params[k]-=self.lr*grads[k]/(np.sqrt(self.h[k])+1e-7)#加一个微小值防止为0

Adam:

数学式：

是AdaGrad和Momentum方法的融合，稍微复杂点，这个方法的目的就是类似小球滚动，而且通过调节更新参数让小球左右晃动的程度有所减轻。

class Adam:
    '''融合Momentum和AdaGrad'''
    def __init__(self,lr=0.01,beta1=0.9,beta2=0.999):
        self.lr=lr
        self.beta1=beta1
        self.beta2=beta2
        self.iter=0
        self.m=None
        self.v=None

    def update(self,params,grads):
        if self.m is None:
            self.m,self.v={},{}
            for k,v in params.items():
                self.m[k]=np.zeros_like(v)
                self.v[k]=np.zeros_like(v)
        self.iter+=1
        lr_t=self.lr*np.sqrt(1.0-self.beta2**self.iter)/(1.0-self.beta1**self.iter)
        for k in params.keys():
            self.m[k]=self.beta1*self.m[k]+(1-self.beta1)*grads[k]
            self.v[k]=self.beta2*self.v[k]+(1-self.beta2)*(grads[k]**2)
            params[k]-=lr_t*self.m[k]/(np.sqrt(self.v[k])+1e-7)

我们将四个方法画图显示：

import numpy as np
import matplotlib.pyplot as plt
from collections import OrderedDict
from common.optimizer import *

def f(x,y):
    return 1/20*x**2 + y**2

def df(x,y):
    '''f函数的偏导数'''
    return 1/10*x,2*y

params={}
#params['x'],params['y']=-7,2#从(-7,2)的位置开始搜索
grads={}
grads['x'],grads['y']=0,0

#使用有序字典保存四种方法，分别遍历进行画图
mySGDDict=OrderedDict()
mySGDDict['SGD']=SGD(lr=0.9)
mySGDDict['Momentum']=Momentum(lr=0.1)
mySGDDict['AdaGrad']=AdaGrad(lr=1.5)
mySGDDict['Aam']=Adam(lr=0.3)
idx=1
for k in mySGDDict:
    mySGD=mySGDDict[k]
    x_temp=[]
    y_temp=[]
    params['x'],params['y']=-7,2#分别从(-7,2)的位置开始搜索
    for i in range(30):
        x_temp.append(params['x'])
        y_temp.append(params['y'])
        grads['x'],grads['y']=df(params['x'],params['y'])
        mySGD.update(params,grads)

    #画函数f的等高线
    x=np.arange(-10,10,0.01)
    y=np.arange(-5,5,0.01)
    X,Y=np.meshgrid(x,y)
    Z=f(X,Y)
    plt.subplot(2,2,idx)#画子图
    idx+=1
    plt.plot(x_temp,y_temp,'o-',color='red')
    plt.contour(X,Y,Z)
    plt.plot(0,0,'+')
    plt.title(k)
plt.show()

Original: https://blog.csdn.net/weixin_41896770/article/details/121375510
Author: 寅恪光潜
Title: 神经网络技巧篇之寻找最优参数的方法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/691623/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

2022年真无线蓝牙耳机排行榜，音质最好的无线平价蓝牙耳机

年关将至，在座有不少朋友希望年底能选购超值无线蓝牙耳机，而对于过年在家玩游戏的人来说，买一台好的蓝牙耳机也是必不可少的。今年，笔者推荐4款超值手机，不能买错！ [En] The y…

人工智能 2023年5月25日
0059
Windows系统下使用Mingw编译并运行opencv教程

一、编译环境系统：Windows10旗舰版cmake版本下载：3.9.2QtMingw版本下载：qt-opensource-windows-x86-5.11.0.exe，太大了只…

人工智能 2023年7月19日
00100
sklearn库机器学习python使用教程：学完这一篇即巅峰

一、sklearn库安装 pip install scikit-learn 二、认识（四大学习） 1、分类学习(classification)，属于监督型适用算法一：k邻算法 f…

人工智能 2023年5月31日
0061
java计算机毕业设计web企业人事管理信息系统源码+mysql数据库+系统+lw文档+部署

本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：idea eclipse 前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAV…

人工智能 2023年6月26日
0067
基于Python+Open CV的手势识别算法设计

素材资料下载：目录 1. 课题背景及分析 2. 算法设计 3. 算法实现与调试 4. 实验结果及分析 5. 今后研究及改进计划 6. 设计总结 7. 主要参考书目 8. 附件 1…

人工智能 2023年6月25日
0060
RGB颜色对照表

工具网站颜色对照表：常用：其他: 常用：颜色HTML / CSS名称十六进制代码 RRGGBB 十进制代码（R，G，B）黑色＃000000（0,0,0）白色#FFFFF…

人工智能 2023年6月19日
0061
Pandas数据分析

什么是Pandas？一、读取数据 * 读取csv文件读取txt文件，自己指定分隔符、列名读取EXCEl文件读取MySQL数据库二、Pandas数据结构 * 仅有数据列表即…

人工智能 2023年7月6日
0068
自动驾驶入门必须要学会的ADAS（详解）

ADAS详解一、信息辅助 * 1、行车监控类 2、危险预警类 3、驾驶便利类二、控制辅助 * 1、紧急应对类 2、驾驶便利类 3、是车道保持类 4、智能灯光类先丢一版ADAS…

人工智能 2023年7月29日
0063
吴恩达机器学习(五)逻辑回归练习-二分类练习

1、基础内容（1）公式总结: ; （2）内容回归: 逻辑回归主要是进行二分类和多分类。对于线性回归模型，我们定义的代价函数是所有模型误差的平方和。理论上来说，我们也可以对逻辑回归…

人工智能 2023年6月18日
0047
用opencvSharp实现在任意多边形内寻找最大的内接正交矩形

用opencvSharp实现在任意多边形内寻找最大的内接正交矩形之前写过一篇在任意多边形内寻找近似最大的内接正交矩形，但不怎么符合工作要求，于是再认真看了看之前那篇文章，最后总算…

人工智能 2023年6月20日
0083
DIY：制作一个语音识别的空调遥控器

夏天来了，空调对我们来说简直是救命稻草，但对于失去一切的我来说，因为找不到遥控器，我一直很担心，所以我花了一天一夜的时间用单片机制作了一个语音识别空调遥控器。把它放在空调下24小时…

人工智能 2023年5月27日
0069
R语言矩阵matrix数据类型、生成示例matrix数据、为矩阵添加行名称和列名称、使用中括号[]索引matrix数据、矩阵matrix实战

以下是一个用 C 语言编写的矩阵_运算 _示例_代码，可以处理三 _行_四 _列_的 double 类型 _数据： `c #include Original: https://b…

人工智能 2023年6月11日
0080
一、TensorFlow基础

1、TensorFlow框架介绍 TensorFlow是什么谷歌基于DistBelief进行研发的第二代人工智能学习系统用于许多机器学习和深度学习领域，如语音识别或图像识别 […

人工智能 2023年5月25日
0073
【梯度下降】zero_grad （二）

参考链接：https://www.jb51.net/article/189433.htmhttps://www.jianshu.com/p/c59b75f1064c 一、zero_…

人工智能 2023年7月22日
0054
IOU、GIOU、DIOU、CIOU详解及代码实现

一、IOU Loss旷视在2016文章《UnitBox: An Advanced Object Detection Network》中提出了IOU Loss将4个点构成的box看成…

人工智能 2023年5月26日
0059
Python 使用pandas库处理csv文件

Python数据分析系列第一章 csv文件处理进阶目录 Python数据分析系列一、pandas是什么？二、使用步骤 * 1.引入库 2.读入数据 3.数据获取和处理 &#…

人工智能 2023年6月19日
0080

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

神经网络技巧篇之寻找最优参数的方法

大家都在看