动手实现深度学习（9）：第四篇：optimization的实现

2023年6月4日上午4:26 • 人工智能 • 阅读 88

神经网络的学习目的是找到使得损失函数的值尽可能小的参数，这个寻找最优参数的过程称为最优化（optimization）。本章会介绍4中优化函数，给出实现代码和测例。

测例方面，首先会用函数做测试，观察是否可以逼近极小值；然后会用mnist数据集做测试观察是否能够收敛。

所测试的函数公式如下：

在前几篇两篇中一直使用同一种的方法修改权重。这种方法为了寻找最优参数，将参数的梯度（导数）作为依据，根据参数的梯度，就知道梯度的方向，并沿着梯度的方向更新参数。通过不断的更新迭代上述步骤，从而逐渐接近最优参数。这个过程称为随机梯度下降（stochastic gradient descent, SGD）， 前面几篇的训练中一直使用的是SGD。SGD的数学表达式如下：

虽然实现简单，也能得到优化参数。 但是SGD有很多缺点 , 比较明显的一个就是梯度的方向并没有指向最小值的方向,有可能得到的最优解是局部最优解。

因此我们还应该实现其他的优化参数的方法。不过在此之前，需要对程序做修改，之前代码的耦合性很高，先把SGD独立抽出来，写成一个class,代码如下。

PS: 2/3里面均是采用SGD寻找最优参数，我们也可以从代码中找到，优化代码结构。

在第3篇的mnist数据集训练手写体：

第二篇里的2.4节，mnist数据集训练手写体：

测试SGD:

与之前测试梯度的方法类似：给出一个函数公式，求它的梯度。但这次会将每次梯度下降的点绘制出来。

针对SGD的缺点，添加动量v，对应物理上的速度。这样公式类似于物理上的瞬时速度的公式，对应物理上的阻力。

是加速度，一般是常量0.9

代码测试：

参考资料：

AdaGrad又称为学习率衰减。在神经网络的训练过程中，学习率的设置很重要，如果学习设置过小，导致学习的时间很长；学习率过大导致不能收敛。

针对以上的这种情况，有人提出了learning rate decay的方法：可以让学习率一开始比较大，随着训练的次数增加，学习率不断减少。AdaGrad（Adaptive Grad）会对每个元素的学习率进行适当的调整。AdaGrad的数学表达式如下：

表示损失函数关于的梯度；

表示学习率

由于保存了以前所有梯度值的 平方和，所以在更新参数的时候需要对除以才可以。这样一来，参数元素中变动较大的元素的学习率会降低。可以看做按照参数的元素进行学习率的衰减，使得变动较大的参数的学习率减小。

AdaGrad会记录所有梯度的平方和，然后在减去对应的梯度的权重，因此学习越深入，更新的幅度会越小。

测试代码：

参考资料：

从公式上看AdaGrad会迭代更新权重，这意味着会记录过去所有的平方和。可能会存在学习越深入更新的幅度会越小，甚至到最后几乎为0的情况。从上图可以看出确实出现了这种情况。

RMSProp可以改善这种情况。

RMSProp不是将过去的所有梯度都一视同仁的相加，而是逐渐的遗忘过去的梯度。

这里的代码实现就不给出了；，具体可以从github上获取：

Adam的思路是将adaGrad和momnentum结合在一起。论文中Adam会设置3个参数：学习率，一次动量系数,二次动量系数。

测试代码：

参考资料：

P.S：这里面把RMSprop也放进来做参考了。

在网上找到了一些资料：

Original: https://www.cnblogs.com/greentomlee/p/16686799.html
Author: 修雨轩陈
Title: 动手实现深度学习（9）：第四篇：optimization的实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/566244/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

stata 回归干扰项_STATA数据处理技巧与计量分析七|回归分析偏误处理（下）

上期小统和大家一起了解了STATA数据处理技巧与计量分析中的部分回归分析偏误处理知识，这期小统和大家继续学习一下剩下的知识点~ 偏误处理之三共线性假定SLR.2 解释变量X是确…

人工智能 2023年6月18日
0079
Opencv Python图像处理进阶教程②

Opencv Python图像处理进阶教程概述：代码：https://github.com/bai1231/opencv-learn_and_pratice 1、图像卷积与应…

人工智能 2023年6月20日
0079
我的“深度学习”笔记——实战1 LeNet网络 [图像分类]

我的”深度学习”笔记——实战1 LeNet网络 [图像分类] LeNet5 是一个非常有名也非常老的模型，可以说是第一个实践效果好的模型，由Yann LeC…

人工智能 2023年7月2日
0076
使用python开发二维码识别功能、Docker镜像安装opencv-contrib-python、

使用python开发二维码识别功能、Docker镜像安装opencv-contrib-python、背景开发二维码识别功能，使用到开源三方库opencv-contrib-pyt…

人工智能 2023年7月19日
0062
MODIS数据下载及图像处理教程

任务描述：如题，以2010年月尺度1km的MODIS的植被覆盖度（NDVI）数据为例第一步：获得MODIS数据下载链接 Earthdata Search(下载地址) ; 第二步…

人工智能 2023年6月20日
00106
【李宏毅机器学习2021】Task02 回归

【李宏毅机器学习2021】本系列是针对datawhale《李宏毅机器学习-2022 10月》的学习笔记。本次是对回归的学习总结。本节通过视频学习到回归任务的提出，三个要素，及如何优…

人工智能 2023年6月18日
0079
python数据与挖掘实战学习：第一章数据挖掘基础笔记

[ 查询_数据指从 _数据库_中获取所需要的数据。 _查询_数据是 _数据库_操作中最常用，也是最重要的操作。用户可以根据自己对数据的需求，使用不同的 _查询_方式。通过不同的 _…

人工智能 2023年7月17日
0050
pip手把手安装pytorch，保姆级教学

从python官网下载python安装包本人使用py版本python 3.9.7记得添加系统路径变量 https://blog.csdn.net/weixin_44706011/a…

人工智能 2023年7月21日
0073
新版selenium4.0 + Python使用详解

目录 1、selenium简介 2、环境 Python + selenium 2.1、selenium库安装 2.2、驱动下载 2.3、驱动位置与使用 3、selenium库代码讲…

人工智能 2023年7月3日
00153
基于批量OCR分析中传研究生录取名单

中国传媒大学一直是我向往的高校，但是众所周知中国传媒大学研究生录取是十分不透明的，复试参考资料、往年真题、报录比等等都不公开，官网的研究生录取名单是图片形式的，无法直接用网页搜索工…

人工智能 2023年6月11日
0063
Opencv多版本共存问题

Opencv多版本共存问题 * – 一、面向读者 – 二、安装过程一、面向读者 已经安&…

人工智能 2023年7月19日
0069
内置googletts并且内置中文语音包

先上补丁 diff –git a/frameworks/base/core/java/android/speech/tts/TextToSpeech.java b/framewo…

人工智能 2023年5月23日
0067
医学知识图谱构建关键技术及研究进展

点击上方蓝字关注我们医学知识图谱构建关键技术及研究进展谭玲1, 鄂海红1, 匡泽民2, 宋美娜1, 刘毓1, 陈正宇1, 谢晓璇1, 李峻迪1, 范家伟1, 王晴川1, 康霄阳…

人工智能 2023年6月1日
0075
我的Vue之旅、05 导航栏、登录、注册 (Mobile)

第一期 · 使用 Vue 3.1 + TypeScript + Router + Tailwind.css 构建手机底部导航栏、仿B站的登录、注册页面。代码仓库 alicepol…

人工智能 2023年6月4日
0083
【数据分析】数据分析方法（七）：AARRR 模型分析 & 漏斗分析

数据分析方法（七）：AARRR 模型分析 & 漏斗分析 1. AARRR 模型分析方法如果把产品看作一个鱼塘，使用产品的用户看作鱼塘里的鱼。AARRR 模型的五个环节可以…

人工智能 2023年7月15日
0082
3.吴恩达机器学习–神经网络

本文旨在完成吴恩达机器学习的课后作业，搭建一个简单的神经网络来实现多分类问题，以手写数字识别为例。 1. 导入所需第三方库 from sklearn.datasets import…

人工智能 2023年7月13日
0065

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

动手实现深度学习（9）：第四篇：optimization的实现

大家都在看