【深度学习】3-从模型到学习的思路整理

2023年6月12日下午11:49 • 人工智能 • 阅读 79

前言

活动地址：CSDN21天学习挑战赛

🚀 个人主页：清风莫追
🌊 本文整理了从模型，到损失，再到损失关于权值的梯度的一些思路
🔥 希望和大家一起加油，一起进步！

文章目录

前言
1. 模型
2. 损失
3. 损失loss关于权值W的梯度
4. 求梯度——数值梯度
5. 梯度下降中的小批量
模型

神经网络的模型可以就看作为一个函数，模型学习（训练）的过程，就可以看成是给函数寻找合适的参数的过程。比如，下面就是一个简单的模型，它所表示的函数就是 y = w 1 x 1 + w 2 x 2 y = w1x1+w2x2 y =w 1 x 1 +w 2 x 2

这个函数在两个侧面的投影，就是 y = w 1 x 1 y=w1x1 y =w 1 x 1 和 y = w 2 x 2 y=w2x2 y =w 2 x 2。学习一个多元函数，可以看成是分别学习多个一元的函数。

; 2. 损失

损失，也就是模型和数据的 不贴合程度。
衡量损失常用的一个函数是 均方损失函数：l o s s = ∑ i = 1 n ( y i ^ − y i ) 2 loss=\displaystyle\sum_{i=1}^n(\hat{y_{i}}-y_{i})^2 l oss =i =1 ∑n (y i ^−y i )2，其中 n 为数据点数量。
函数也可以写成 l o s s = ∑ i = 1 n ( W X i − y i ) 2 loss=\displaystyle\sum_{i=1}^n(WX_{i}-y_{i})^2 l oss =i =1 ∑n (W X i −y i )2，其中 W 为模型的所有权值，X i X_{i}X i 为第 i 个数据点的所有自变量。

既然衡量损失有了一个确定的函数，那训练模型的过程就可以变成一个 最小化损失的过程，方法就是不断地改变权值W，使函数关于所有这些数据点的损失（或者说平均损失）不断变小。

损失loss关于权值W的梯度

通常来说，应该函数的权值 W 是固定的，而数据的特征 X 作为自变量。但我们是要通过一个固有的数据集，来优化权值W，所以在优化过程中，我们要把损失函数l o s s loss l oss中的 W看作自变量。

然后我们求 l o s s loss l oss 关于 W W W 的梯度，遵循着梯度的指引来改变 W W W。

如果某个权值的梯度是正的，说明随着权值w w w的增大，损失l o s s loss l oss也会增大。那我们为了让损失变小，就要减小w w w的值。
同样，如果梯度是负的，我们就要增大对应的权值。

W W W 中的每个 w w w 的移动，可以看成是相对独立、互不干扰的。更新一个有很多权值的复杂模型，就成了很多重复的这样更新单个权值的操作。

; 4. 求梯度——数值梯度

在具体求梯度的过程中，计算机本身是不会公式演算的。但我们并不需要对损失函数求出梯度的表达式，而只需求函数在每个权值w w w处的梯度值。

数值梯度的方法，就人为地设置了一个确定的微小值 h h h，比如 1 0 − 5 10^{-5}1 0 −5（具体根据实际需要）。
l o s s g = l o s s ( w + h ) − l o s s ( w − h ) 2 h loss_ g = {loss(w+h)-loss(w-h) \over 2h}l os s g =2 h l oss (w +h )−l oss (w −h )

因此，我们更新 w w w 的方式，就像是先试探着往一个方向走一小步，如果发现合适，就再往那个方向走一大步；否则，就往反方向走。

梯度下降中的小批量

小批量随机梯度下降法是机器学习中一种常用的方法，为什么要用到小批量？

前面每次计算损失，都是计算模型函数关于整个样本数据集的损失。那么在样本数据很大时，比如十万、百万的数据量时，这样计算资源的消耗就太大了，而且是 不必要的。

使用小批量，就是起到部分代表整体的作用。我们假装一个小批量，就体现着整个数据集的特征。然而这难免有些 片面性，通过小批量所指引的 w w w 前进的方向，有可能从整个的数据集中来看并不是恰当的方向。因此，我们把一个数据集划分成许多个小批量后，每个小批量都会使用，且会进行多轮（多个周期）的训练，以将整个数据集的特征都充分展现出来。

感谢阅读

Original: https://blog.csdn.net/m0_63238256/article/details/126345455
Author: 清风莫追
Title: 【深度学习】3-从模型到学习的思路整理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/605737/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pytorchnn.Linear的基本用法

文章目录 nn.Linear的基本定义实战参考资料 nn.Linear的基本定义 nn.Linear定义一个神经网络的线性层，方法签名如下： torch.nn.Linear(i…

人工智能 2023年7月24日
0087
TensorFlow1（一）全连接神经网络识别mnist数据集

首先我们来介绍一下mnist数据集 MNIST数据集由Yann LeCun搜集，是一个大型的手写体数字数据库，通常用于训练各种图像处理系统，也被广泛用于机器学习领域的训练和测试。M…

人工智能 2023年7月14日
0080
python—数据分析(二)

Series和DataFrame中数据的基本功能： reindex方法是创建一个新对象，其数据对Series和DataFrame的新索引，它们的主要区别在DataFrame可以对i…

人工智能 2023年7月8日
0055
Matlab之机载雷达系统中的空时自适应处理（STAP）技术（附源码）

目录一、介绍二、系统设置 2.1 天线定义 2.2 雷达设置 2.3 目标 2.4 杂波 2.5 传播路径三、模拟循环 3.1真实目标范围、角度和多普勒 3.2 使用 DPC…

人工智能 2023年6月30日
0086
(深度学习社区发现综述)A Comprehensive Survey on Community Detection with Deep Learning

论文地址推荐直接看原文。译文深度学习分类框架，包括基于深度神经网络、深度非负矩阵分解和深度稀疏滤波的深度学习模型，并进一步将深度神经网络模型细分为卷积网络，图注意网络，生…

人工智能 2023年5月31日
0070
pandas输出列名_使用Pandas的字典键和值的列名

我正在使用pandas将一些数据转储到excel文件中。数据是字典格式的，我使用下面的代码来转储它。df1 = pd.DataFrame.from_dict(weights_dic…

人工智能 2023年7月8日
0066
最大似然估计(MLE)入门教程

; 什么是最大似然估计(MLE) 最大似然估计(Maximum Likelihood Estimation)是一种可以生成拟合数据的任何分布的参数的最可能估计的技术。它是一种解决建…

人工智能 2023年6月19日
0081
计算机视觉项目实战-图像特征检测harris、sift、特征匹配

😊😊😊 欢迎来到本博客😊😊😊本次博客内容将继续讲解关于OpenCV的相关知识🎉 作者简介：⭐️⭐️⭐️ 目前计算机研究生在读。主要研究方向是人工智能和群智能算法方向。目前熟悉pyt…

人工智能 2023年6月19日
00100
QT实现视频图片处理

此程序分成两部分，一部分是对图片进行处理，一部分是对视频进行处理，其余还有一些小功能！目录原理(代码在后面)：图片处理： 1)图片的打开 2)图片的切换 3)图片的灰度化 4…

人工智能 2023年6月21日
0070
使用三重损失和孪生神经网络训练大型类目的嵌入表示

大型网站类目目录的数量很大，一般都无法进行手动标记，所以理解大型目录的内容对在线业务来说是一个重大挑战，并且这使得对于新产品发现就变得非常困难，但这个问题可以通过使用自监督神经网络…

人工智能 2023年7月16日
0068
Jupyter安装及应用

最近参与了一些数据分析的微课堂了解学习，接触了几个工具，记录如下：先来了解一下Jupyter百科的简介 Jupyter Notebook（此前被称为 IPython notebo…

人工智能 2023年6月11日
00214
LeNet识别MNIST数据集

文章目录 1.什么是LeNet模型 2.导入数据包 3.加载图片，并显示第一张图片的尺寸 4.显示前十张数字 5.构造LeNet网络 6.精确函数 7.训练数据总结以上训练结果…

人工智能 2023年7月2日
0093
Python 基础科学模块包以及数据可视化

基础科学模块包前言 Numpy * 基本操作相关API 实际应用 Pandas 数据可视化 * Tensorboard Matplotlib – plot(x, y…

人工智能 2023年5月26日
0076
remote替代devtools 安装安装units,sf,ncdf4,msnbase包

library(shiny) appDir conda install r-sf r-ncdf4 r-units(DEP5) root@0b5003cae16c:/opt/cond…

人工智能 2023年6月30日
00220
Pandas索引操作及高级索引

Pandas索引操作及高级索引索引对象 Pandas 中的索引都是 Index 对象，又称索引对象，该对象是不可以进行修改的，以保证数据的安全。例如，创建一个 Series 类…

人工智能 2023年7月8日
0097
故障预测方法分类

故障预测算法分类故障预测算法分为三类：基于模型(model-driven)的故障预测技术；基于数据驱动(data—driven)的故障预测技术；基于统计可靠性的故障预测技术…

人工智能 2023年7月28日
0054

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【深度学习】3-从模型到学习的思路整理

文章目录

大家都在看