误差反向传播算法中的梯度是如何计算的

2024年1月4日下午7:55 • 人工智能 • 阅读 39

问题描述

误差反向传播算法是神经网络中常用的训练算法之一，它通过计算梯度来更新神经网络的权重。在该问题中，我们将详细解释误差反向传播算法中梯度的计算过程，并通过使用虚拟数据集展示完整的Python代码和解释代码细节。

算法原理

梯度是指某个函数在每个方向的变化率，计算梯度是为了找到函数的最小值或最大值。误差反向传播算法使用链式法则来计算神经网络各层的梯度，并将梯度反向传播到每一层的神经元。具体来说，算法包括以下几个步骤：

前向传播：将输入的特征数据通过神经网络的每一层，计算输出的预测值。
计算损失：通过比较预测值和实际值的差异，计算损失函数的值。
反向传播：使用链式法则，将损失函数的梯度从输出层一直传递到输入层，计算每个神经元的梯度。
更新权重：根据梯度和学习率，更新每个连接权重的值。

公式推导

设神经网络输出为 $\hat{y}$，实际值为 $y$，损失函数为 $L(\hat{y}, y)$。我们以二分类问题为例，使用交叉熵损失函数，公式如下：

$$L(\hat{y}, y) = – y \cdot \log(\hat{y}) – (1-y) \cdot \log(1-\hat{y})$$

为了方便计算，我们使用均方误差损失函数的导数，公式如下：

$$\frac{\partial L}{\partial \hat{y}} = \hat{y} – y$$

计算步骤

下面我们来具体说明计算梯度的步骤。

前向传播：
将输入特征数据 $X$ 做为神经网络的输入。
对于每一层，计算该层的加权输入结果 $z$ 和激活函数的输出结果 $a$。具体计算公式如下：
$z^{[l]} = W^{[l]} \cdot a^{[l-1]} + b^{[l]}$
$a^{[l]} = g(z^{[l]})$，其中 $g$ 表示激活函数。
最后一层的 $a$ 即为神经网络的预测结果 $\hat{y}$。
计算损失：
根据预测结果 $\hat{y}$ 和实际值 $y$，计算损失函数的值。
反向传播：
计算最后一层的梯度，根据公式 $\frac{\partial L}{\partial \hat{y}}$ 计算：
$da^{[L]} = \frac{\partial L}{\partial \hat{y}}$
对于每一层，从输出层开始往前计算梯度。
对于第 $l$ 层，根据下面的公式计算 $dz$ 和 $da$ 的值：
$dz^{[l]} = da^{[l]} \cdot g'(z^{[l]})$，其中 $g’$ 表示激活函数的导数。
$da^{[l-1]} = W^{[l]T} \cdot dz^{[l]}$
更新权重：
根据计算得到的梯度和学习率 $\alpha$，使用下面的公式更新权重和偏置：
$W^{[l]} = W^{[l]} – \alpha \cdot dW^{[l]}$
$b^{[l]} = b^{[l]} – \alpha \cdot db^{[l]}$

Python代码示例

下面是一个使用虚拟数据集的示例，展示了如何实现误差反向传播算法，并说明了代码的细节。

import numpy as np

# 生成虚拟数据集
np.random.seed(0)
X = np.array([[0, 0], [0, 1], [1, 0], [1, 1]])
y = np.array([0, 1, 1, 0])

# 定义激活函数和其导数
def sigmoid(x):
 return 1 / (1 + np.exp(-x))

def sigmoid_derivative(x):
 return sigmoid(x) artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls (1 - sigmoid(x))

# 初始化权重和偏置
W = [np.random.randn(2, 4), np.random.randn(4, 1)]
b = [np.zeros((1, 4)), np.zeros((1, 1))]

# 定义学习率
learning_rate = 0.1

# 开始训练模型
for epoch in range(1000):
 # 前向传播
 z = [None] artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls 2
 a = [X] + [None] artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls 2

 for l in range(2):
 z[l] = np.dot(a[l], W[l]) + b[l]
 a[l+1] = sigmoid(z[l])

 # 计算损失和梯度
 loss = - y artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls np.log(a[-1]) - (1 - y) artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls np.log(1 - a[-1])
 da = - (y / a[-1]) + (1 - y) / (1 - a[-1])

 dz = [None] artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls 2
 dW = [None] artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls 2
 db = [None] artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls 2

 for l in range(1, -1, -1):
 dz[l] = da artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls sigmoid_derivative(z[l])
 dW[l] = np.dot(a[l].T, dz[l])
 db[l] = np.sum(dz[l], axis=0, keepdims=True)
 da = np.dot(dz[l], W[l].T)

 # 更新权重和偏置
 for l in range(2):
 W[l] -= learning_rate artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls dW[l]
 b[l] -= learning_rate artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls db[l]

# 打印最终的预测结果
print(a[-1])

代码细节解释

代码首先导入需要的库，并定义了激活函数和激活函数的导数。
接着，生成了一个虚拟数据集 X 和对应的标签 y。
初始化了神经网络的权重和偏置 W 和 b。
设置了学习率 learning_rate。
在模型训练的主循环中，进行了前向传播、计算损失和梯度、反向传播和权重更新等步骤。
最后打印出了最终的预测结果。

在代码中，使用了 NumPy 库来进行矩阵运算，以便更高效地实现神经网络的计算。代码中的变量命名和注释都比较清晰，可以帮助理解每个步骤的作用和计算过程。

通过运行这段代码，我们可以看到模型最终的预测结果，这里演示的是一个简单的逻辑回归问题，可以很容易地验证结果的正确性。

希望以上内容对你理解误差反向传播算法中梯度的计算过程有所帮助！

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/823871/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Canny边缘检测算法(python 实现）

文章目录最优边缘准则算法实现步骤 * 1. 应用高斯滤波来平滑(模糊)图像，目的是去除噪声 2. 计算梯度强度和方向 3. 应用非最大抑制技术NMS来消除边误检 4. 应用双阈…

人工智能 2023年5月26日
00103
Oracle EBS AR收款核销异常会计事件ID丢失修复

客户月结反映提交”子分类帐期间关闭例外报表”显示某笔AR收款未处理，AR无法关闭会计期间，需要协助处理。一、问题症状：1、提交”子分类帐期间关闭…

人工智能 2023年6月28日
0084
毕业设计记录-yolov5训练自己的数据集全过程（从数据集标注到最后的图片测试）

文章目录 * – 1、标注数据集 – 2、训练前数据集的准备工作 – 3、修改训练相关的代码 – 4、用训练好的权重来测试 2022…

人工智能 2023年7月23日
00107
NLP（自然语言处理）

一、NLP是什么自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然…

人工智能 2023年6月17日
0089
〖Python自动化办公篇①〗- 文件自动化管理引言及shutil模块实现文件与文件内容的复制

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月5日
0082
《机器学习实战：基于Scikit-Learn、Keras和TensorFlow第2版》-学习笔记（6）：决策树

· Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition, by Auré…

人工智能 2023年5月26日
0090
基于情感分析与主题分析的微博“双减”政策话题在线评论研究

文章目录前言一、数据来源二、数据爬取三、数据清洗四、基于BosonNLP词典的情感分析 * 4.1 整体倾向 4.2 积极/消极情绪词云图 4.3 情感语义网络图五、主…

人工智能 2023年7月16日
0085
体验ChatGpt

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
0054
Python数据清洗处理，csv，pandas，数据匹配

本人python新手一枚，最近毕业论文需要用python处理数据，大概就是两年前学过一些python基础，最近重新把python捡起来了，由于这个数据处理过程对我这种新手来说过于艰…

人工智能 2023年7月8日
0073
医学图像～脑分类数据fMRI, voxel

目录 1. fMRI 1.1 fMRI应用：whole-brain fMRI classification 2. voxel, 体素 3. 张量tensor 医学图像相关的脑分类数…

人工智能 2023年7月3日
0079
[机器学习]Logistic回归

目录什么是逻辑斯蒂(Logistic)回归？ 1.线性回归函数 2. 逻辑函数(Sigmoid函数) 3. Logistic回归函数 Logistic回归分类器梯度上升算法 p…

人工智能 2023年6月18日
0092
推荐模型之多任务模型：ESMM、MMOE

ESMM ESMM的全称是Entire Space Multi-task Model (ESMM)，是阿里巴巴算法团队提出的多任务训练方法。其在信息检索、推荐系统、在线广告投放系统…

人工智能 2023年6月15日
0060
用pyspark学习《应用预测建模》（五）模型调优、交叉验证、衡量回归模型效果

先补充一下为啥用pyspark而不是scikit-learn。scikit-learn相比spark-mllib有很多优点。首先scikit-learn支持的模型更多，其次scik…

人工智能 2023年6月18日
0069
Python快速刷题网站——牛客网数据分析篇（一）

👦👦一个帅气的boy，你可以叫我Love And Program🖱 ⌨个人主页：Love And Program的个人主页💖💖如果对你有帮助的话希望三连💨💨支持一下博主 pytho…

人工智能 2023年7月6日
0078
最近大火的「元宇宙」是什么？

作者：腾讯技术工程特约撰稿人李佳华本文将介绍元宇宙的由来和底层技术，探讨海内外资本在这条赛道上的布局，元宇宙将会对哪些行业产生变革的影响，这些影响背后凸显了元宇宙的哪些价值，以…

人工智能 2023年6月23日
0091
Bert模型（Google官方）问题汇总

首先声明：本人是一个刚接触NLP和Python的小白，本文也只是为了记录自己在学习Bert模型上面遇到的一些问题，有说的不对的地方，请大家指正，我都会虚心接受。本人由于是小白，所…

人工智能 2023年5月25日
00133

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31