反向传播算法是如何计算神经网络中的误差梯度的

2024年1月5日下午5:29 • 人工智能 • 阅读 49

问题介绍

在神经网络中，反向传播算法是一种用于训练模型的常用方法。它通过计算神经网络中的误差梯度来更新模型的权重，从而实现模型的优化。本文将详细介绍反向传播算法的原理、公式推导、计算步骤，并提供一个复杂的Python代码示例来解释代码细节。

算法原理

反向传播算法通过使用链式法则将神经网络的误差梯度从输出层向输入层进行传播。它使用了一种称为“反向计算”的方法，从最后一层开始计算梯度，然后逐层向前计算，直到达到输入层。

公式推导

我们假设我们有一个包含多个层的神经网络，其中包括输入层、输出层和中间层。我们用$W_{ij}^{(l)}$表示第$l$层的第$i$个神经元到第$l+1$层的第$j$个神经元之间的连接权重，$a_i^{(l)}$表示第$l$层的第$i$个神经元的输入，$z_i^{(l)}$表示第$l$层的第$i$个神经元的输出。对于输出层的第$j$个神经元，我们用$y_j$表示期望的输出值。

误差梯度表示为$\delta_i^{(l)}$，表示第$l$层的第$i$个神经元的误差梯度。我们使用平方误差作为损失函数，定义为$E = \frac{1}{2}\sum_j (y_j – z_j^{(L)})^2$，其中$L$表示输出层的索引。

根据链式法则，我们可以计算每个神经元的误差梯度$\delta_i^{(l)}$，并使用它们来更新权重$W_{ij}^{(l)}$。具体推导如下：

对于输出层（$l = L$）的第$j$个神经元，误差梯度为：
$$\delta_j^{(L)} = -(y_j – z_j^{(L)}) \cdot f'(a_j^{(L)})$$

其中$f'(a_j^{(L)})$表示激活函数$f$对输入$a_j^{(L)}$的导数。

对于中间层（$l = L-1, L-2, …, 2$）的第$i$个神经元，误差梯度为：
$$\delta_i^{(l)} = f'(a_i^{(l)}) \cdot \sum_j (\delta_j^{(l+1)} \cdot W_{ij}^{(l)})$$

根据上述公式，我们可以从输出层向输入层逐层计算误差梯度，然后使用梯度下降法来更新权重。

计算步骤

反向传播算法的计算步骤包括：

初始化权重。使用适当的方法（如随机初始化）为每个连接的权重赋初始值。
前向传播。对于每个训练样本，计算每个神经元的输入和输出。开始时，将输入值作为第一层的输出，然后通过每一层应用加权和激活函数来计算下一层的输出。
计算输出层的误差梯度。根据上述公式计算输出层每个神经元的误差梯度。
反向传播误差。从输出层开始，使用上述公式计算中间层每个神经元的误差梯度。
更新权重。使用梯度下降法根据误差梯度更新每个连接的权重。
重复步骤2-5，直到满足停止条件（如达到最大迭代次数或误差下降到一定程度）。

复杂Python代码示例

下面是一个复杂的Python代码示例，展示了如何使用反向传播算法训练一个神经网络。代码示例使用Python的numpy库实现了神经网络的前向传播和反向传播过程，并使用随机梯度下降法更新权重。

import numpy as np

class NeuralNetwork:
 def __init__(self, layers):
 self.layers = layers
 self.weights = [np.random.randn(y, x) for x, y in zip(layers[:-1], layers[1:])]
 self.biases = [np.random.randn(y, 1) for y in layers[1:]]

 def forward_propagation(self, a):
 for w, b in zip(self.weights, self.biases):
 a = self.activation(np.dot(w, a) + b)
 return a

 def back_propagation(self, x, y):
 activations = [x]
 zs = []
 for w, b in zip(self.weights, self.biases):
 z = np.dot(w, activations[-1]) + b
 zs.append(z)
 activation = self.activation(z)
 activations.append(activation)

 delta = self.cost_derivative(activations[-1], y) artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls self.activation_derivative(zs[-1])
 nabla_b = [delta]
 nabla_w = [np.dot(delta, activations[-2].T)]

 for l in range(2, self.num_layers):
 z = zs[-l]
 delta = np.dot(self.weights[-l+1].T, delta) artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls self.activation_derivative(z)
 nabla_b.append(delta)
 nabla_w.append(np.dot(delta, activations[-l-1].T))

 nabla_b = [np.mean(b, axis=1, keepdims=True) for b in reversed(nabla_b)]
 nabla_w = [np.mean(w, axis=1, keepdims=True) for w in reversed(nabla_w)]

 return nabla_b, nabla_w

 def update_weights(self, nabla_b, nabla_w, learning_rate):
 self.weights = [w - learning_rate artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls nw for w, nw in zip(self.weights, nabla_w)]
 self.biases = [b - learning_rate artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls nb for b, nb in zip(self.biases, nabla_b)]

 def train(self, training_data, epochs, mini_batch_size, learning_rate):
 n = len(training_data)
 for epoch in range(epochs):
 np.random.shuffle(training_data)
 mini_batches = [training_data[k:k+mini_batch_size] for k in range(0, n, mini_batch_size)]
 for mini_batch in mini_batches:
 nabla_b = [np.zeros(b.shape) for b in self.biases]
 nabla_w = [np.zeros(w.shape) for w in self.weights]
 for x, y in mini_batch:
 delta_nabla_b, delta_nabla_w = self.back_propagation(x, y)
 nabla_b = [nb + dnb for nb, dnb in zip(nabla_b, delta_nabla_b)]
 nabla_w = [nw + dnw for nw, dnw in zip(nabla_w, delta_nabla_w)]
 self.update_weights(nabla_b, nabla_w, learning_rate)

 def activation(self, z):
 return 1.0 / (1.0 + np.exp(-z))

 def activation_derivative(self, z):
 return self.activation(z) artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls (1 - self.activation(z))

 def cost_derivative(self, output_activations, y):
 return output_activations - y

# 创建一个神经网络
network = NeuralNetwork([2, 4, 1])

# 设置训练数据
training_data = [(np.array([[0], [0]]), np.array([[0]])),
 (np.array([[0], [1]]), np.array([[1]])),
 (np.array([[1], [0]]), np.array([[1]])),
 (np.array([[1], [1]]), np.array([[0]]))]

# 训练神经网络
network.train(training_data, epochs=1000, mini_batch_size=4, learning_rate=0.1)

# 测试神经网络
for x, y in training_data:
 prediction = network.forward_propagation(x)
 print('Input:', x.T, 'Expected:', y.T, 'Prediction:', prediction.T)

代码细节解释

该代码示例中的NeuralNetwork类实现了一个简单的三层神经网络。forward_propagation方法用于计算给定输入的输出，back_propagation方法用于计算误差梯度，update_weights方法用于更新权重。train方法用于训练神经网络。

在计算误差梯度时，代码利用前向传播过程中计算的激活值和线性组合值来计算误差梯度。在更新权重时，代码使用随机梯度下降法将权重沿着梯度方向进行更新。

代码示例使用了一个简单的训练数据集，其中包含4个训练样本。通过训练神经网络，并对训练数据进行预测，可以看到神经网络经过训练后能够正确预测输入样本的输出。

希望通过以上的详细阐述，您对反向传播算法如何计算神经网络中的误差梯度有更清晰的理解。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/824075/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

无监督异常检测（MVTec）

（排名第1）Towards Total Recall in Industrial Anomaly Detection （PatchCore）面向工业异常检测的全召回 MVTec …

人工智能 2023年7月26日
0094
解读 | 数据分析师(含转行)的面试简历如何写？

CDA数据分析师出品作者：徐杨老师编辑：Mika 大家好，我是徐杨老师，很高兴又和大家见面了。金三银四跳槽季马上就要到来了，是不是有很多同学都已经开始蠢蠢欲动了？但是不少…

人工智能 2023年7月16日
0058
图像处理模式

常用的减少分辨率：Skipping（跳采样）和Binning（合并读出） Binning 图像读出模式：将相邻的像元中感应的电荷被加在一起，以一个像素的模式读出。Binning分为…

人工智能 2023年6月22日
0094
pycharm中可以导入cv2，可以运行，但不能补全的问题解决方法

（解决这个问题的根源也是环境路径问题，网上不少方法都是解决路径问题的，这个方法对我是唯一有效的，但是不保证所有人都有效，这里提供一个解决的思路吧~）之前在pycharm用cv2一…

人工智能 2023年7月18日
0074
超详细的Python安装和环境搭建教程

目录安装简介：第一步，下载Python 第二步，安装Python 1.勾选 And Python 3.9 PATH 选项 2.选择自定义安装(Cutormize install…

人工智能 2023年7月4日
00102
再不入坑就晚了,深度神经网络概念大整理，最简单的神经网络是什么样子？

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月12日
0066
Ubuntu18.04使用命令行调用外接摄像头__附在yolov5上如何调用外接摄像头

Ubuntu18.04使用命令行调用外接摄像头__附在yolov5上如何调用外接摄像头前言：网上由教程用ROS调用外接摄像头，需要调摄像头的一些参数，但其实不用这么麻烦，直接用软…

人工智能 2023年6月2日
0070
SIFT算法步骤梳理

简介：SIFT算法是检测和描述局部特征的一种方法，具有尺度不变性，对于光线，噪声等的容忍度相当高。即便少数几个物体也可以产生大量SIFT特征。 SIFT算法实质上是在不同尺度空间上…

人工智能 2023年5月26日
0078
准确率，精准率，召回率，真正率，假正率，ROC/AUC

目录前言一.准确率二.精准率三.召回率四.精准率和召回率的关系，F1分数五.F1分数六.灵敏度和特异度七.真正率和假正率八.ROC曲线前言最近在看到这些词得时…

人工智能 2023年7月27日
0080
24、window11下，使用PYNQ-Z2开发板进行目标检测和识别

基本思想：使用PYNQ-Z2开发板，调用USB摄像头，进行目标识别和检测一、首先进入官网，下载镜像文件，官网地址PYNQ – Python productivity…

人工智能 2023年6月17日
00148
「数据标注」训练数据与测试数据：为什么要拆分？丨曼孚科技

众所周知，机器处理和存储知识的速度比人类快很多，且对”知识”的需求量也远超过人类，对于机器学习模型，通过数十甚至数百张图像可能仍无法准确识别一种物体。因此如…

人工智能 2023年7月17日
0059
今年，我只赚了一点点

大家好，我是 Jack。之前一直有小伙伴问我，有没有免费的股票信息查询的 API 接口？我看了一圈，很多免费的 API 接口都年久失修，失效了。那好吧，咱自己写一个。想要…

人工智能 2023年7月31日
0064
Python爬虫爬取网页上的所有图片

一. 前言以该网页(链接)为例，上面有图片形式的PPT内容，我的目的是将所有图片下载下来保存到本地，如果鼠标一张一张点击下载效率很低，于是可以用爬虫批量爬取图片。采用爬虫爬取网…

人工智能 2023年7月3日
0092
AI 自动写代码插件 Copilot(副驾驶员)

AI 自动写代码插件 Copilot 提示：Copilot单词&amp…

人工智能 2023年7月26日
0089
Python or html爱心代码（听说最近很火）

下面第四个最近抖音莫名很火的一个爱心❤️ 实现的方法不尽相同，重要的是心意而不是代码本身前三种用Python来实现，最后一种较为复杂，是用HTML来实现，是笔者搜集而来 1. …

人工智能 2023年7月3日
0063
yolov5-realsense深度信息目标检测（构建自己的数据集模型）

yolov5-realsense深度信息目标检测（构建自己的数据集模型）训练准备： 1.安装运行yolov5代码略 2.制作训练数据集目标训练数据集，应大于50张图片以上（…

人工智能 2023年7月9日
0058

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31