误差反向传播算法是否只可以用于训练神经网络

2024年1月4日下午8:31 • 人工智能 • 阅读 42

问题背景

误差反向传播算法（Error Backpropagation Algorithm）是一种用于训练神经网络的常用算法。然而，是否只能用于训练神经网络是一个比较有争议的问题。在本文中，我们将详细讨论误差反向传播算法的原理、公式推导、计算步骤以及给出一个复杂的Python代码示例。

算法原理

误差反向传播算法是一种基于梯度下降的优化算法，用于训练神经网络。在神经网络中，参数（权重和偏置）的调整是通过最小化损失函数来实现的。算法的基本思想是通过计算损失函数对每个参数的导数来确定参数调整的方向和幅度。

公式推导

在推导误差反向传播算法之前，我们先引入一些符号：

输入向量：$$x = (x_1, x_2, …, x_m)$$
第$l$层的输入：$$a^{(l)} = (a_1^{(l)}, a_2^{(l)}, …, a_{n_l}^{(l)})$$
第$l$层的输出：$$z^{(l)} = (z_1^{(l)}, z_2^{(l)}, …, z_{n_l}^{(l)})$$
第$l$层的参数：权重矩阵 $$W^{(l)}$$ 和偏置向量 $$b^{(l)}$$，其中 $$W^{(l)} = [w_{ij}^{(l)}]{n_l \times n{l-1}}$$ 且 $$b^{(l)} = (b_1^{(l)}, b_2^{(l)}, …, b_{n_l}^{(l)})$$
第$l$层的激活函数：$$\sigma^{(l)}(\cdot)$$

对于一个有$L$层的神经网络，其输出可以表示为：

$$a^{(L)} = f(z^{(L)})$$

其中 $f(\cdot)$ 是输出层的激活函数。我们的目标是最小化损失函数 $J(a^{(L)}, y)$，其中 $y$ 是训练样本的真实标签。

我们使用梯度下降法来更新参数。下面推导每一层中的参数调整量。

首先，计算输出层第$L$层的误差项 $delta^{(L)}$：

$$\delta^{(L)} = \nabla_{a^{(L)}} J \odot f'(z^{(L)})$$

其中 $\nabla_{a^{(L)}} J$ 表示损失函数对 $a^{(L)}$ 的导数，$\odot$ 表示逐元素乘法，$f'(\cdot)$ 表示激活函数的导数。

然后，对于第$l$层 $(L-1 \geq l \geq 1)$，我们计算误差项 $\delta^{(l)}$：

$$\delta^{(l)} = ((W^{(l+1)})^T \delta^{(l+1)}) \odot f'(z^{(l)})$$

最后，我们使用误差项来计算参数调整量：

$$\Delta W^{(l)} = \delta^{(l)} (a^{(l-1)})^T$$

$$\Delta b^{(l)} = \delta^{(l)}$$

其中，$(a^{(l-1)})^T$ 表示 $(l-1)$ 层的输入的转置。

计算步骤

根据推导的公式，我们可以总结出误差反向传播算法的一般步骤：

初始化神经网络的参数 $W^{(l)}$ 和 $b^{(l)}$。
对于每个训练样本，进行前向传播计算，得到每一层的输入和输出。
计算输出层的误差项 $\delta^{(L)}$。
根据误差项，计算每一层的误差项 $\delta^{(l)}$。
使用误差项计算参数调整量 $\Delta W^{(l)}$ 和 $\Delta b^{(l)}$。
更新参数 $W^{(l)}$ 和 $b^{(l)}$，应用梯度下降法进行优化。
重复步骤 2-6 直到达到收敛条件或达到训练迭代次数。

复杂Python代码示例

下面是一个使用Python实现的复杂神经网络误差反向传播算法的示例代码。我们假设网络有两个隐藏层和一个输出层，使用 sigmoid 激活函数。

import numpy as np

# 定义神经网络的参数
W1 = np.random.randn(2, 4) # 第一层权重矩阵大小为 (2, 4)
b1 = np.random.randn(4) # 第一层偏置向量大小为 (4,)
W2 = np.random.randn(4, 4) # 第二层权重矩阵大小为 (4, 4)
b2 = np.random.randn(4) # 第二层偏置向量大小为 (4,)
W3 = np.random.randn(4, 1) # 输出层权重矩阵大小为 (4, 1)
b3 = np.random.randn(1) # 输出层偏置向量大小为 (1,)

# 定义激活函数和其导数
def sigmoid(x):
 return 1 / (1 + np.exp(-x))

def sigmoid_derivative(x):
 return sigmoid(x) artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls (1 - sigmoid(x))

# 定义正向传播函数
def forward_propagation(X):
 # 第一层
 z1 = np.dot(X, W1) + b1
 a1 = sigmoid(z1)

 # 第二层
 z2 = np.dot(a1, W2) + b2
 a2 = sigmoid(z2)

 # 输出层
 z3 = np.dot(a2, W3) + b3
 a3 = sigmoid(z3)

 return a3

# 定义误差反向传播函数
def backward_propagation(X, y, learning_rate):
 m = X.shape[0] # 样本数量

 # 正向传播
 a3 = forward_propagation(X)

 # 输出层误差项
 delta3 = (a3 - y) artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls sigmoid_derivative(z3)

 # 第二层误差项
 delta2 = np.dot(delta3, W3.T) artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls sigmoid_derivative(z2)

 # 第一层误差项
 delta1 = np.dot(delta2, W2.T) artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls sigmoid_derivative(z1)

 # 参数调整量
 dW3 = np.dot(a2.T, delta3) / m
 db3 = np.sum(delta3, axis=0) / m
 dW2 = np.dot(a1.T, delta2) / m
 db2 = np.sum(delta2, axis=0) / m
 dW1 = np.dot(X.T, delta1) / m
 db1 = np.sum(delta1, axis=0) / m

 # 参数更新
 W3 -= learning_rate artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls dW3
 b3 -= learning_rate artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls db3
 W2 -= learning_rate artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls dW2
 b2 -= learning_rate artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls db2
 W1 -= learning_rate artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls dW1
 b1 -= learning_rate artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls db1

# 训练网络
X = np.array([[0, 0], [0, 1], [1, 0], [1, 1]]) # 输入样本
y = np.array([[0], [1], [1], [0]]) # 标签
learning_rate = 0.1 # 学习率
num_epochs = 10000 # 迭代次数

for epoch in range(num_epochs):
 # 误差反向传播更新参数
 backward_propagation(X, y, learning_rate)

# 输出结果
print(forward_propagation(X))

代码细节解释

第 3 行到第 7 行定义了不同层的权重矩阵和偏置向量。
第 10 行到第 14 行定义了 sigmoid 函数和其导数。
第 17 行到第 25 行定义了正向传播的函数。
第 28 行到第 54 行定义了误差反向传播的函数。其中，求导数的公式在正向传播中已经给出，这里直接应用。
第 58 行到第 67 行设置了训练的输入样本和目标标签，学习率和迭代次数。
第 69 行到第 73 行进行了训练迭代，调用了误差反向传播函数进行参数调整。
第 76 行打印了最终的输出结果。

这是一个简单的深度神经网络的误差反向传播算法的示例代码。通过这个例子，我们可以更好地理解该算法的实现和工作原理。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/823877/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Mac下Tomcat服务器的使用-Tomcat服务器关闭

回答1：要在Linux上运行的实例，可以以下命令： 1. 进入的bin目录： cd /path/to/</p> <p>/bin<code&gt…

人工智能 2023年6月29日
0061
同学，你这简历上没项目啊！

作者：朱小五大家好，我是小五🧐 同学，刚毕业或者转行去求职数据分析师的时候，你遭遇过这样的尴尬怪圈吗？比方说下面的jd就很真实：今天小五就跟大家聊聊，面试数据分析师时，如何彻…

人工智能 2023年7月17日
0083
【使用Pytorch实现ResNet网络模型：ResNet50、ResNet101和ResNet152】

使用Pytorch实现Resnet网络模型：ResNet50、ResNet101和ResNet152 介绍什么是 ResNet？ ResNet 的架构使用Pytorch构建 R…

人工智能 2023年6月26日
0097
PPLiteSeg实时语义分割预测结果输出控制无人车转向角度方向实现沿车道无人驾驶

一、前言承接上文已经完成对数据集的训练和对框架的修改实现实时输出mask的预测结果，但是仅仅做到这些是无法实现无人驾驶的。 PPLiteSeg训练自己的数据集实现自动驾驶并爆改制…

人工智能 2023年6月2日
00101
【机器学习】Few-shot learning（少样本学习）

文章目录少样本学习的诞生元学习少样本学习少样本学习中的相关概念 * 概念1：Support set VS training set 概念2：Supervised learn…

人工智能 2023年6月15日
0099
《机器学习》理论——速读学习2 常用方法（3）

该系列文章系个人读书笔记及总结性内容，任何组织和个人不得转载进行商业活动！time: 2021-12-24[TencentCloudSDKException] code:Faile…

人工智能 2023年6月3日
0072
python机器学习一元线性回归梯度下降法的实现【Python机器学习系列（四）】

python机器学习一元线性回归梯度下降法的实现【Python机器学习系列（四）】文章目录 ①首先读取数据集 ②初始化相关参数 ③定义计算代价函数–>MS…

人工智能 2023年6月15日
00137
python中 .reshape 的用法：reshape(1,-1)

reshape(1,-1)转化成1行： reshape(2,-1)转换成两行： reshape(-1,1)转换成1列： reshape(-1,2)转化成两列 reshape(2,8…

人工智能 2023年6月15日
00258
计算机视觉教程3-1：全面详解图像边缘检测算法(附Python实战)

目录 0 写在前面 1 一阶微分算子 * 1.1 Prewitt算子 1.2 Sobel算子 2 二阶微分算子 * 2.1 Laplace算子 2.2 LoG算子 3 Canny边…

人工智能 2023年7月5日
00111
TensorFlow 深度学习官网教程笔记系列：1.初学者的 TensorFlow 2.0 教程

入门 TensorFlow 深度学习，官网教程是非常不错的学习资料，但是教程内容多为实例展示，对其中函数、对象的完整用法缺乏深入解释，入门者常常会感觉「知其然而不知其所以然」。本…

人工智能 2023年5月26日
0081
[ACL22] HIBRIDS:Hierarchical Biases for Structure-aware Long Document Summarization 阅读笔记

HIBRIDS: Attention with Hierarchical Biasesfor Structure-aware Long Document Summarization…

人工智能 2023年7月14日
0080
Python中eval()函数的使用

今天给大家分享一下Python中的eval()函数，如果感觉博主的文章还不错的话，希望大家点赞支持一下博主文章目录 eval()函数 * 语法实例 – 实例1 实例…

人工智能 2023年7月30日
0040
SEM（结构方程模型）

重点难题：如何构建结构方程模型对数据进行分析 SEM（结构方程模型）结构方程模型是一门基于统计分析技术的研究方法学，它主要用于解决社会科学中的多变量问题，用来处理复杂的多变量数据…

人工智能 2023年6月16日
0080
彻底卸载并重装Anaconda环境与Python的方法

本文介绍在 Windows平台下，彻底删除 Anaconda环境与其自带 Python版本，并进行重新安装的方法。最近，由于原有 Anaconda环境中的部分第三方库出现了冲突的…

人工智能 2023年7月29日
0094
一文详解PnP算法原理

PnP(Perspective-n-Point)问题的几何结构如图1所示，给定3D点的坐标、对应2D点坐标以及内参矩阵，求解相机的位姿。数学语言描述如下：图1.PnP几何结构 …

人工智能 2023年5月28日
0096
BMP图像读取

BMP格式介绍根据百度百科对BMP的定义，我们知道BMP是Bitmap（位图）的简称，是Windows操作系统中的标准图像文件格式。其特点是由于几乎不进行压缩，所以包含的图像信息…

人工智能 2023年6月20日
0088

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31