神经网络正向与反向传播

2023年7月14日下午4:01 • 人工智能 • 阅读 55

一、神经网络的前向传播原理

在全连接神经网络中，每一层的每个神经元都会与前一层的所有神经元或者输入数据相连，例如图中的 f 1 ( e ) f _1 ( e )f 1 (e )就与x 1 x_1 x 1 和 x 2 x_2 x 2 分别相连。因此，在计算的时候，每一个神经元的输出=使用激活函数激活前一层函数的累加和。

下面将通过一个具体例子来理解反向传播的具体流程。下图是一个神经网络的结构图，其中：输入数据：i1=0.05，i2=0.10 ;权重系数：w1=0.15，w2=0.20，w3=0.25，w4=0.30，w5=0.40，w6=0.45，- w7=0.50，w8=0.55 ;隐藏层神经元：h1，h2 ;输出层神经元：o1，o2 ;偏置项(bias)：b1=0.35，b2=0.60 ;激活函数：sigmoid
目标：给出输入数据i1, i2(0.05和0.10)，使输出尽可能与原始输出o1,o2(0.01和0.99)接近。

输入层——>隐藏层
计算神经元h1的加权和 n e t h 1 n e t_{h 1}n e t h 1 （未经激活函数激活）：

计算h1的输出 o u t h 1 out_{h1}o u t h 1 （激活后）：

同理可以计算出h2的输出o u t h 2 out_{h2}o u t h 2

同理可以计算出 隐藏层——>输出层
神经网络正向与反向传播

至此前向传播就结束了，我们得到的输出结果是[ o u t o 1 = 0.75136079 , o u t o 2 = 0.772928465 ] [out_{o1} =0.75136079 ,out_{o2}=0.772928465][o u t o 1 =0 .7 5 1 3 6 0 7 9 ,o u t o 2 =0 .7 7 2 9 2 8 4 6 5 ], 与目标的[0.01, 0.99]还差的很远。因此，有必要计算误差，更新权重，使预测值接近真实值。

; 二、神经网络的反向传播原理

Step2 更新输出层权重
由于隐藏层需要将相连接的多个神经元的权重求和，因此为了方便理解，这里先从一个神经元的输出层开始讲解。
1.计算误差
在我们的神经网络中，有两个输出，因此计算误差的时候需要把这两个输出的误差求和。这里计算总误差时，我们采用输出与期望的误差的平方和，即mse的计算方法来计算。
计算误差公式：

根据此公式，输出1、输出2、总误差的计算如下所示：
神经网络正向与反向传播

2.更新权重
更新权重时，我们需要知道这个权重对全体产生了多少影响，这个影响的大小可以用偏导数求出来。
例：对于输出层权重w5，我们可以用整体的误差对w5求偏导

下图展示了如何使用链式法则来进行反向传播的：

可以先想象以下有这样的一个函数。y = f a ( f b ( w 0 ， w 1 ) ) y = f a ( f b ( w 0 ， w 1 ) )y =f a (f b (w 0 ，w 1 ))，在这个函数中，由于是函数的嵌套，没法直接对w 0 w 0 w 0求偏导。想要对w 0 w 0 w 0求偏导的话，需要先用整个函数对外层的f a f_a f a 求偏导，然后在使用f a f_a f a 对f b ( w 0 , w 1 ) f_b(w_0, w_1)f b (w 0 ,w 1 )求偏导。链式法则就是针对这种函数嵌套问题的一种解决方法。（可以理解为套娃，想要求得最里面的偏导数就要一层一层拆开这种感觉。
针对图中的神经元，可以将其想象为以下的嵌套方式 ( n e t o 1 ( w 5 ， w 6 ， w 7 ) ) (net_{o1}(w5，w6，w7))(n e t o 1 (w 5 ，w 6 ，w 7 ))，因此为了求得w5对整体误差的影响，需要先用整体误差对o u t o 1 out_{o1}o u t o 1 求偏导，再用o u t o 1 out_{o1}o u t o 1 对n e t o 1 net_{o1}n e t o 1 求偏导，最后使用o u t o 1 out_{o1}o u t o 1 对w5求偏导。
了解了链式法则后，来实际看看使用链式法则对w5来进行求偏导的过程。
具体求解如下：
计算误差公式 ∂ E t o t a l / ∂ o u t o 1 ∂ E_{total}/∂out_{o1}∂E t o t a l /∂o u t o 1

这一步相当于是对激活函数sigmoid求导

最后三项相乘得到最终的w5的偏导：

在反向传播中，我们通常使用δ δδ来表示误差，因此输出层o1的误差可以表现为δ o 1 δ_{o1}δo 1 ,可以表示为如下形式：

因此对于计算w5对整体误差的影响的公式：

可以表示为：

如果误差为负数，也可以表示成：

根据上面的计算式，来更新w5的权重：

其中η是学习率，这里取0.5,同理更新w6，w7，w8：
神经网络正向与反向传播

Step3 更新隐藏层权重
更新隐藏层的方法，与更新输出层的权重系数的方法类似，但是有一点需要注意。
在更新输出层权重系数w5的时候，我们使用链式法则，通过out(o1)→net(o1)→w5求出。 注意！此时神经元o1的求导路径只有一条！
在更新隐藏层权重系数w1，使用链式法则时，通过out(h1)→net(h1)→w1求出，如下：

注意！这个时候神经元o1的求导路径有2条（如蓝色箭头所示）！
因此，计算的时候，需要计算这两个地方传来的误差，并求和:

先计算第一部分的误差：

同理可以计算第二部分：

两者相加计算出总误差：

计算第3部分的偏导数∂ n e t h 1 ∂ w 1 \frac{\partial net_{h1}}{\partial w_{1}}∂w 1 ∂n e t h 1 ：

三者相乘，计算h1节点对w1的偏导数 ∂ E t o t a l ∂ w 1 \frac{\partial E_{total}}{\partial w_{1}}∂w 1 ∂E t o t a l

至此，就计算出了神经元h1的误差。
将上面的计算步骤整理，可得如下公式：
神经网络正向与反向传播

其中，累加符号表示将不同路径的误差相加，此时的路径有两条（图中的两个蓝色箭头）。同时，将计算输出层的误差时说到，计算时使用δ δδ来表示误差，这里的δ h 1 δ_{h1}δh 1 代表神经元h1的误差。得到了神经元h1的误差，就可以根据之前的权重系数以及误差来更新权重系数了。更新h1的权重系数：

至此，1个神经元的权重系数的更新就完成了。其中的η \etaη代表学习率，通常在程序中指定，可以理解为梯度下降法中的步长。
同理，更新w2,w3,w4的权重系数：

至此，反向传播就结束了。将这个过程不断重复，就可以不断减小误差，提高正确率，获得比较好的模型了。
感谢博主的知识共享：
原文链接：https://blog.csdn.net/fsfjdtpzus/article/details/106256925

Original: https://blog.csdn.net/qq_52302919/article/details/123428411
Author: 小小小~
Title: 神经网络正向与反向传播

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/692386/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

一个简单的逻辑回归多分类例子与代码（python-sklearn实现）

目录一.问题二.流程与代码 (一) 流程 (二)代码 (三)模型表达式 sklearn逻辑回归多分类有两种模式： ovr与multinomial。在multi_class设为…

人工智能 2023年6月15日
0075
bert-textcnn实现多标签文本分类（基于keras+keras-bert构建）

对文本编码对文本编码需要弄清楚，输入给bert的是什么，bert的输入需要token_id与segment_id，是tokenizer操作后的返回值。 &#x52A0…

人工智能 2023年6月30日
00101
2023中国（江西）国际预制菜产业展览会/南昌预制食品展会

JXCYE江西预制菜展：2023年首展，打造我国唯具参展价值的行业发展盛会；展会介绍：2023中国（江西）国际预制菜产业展览会The 2023 China (Jiangxi) I…

人工智能 2023年6月27日
0080
手把手教你语音识别（三）

朋友们，手拉手语音识别的第三部分就要来了，这部分开始讲解网络建设的部分，也是手把手教大家哦，千万不要错过。 [En] Friends, the third part of hand…

人工智能 2023年5月25日
0082
tensorRT踩坑日常之训练模型转ONNX转engine

tensorRT是用来干嘛的在这里就不多介绍了在使用tensorRT提速之前需要先训练模型在将训练好的模型转ONNX再转engine 一、将训练好的模型转ONNX这里就提供将tor…

人工智能 2023年6月24日
00665
plt.函数

1 plt.figure () ：创建画布 plt.figure(num=None, figsize=None, facecolor=None, edgecolor=None, c…

人工智能 2023年7月30日
0069
语音识别概念相关链接

涉及内容包括但不限于：中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用…

人工智能 2023年5月27日
0097
neo4j中文手册（笔记）

Neo4j 官方文档本翻译笔记项目的github地址：neo4j笔记仓库本文档目前对以下内容未做详细记录 neo4j数据库与Cypher 索引 Indexes 约束 const…

人工智能 2023年6月1日
0065
全连接层的作用是什么？（nn.Linear()）

回答一：概述全连接层 Fully Connected Layer 一般位于整个卷积神经网络的最后，负责将卷积输出的二维特征图转化成一维的一个向量，由此实现了端到端的学习过程（即…

人工智能 2023年7月5日
00101
Tensorflow 窗口时间序列数据的处理

Tensorflow 时间序列数据的处理数据集简介数据来源：Kaggle Ubiquant Market Prediction 数据集描述了多个投资项目在一个时间序列下的300…

人工智能 2023年6月4日
0066
创建自己的图像分割数据集并利用Unet实现图像分割（pytorch）

一、配置lanelme数据集标注工具 1.安装labelme labelme安装参考链接，从这个链接中选取你要安装的labelme版本，按照教程操作即可。注：在安装时候可能出现一…

人工智能 2023年6月18日
00177
超分辨率代码运行

本篇文章将详细讲述新手小白初次运行超分辨率代码，以亚像素卷积（ESPCN）这篇文章为例。（1）首先从github上下载ESPCN的代码（代码地址：https://github.co…

人工智能 2023年7月22日
0065
(一)路径规划算法—Astar与C++可视化在RVIZ的二维栅格地图

Astar与C++可视化在RVIZ的二维栅格地图中文章目录 Astar与C++可视化在RVIZ的二维栅格地图中 * 1.功能包介绍 2.二维栅格地图以及相关坐标系说明 &#821…

人工智能 2023年6月25日
0084
【CVPR 2021】最新EEG脑电信号分类模型研究：Object classification from randomized EEG trials

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月2日
0053
深度学习中的注意力机制汇总

什么是注意力机制视觉注意力机制是人类视觉所特有的一种大脑信号处理机制，而深度学习中的注意力机制正是借鉴了人类视觉的注意力思维方式。一般来说，人类在观察外界环境时会迅速的扫描全…

人工智能 2023年5月26日
00139
模型部署入门教程（八）：如何添加TensorRT自定义算子

在前面的模型入门系列文章中，我们介绍了部署一个 PyTorch 模型到推理后端，如 ONNXRuntime，这其中可能遇到很多工程性的问题。有些可以通过创建 ONNX 节点来解决…

人工智能 2023年7月23日
0071

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

神经网络正向与反向传播

大家都在看