一般神经网络(DNN)反向传播过程

2023年7月14日上午9:19 • 人工智能 • 阅读 42

DNN反向传播过程

多元函数微分

损失函数都是标量函数，它使用范数损失将向量转换为标量。计算损失函数在第L层输入的导数是一种标量对向量的求导。实际上不论是几维向量，都可以视为一列多元函数的自变量数组。
例如，m × n m\times n m ×n维度的矩阵{ W i j } {W_{ij}}{W ij }可以转化为一列多元函数的自变量数组：
{ W i j } → ( W 11 , W 12 . . . W n m ) {W_{ij}}\rightarrow(W_{11},W_{12}…W_{nm}){W ij }→(W 11 ,W 12 …W nm )
那么关于{ W i j } {W_{ij}}{W ij }的标量函数可以视作关于( W 11 , W 12 . . . W n m ) (W_{11},W_{12}…W_{nm})(W 11 ,W 12 …W nm )的多元函数。多元函数的梯度就是标量函数对矩阵求导的结果。还记得多元函数的梯度是这样省的：
∂ f ∂ x → = ( ∂ f ∂ x 1 , ∂ f ∂ x 2 . . . ∂ f ∂ x n ) \frac{\partial f}{\partial \overrightarrow{x}}=(\frac{\partial f}{\partial x_{1}}, \frac{\partial f}{\partial x_{2}}…\frac{\partial f}{\partial x_{n}})∂x ∂f =(∂x 1 ∂f ,∂x 2 ∂f …∂x n ∂f )

向量对向量求导

向量函数可以视作多个标量多元函数组成的向量，例如有将向量B映射为A的向量函数。
A = G ( B ) w h e r e A ∈ R N × 1 , B ∈ R M × 1 A=G(B)\ where\ A\in R^{N\times1},B\in R^{M\times1}A =G (B )w h ere A ∈R N ×1 ,B ∈R M ×1

如果我们将向量A视作多个标量多元函数组成的向量，那么求导就方便多了。
A = ( a 1 ( b 1 , b 2 , . . . b m ) , a 2 ( b 1 , b 2 , . . . b m ) , . . . ) ∂ A ∂ B = ( ∂ a 1 ∂ B , ∂ a 2 ∂ B , . . . ) = ( ∂ a 1 ∂ b 1 . . . ∂ a 1 ∂ b m ∂ a 2 ∂ b 1 . . . ∂ a 2 ∂ b m . . . . . . . . . ∂ a n ∂ b 1 . . . ∂ a n ∂ b m ) \begin{aligned} A&=(a_{1}(b_{1},b_{2},…b_{m}),a_{2}(b_{1},b_{2},…b_{m}),…)\ \frac{\partial A}{\partial B}&=(\frac{\partial a_{1}}{\partial B},\frac{\partial a_{2}}{\partial B},…)\ &=\left( \begin{array}{ccc} \frac{\partial a_{1}}{\partial b_{1}} & … & \frac{\partial a_{1}}{\partial b_{m}}\ \frac{\partial a_{2}}{\partial b_{1}} & … & \frac{\partial a_{2}}{\partial b_{m}}\ … & … & …\ \frac{\partial a_{n}}{\partial b_{1}} & … & \frac{\partial a_{n}}{\partial b_{m}}\ \end{array} \right) \end{aligned}A ∂B ∂A =(a 1 (b 1 ,b 2 ,…b m ),a 2 (b 1 ,b 2 ,…b m ),…)=(∂B ∂a 1 ,∂B ∂a 2 ,…)=⎝⎛∂b 1 ∂a 1 ∂b 1 ∂a 2 …∂b 1 ∂a n …………∂b m ∂a 1 ∂b m ∂a 2 …∂b m ∂a n ⎠⎞
Wow, see, 现在向量求导清晰多了。当然，不管你将求导展开成n × m n\times m n ×m形式的矩阵还是m × n m\times n m ×n的矩阵，只要在求导时统一，都没有关系。

DNN损失函数求导

神经网络的损失函数都是标量函数。常见的损失有L1、L2范数损失、啦啦啦的。以L2范数损失为例，一般的全连接神经网络损失函数：
ϵ = 1 2 ∣ ∣ σ ( a L ) − y ∣ ∣ 2 @ E q . 1 \begin{array}{ccc} \epsilon = \frac{1}{2} ||\sigma (\bf{a^{L}})-\bf{y}||^{2} & @Eq.1 \end{array}ϵ=2 1 ∣∣σ(a L )−y ∣∣2 @Eq .1
其中a L = W L ⋅ a L − 1 + b L , a L , b L ∈ R N L , W L ∈ R N L × R N L − 1 \bf{a^{L}}=\bf{W^{L}}\cdot\bf{a^{L-1}}+\bf{b^{L}}, \bf{a^{L}},\bf{b^{L}}\in R^{N_{L}},\bf{W^{L}}\in R^{N_{L}}\times R^{N_{L-1}}a L =W L ⋅a L −1 +b L ,a L ,b L ∈R N L ,W L ∈R N L ×R N L −1 表示第L层激活函数的结果，y \bf{y}y表示Ground truth。Now，如何求解损失函数对W L , b L \bf{W^{L}}, \bf{b^{L}}W L ,b L的梯度呢？We only have to expand Eq.1 to the following expression 啦啦啦:
ϵ = 1 2 Σ i N [ σ ( Σ j M W i j L ⋅ a j L − 1 + b i L ) − y i ] 2 ∂ ϵ ∂ W x y = [ σ ( Σ j M W x j L ⋅ a j L − 1 + b x L ) − y x ] × σ ′ ( Σ j M W x j L ⋅ a j L − 1 + b x L ) × a y L − 1 s o , ∂ ϵ ∂ W L = { ∂ ϵ ∂ W x y L } x : 1 → N , y : 1 → M T h e n s u r p r i s i n g l y = [ σ ( W L ⋅ a L − 1 + b L ) ⊙ σ ′ ( W L ⋅ a L − 1 + b L ) ] ⋅ ( a L − 1 ) T \begin{aligned} \epsilon &= \frac{1}{2}\Sigma_{i}^{N} [\sigma(\Sigma_{j}^{M}W_{ij}^{L}\cdot a^{L-1}{j}+b{i}^{L})-y_{i}]^{2}\ \frac{\partial\epsilon}{\partial W_{xy}} &= [\sigma(\Sigma_{j}^{M}W_{xj}^{L}\cdot a^{L-1}{j}+b{x}^{L})-y_{x}]\times\sigma'(\Sigma_{j}^{M}W_{xj}^{L}\cdot a^{L-1}{j}+b{x}^{L})\times a_{y}^{L-1}\ so, \frac{\partial\epsilon}{\partial \bf{W^{L}}}&={\frac{\partial\epsilon}{\partial W_{xy}^{L}}}{x:1\rightarrow N,y:1\rightarrow M}\ &Then\ surprisingly\ &=[\sigma(\bf{W^{L}}\cdot a^{L-1}+\bf{b^{L}})\odot\sigma'(\bf{W^{L}}\cdot a^{L-1}+\bf{b^{L}})]\cdot (a^{L-1})^{T} \end{aligned}ϵ∂W x y ∂ϵso ,∂W L ∂ϵ=2 1 Σi N [σ(Σj M W ij L ⋅a j L −1 +b i L )−y i ]2 =[σ(Σj M W x j L ⋅a j L −1 +b x L )−y x ]×σ′(Σj M W x j L ⋅a j L −1 +b x L )×a y L −1 ={∂W x y L ∂ϵ}x :1 →N ,y :1 →M T h e n s u r p r i s in g l y =[σ(W L ⋅a L −1 +b L )⊙σ′(W L ⋅a L −1 +b L )]⋅(a L −1 )T
同样的，损失函数对偏置求导得到：
∂ ϵ ∂ b L = [ σ ( W L ⋅ a L − 1 + b L ) ⊙ σ ′ ( W L ⋅ a L − 1 + b L ) ] \frac{\partial\epsilon}{\partial \bf{b^{L}}}=[\sigma(\bf{W^{L}}\cdot a^{L-1}+\bf{b^{L}})\odot\sigma'(\bf{W^{L}}\cdot a^{L-1}+\bf{b^{L}})]∂b L ∂ϵ=[σ(W L ⋅a L −1 +b L )⊙σ′(W L ⋅a L −1 +b L )]
通常我们用z L = W L ⋅ a L − 1 + b L \bf{z^{L}}=\bf{W^{L}}\cdot a^{L-1}+\bf{b^{L}}z L =W L ⋅a L −1 +b L表示未激活输出，δ L = σ ( z L ) ⊙ σ ′ ( z L ) \bf{\delta^{L}}=\sigma(\bf{z^{L}})\odot\sigma'(\bf{z^{L}})δL =σ(z L )⊙σ′(z L )表示Hadamard乘积结果。那么损失函数对最后一层神经网络参数的梯度就是：
∂ ϵ ∂ W L = δ L ⋅ ( a L − 1 ) T ∂ ϵ ∂ b L = δ L \begin{aligned} \frac{\partial\epsilon}{\partial \bf{W^{L}}}&=\bf{\delta^{L}}\cdot (\bf{a^{L-1}})^{T}\ \frac{\partial\epsilon}{\partial \bf{b^{L}}}&=\bf{\delta^{L}} \end{aligned}∂W L ∂ϵ∂b L ∂ϵ=δL ⋅(a L −1 )T =δL
桥豆麻嘚，好像推出来了什么不得了的东西。如果是对第h h h层的参数求导，那么有：
∂ ϵ ∂ W H = δ H ⋅ ( a H − 1 ) T @ E q . 2 ∂ ϵ ∂ b H = δ H @ E q . 3 w h e r e δ H = ∂ ϵ ∂ Z L ⋅ ∂ Z L ∂ Z L − 1 . . . ∂ Z H + 1 ∂ Z H \begin{aligned} \frac{\partial\epsilon}{\partial \bf{W^{H}}}&=\bf{\delta^{H}}\cdot (\bf{a^{H-1}})^{T}\ \ \ \ \ @Eq.2\ \frac{\partial\epsilon}{\partial \bf{b^{H}}}&=\bf{\delta^{H}}\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ @Eq.3\\ where\ \bf{\delta^{H}}&=\frac{\partial\epsilon}{\partial \bf{Z^{L}}}\cdot\frac{\partial\bf{Z^{L}}}{\partial \bf{Z^{L-1}}}…\frac{\partial\bf{Z^{H+1}}}{\partial \bf{Z^{H}}} \end{aligned}∂W H ∂ϵ∂b H ∂ϵw h ere δH =δH ⋅(a H −1 )T @Eq.2 =δH @Eq.3 =∂Z L ∂ϵ⋅∂Z L −1 ∂Z L …∂Z H ∂Z H +1
clearly，求导的关键在于求解后一层非激活输出对前一层非激活输出的导数，即：
∂ Z L ∂ Z L − 1 = { ∂ Z i L ∂ Z j L − 1 } ∂ Z i L ∂ Z j L − 1 = W i j L ⋅ a j L w h i c h i n d i c a t e s ∂ Z L ∂ Z L − 1 = W L ⋅ d i a g ( a L − 1 ) w h e r e d i a g ( a L − 1 ) = ( a 1 L − 1 0 . . . 0 a 2 L − 1 . . . . . . . . . . . . . . . . . . a N L − 1 L − 1 ) \begin{aligned} \frac{\partial\bf{Z^{L}}}{\partial \bf{Z^{L-1}}}&={\frac{\partial Z^{L}{i}}{\partial Z^{L-1}{j}}}\ \frac{\partial Z^{L}{i}}{\partial Z^{L-1}{j}}&=W^{L}{ij}\cdot a^{L}{j}\ which indicates\ \frac{\partial\bf{Z^{L}}}{\partial \bf{Z^{L-1}}}&=\bf{W^{L}}\cdot diag(\bf{a^{L-1}})\ where\ diag(\bf{a^{L-1}})&=\left(\begin{array}{ccc} a{1}^{L-1} & 0 & …\ 0 & a_{2}^{L-1} & …\ …& … & … \ … & … & a_{N^{L-1}}^{L-1}\ \end{array}\right) \end{aligned}∂Z L −1 ∂Z L ∂Z j L −1 ∂Z i L w hi c hin d i c a t es ∂Z L −1 ∂Z L w h ere d ia g (a L −1 )={∂Z j L −1 ∂Z i L }=W ij L ⋅a j L =W L ⋅diag (a L −1 )=⎝⎛a 1 L −1 0 ……0 a 2 L −1 ……………a N L −1 L −1 ⎠⎞

将上式代入至δ H \delta^{H}δH中，就可以得到：
δ H = ( ∂ Z L ∂ Z L − 1 . . . ∂ Z H + 1 ∂ Z H ) T ⋅ δ L = Π i : L → H T ( W i ⋅ d i a g ( a i − 1 ) ) ⋅ δ L @ E q . 4 \begin{aligned} \delta^{H} &= (\frac{\partial\bf{Z^{L}}}{\partial \bf{Z^{L-1}}}…\frac{\partial\bf{Z^{H+1}}}{\partial \bf{Z^{H}}})^{T}\cdot\delta^{L}\ &= \Pi^{T}{i:L\rightarrow H}(\bf{W^{i}}\cdot diag(\bf{a^{i-1}}))\cdot\delta^{L} \ \ \ \ \ \ \ \ \ \ \ \ @Eq.4 \end{aligned}δH =(∂Z L −1 ∂Z L …∂Z H ∂Z H +1 )T ⋅δL =Πi :L →H T (W i ⋅diag (a i −1 ))⋅δL @Eq.4
to analyze it from the dimension aspect, Eq.4的维度信息是：
[ ( N L ∗ N L − 1 ) × ( N L − 1 ∗ N L − 2 ) × . . . ( N H + 1 ∗ N H ) ] T × ( N L ∗ 1 ) = ( N H ∗ 1 ) [(N^{L}N^{L-1})\times(N^{L-1}N^{L-2})\times…(N^{H+1}N^{H})]^{T}\times(N^{L}1)=(N^{H}*1)[(N L ∗N L −1 )×(N L −1 ∗N L −2 )×…(N H +1 ∗N H )]T ×(N L ∗1 )=(N H ∗1 )
那么就不难得到任意一层的参数梯度表达式：
∂ ϵ ∂ W H = Π i : L → H T ( W i ⋅ d i a g ( a i − 1 ) ) ⋅ δ L ⋅ ( a H − 1 ) T ∂ ϵ ∂ b H = Π i : L → H T ( W i ⋅ d i a g ( a i − 1 ) ) ⋅ δ L \begin{aligned} \frac{\partial\epsilon}{\partial \bf{W^{H}}}&=\Pi^{T}{i:L\rightarrow H}(\bf{W^{i}}\cdot diag(\bf{a^{i-1}}))\cdot\delta^{L}\cdot (\bf{a^{H-1}})^{T}\ \frac{\partial\epsilon}{\partial \bf{b^{H}}}&=\Pi^{T}_{i:L\rightarrow H}(\bf{W^{i}}\cdot diag(\bf{a^{i-1}}))\cdot\delta^{L} \end{aligned}∂W H ∂ϵ∂b H ∂ϵ=Πi :L →H T (W i ⋅diag (a i −1 ))⋅δL ⋅(a H −1 )T =Πi :L →H T (W i ⋅diag (a i −1 ))⋅δL

Original: https://blog.csdn.net/qq_40840924/article/details/124454175
Author: 粉粉Shawn
Title: 一般神经网络(DNN)反向传播过程

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/691755/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

1 使用matplotlib的python数据可视化——简单图表的绘制（线形图、柱形图、饼图、条形图、散点图和子图）

目录一、使用plot()绘制直线图 1. 代码实例：绘制直线图二、使用plot()绘制折线图 1. 代码实例1：绘制折线图 2. 代码实例2：绘制折线+曲线三、使用bar()…

人工智能 2023年7月16日
0067
NeurIPS2022 | SegNeXt，重新思考卷积注意力设计

rTopDiv: null, cor rRightDiv: null, cor rBottomDiv: null, cor rLeftDiv: null, mapPosition:…

人工智能 2023年6月17日
0064
MXNe

问题：MXNe问题的解决详细介绍 MXNe（网络最大熵）是一种基于最大熵原理的网络推断方法。它可以用于解决涉及分类、回归、排序和聚类等问题。最大熵原理是指在给定一些约束条件下，…

人工智能 2023年12月31日
0034
量化交易干货(非原创，转载)

最近程序化交易很热，量化也是我很感兴趣的一块。国内量化交易的平台有几家，我个人比较喜欢用的是JoinQuant，里面有篇干货贴分享给大家，希望对各位有帮助。 ==========…

人工智能 2023年6月4日
0053
【ML】使用未标记数据 – 聚类分析

🔎大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流🔎📝个人主页－Sonhhxg_柒的博客_CSDN博客📃🎁欢迎各位→点赞👍 + 收藏⭐️ +…

人工智能 2023年6月2日
0079
TensorFlow是什么

介绍 TensorFlow是一个开源的机器学习框架，用于构建和训练机器学习模型。它由Google Brain团队开发，广泛用于构建各种深度学习模型，包括卷积神经网络（Convolu…

人工智能 2023年12月30日
0045
R语言数据包自带数据集之survival包的lung数据集字段解释、数据导入实战

R语言数据包自带数据集之survival包的lung数据集字段解释、数据导入实战目录 R语言数据包自带数据集之survival包的lung数据集字段解释、数据导入实战 #数据字段…

人工智能 2023年6月19日
00141
【语音算法】wav2vec系列原理和使用

文章目录前言 1. wav2vec 2. vq-wav2vec 3. wav2vec2.0 * 3.1 encoder 3.2 context 3.3 wav2vec2.0的使用…

人工智能 2023年7月27日
00100
Backtrader量化&回测8——手续费

手续费是交易中必不可少的，尤其当调试策略参数时，结果都差不多，但不同参数导致的换手次数不同，此时手续费的影响就很大了，因此在backtrader中需要在计算时添加手续费 Backt…

人工智能 2023年7月8日
0045
K-Means聚类算法原理

K-Means算法是无监督的聚类算法，它实现起来比较简单，聚类效果也不错，因此应用很广泛。K-Means基于欧式距离认为两个目标距离越近，相似度越大。 1. 牧师-村民模型 2. …

人工智能 2023年5月31日
0055
【MySQL】MySQL复制与高可用水平扩展架构实战（MySQL专栏启动）

📫作者简介：小明java问道之路，专注于研究 Java/ Liunx内核/ C++及汇编/计算机底层原理/源码，就职于大型金融公司后端高级工程师，擅长交易领域的高安全/可用/并发…

人工智能 2023年7月31日
0060
关于Retinex理论的一些理解

目前一直在参与关于Retinex的相关课题，并完成了许多模型的构建，本文以个人的见解介绍Retinex的相关理论1. 基本原理Retinex理论是上世纪八十年代由land等人提出的…

人工智能 2023年5月26日
0052
[时间序列预测]基于BP、LSTM、CNN-LSTM神经网络算法的单特征用电负荷预测[保姆级手把手教学]

系列文章目录深度学习原理—–线性回归+梯度下降法深度学习原理—–逻辑回归算法深度学习原理—–全连接神经网络…

人工智能 2023年7月14日
00138
【随便整点深度学习01】看看神经网络每层提取了什么？

前言？因为毕设是关于深度学习的，于是从年初开始就断断续续的接触了许多相关的知识。不过到现在也没几个月的时间，还是一个萌萌萌萌萌萌萌新~~写点博客记录一下遇到的并且以后可能会忘记的…

人工智能 2023年7月14日
0073
3050显卡驱动安装+配置pytorch的cuda环境

3050显卡驱动安装+配置pytorch的cuda环境前言一、下载3050驱动二、下载CUDA 二、cuDNN下载三、cuDNN配置四、pytorch环境配置 * ①、创…

人工智能 2023年7月21日
0047
利用Tushare获取股票数据（全面详细，照着敲就可以）

一.tushare简介tushare是一个免费,开源的python财经数据接口包.主要实现对股票等金融数据从数据采集、清洗加工到数据存储的过程，能够为金融分析人员提供快速、整洁、和…

人工智能 2023年7月4日
00187

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

一般神经网络(DNN)反向传播过程

多元函数微分

向量对向量求导

DNN损失函数求导

大家都在看