神经网络基础知识

2023年5月31日上午2:26 • 人工智能 • 阅读 61

手上没有什么教材，都是听网课自学，好多东西都是学了忘忘了翻笔记，心里想着不如记一些电子笔记。纸质笔记不会全部搬运，这篇文章随缘记一些有意思的神经网络知识。

1 反向传播

1.1 概念理解

反向传播（ Backpropagation）是什么先不谈，它的作用就是一点：使 Gradient Descent的计算更快速。
首先，梯度下降的计算过程如下：

在计算过程中，类似下面的计算组成了计算的核心部分。
∂ L ( θ ) / ∂ w 1 \partial L(\theta) / \partial w_1 ∂L (θ)/∂w 1
如果不往深的想，可能这就是一个公式。但是这个公式的计算过程，正是反向传播优化的地方。
首先补充一下高数的链式法则：

我们把 L ( θ ) L(\theta)L (θ) 用 C n C^n C n 代替：

这样，公式的计算核心就转移到了下面这个公式上：∂ C / ∂ w \partial C / \partial w ∂C /∂w
根据链式法则：

计算 z对 w的偏导很简单，因为z = x1w1+ x2w2 + b。

但是计算 C对 z的偏导就很麻烦了。因为 C是最后的 output layer与标准答案的 Loss，这一项很难计算。所以还得对这一项进行拆解（使用链式法则）：

拆解完 C对 z的偏导，我们发现永远都是拆完后的第二项偏导很难算。这样我们就得反复拆下去，直到 output layer。
神经网络基础知识

对于输出层，这个第二项就很好算了， y就是 output layer的输出值， C就是选一个 Loss函数将 y和标准答案做运算。这些对于前面的神经元来说计算起来很麻烦，得算到最后一步。
如果我们从前往后求偏导，那每次都得从后往前推一次。既然这样我们不如建一个反向的神经网络，负责去计算每一次的第二项偏导值，且只计算一次。这就是反向传播的精髓所在。
下面两张图是一个神经元的反向，和整个网络的反向：

反向传播能够使梯度的计算更快，就是这样一个原理了。
本小节课件参考：李宏毅2020机器学习

; 1.2 举例

1.2.1 例1（摘自文章推荐2）

上图为网络的前向传播过程及其公式，现在求：∂ C ∂ w 1 \frac{\partial C}{\partial w_1}∂w 1 ∂C
因为 C一般代表 loss，所以会先有：∂ C ∂ w 1 = ∂ C ∂ y 4 ∂ y 4 ∂ w 1 \frac{\partial C}{\partial w_1} = \frac{\partial C}{\partial y_4}\frac{\partial y_4}{\partial w_1}∂w 1 ∂C =∂y 4 ∂C ∂w 1 ∂y 4
剩下的就按照图，从后往前写：
神经网络基础知识

∂ C ∂ w 1 = ∂ C ∂ y 4 ∂ y 4 ∂ z 4 ∂ z 4 ∂ x 4 ∂ x 4 ∂ z 3 ∂ z 3 ∂ x 3 ∂ x 3 ∂ z 2 ∂ z 2 ∂ x 2 ∂ x 2 ∂ z 1 ∂ z 1 ∂ w 1 \frac{\partial C}{\partial w_1} = \frac{\partial C}{\partial y_4}\frac{\partial y_4}{\partial z_4}\frac{\partial z_4}{\partial x_4}\frac{\partial x_4}{\partial z_3}\frac{\partial z_3}{\partial x_3}\frac{\partial x_3}{\partial z_2}\frac{\partial z_2}{\partial x_2}\frac{\partial x_2}{\partial z_1}\frac{\partial z_1}{\partial w_1}∂w 1 ∂C =∂y 4 ∂C ∂z 4 ∂y 4 ∂x 4 ∂z 4 ∂z 3 ∂x 4 ∂x 3 ∂z 3 ∂z 2 ∂x 3 ∂x 2 ∂z 2 ∂z 1 ∂x 2 ∂w 1 ∂z 1
下标更整齐一些的话，可以把y4改成x5。
按照链式法则展开成上面这样，除了 C对y4的偏导（因为这个取决于 output和 label到底用了什么 loss函数），其他每一项就都是可以求解了：
∂ C ∂ w 1 = ∂ C ∂ y 4 σ ′ ( z 4 ) w 4 σ ′ ( z 3 ) w 3 σ ′ ( z 2 ) w 2 σ ′ ( z 1 ) x 1 \frac{\partial C}{\partial w_1} = \frac{\partial C}{\partial y_4} \sigma'(z_4)w_4\sigma'(z_3)w_3\sigma'(z_2)w_2\sigma'(z_1)x_1 ∂w 1 ∂C =∂y 4 ∂C σ′(z 4 )w 4 σ′(z 3 )w 3 σ′(z 2 )w 2 σ′(z 1 )x 1

同理，如果要求：∂ C ∂ b 1 \frac{\partial C}{\partial b_1}∂b 1 ∂C
则：
∂ C ∂ b 1 = ∂ C ∂ y 4 ∂ y 4 ∂ z 4 ∂ z 4 ∂ x 4 ∂ x 4 ∂ z 3 ∂ z 3 ∂ x 3 ∂ x 3 ∂ z 2 ∂ z 2 ∂ x 2 ∂ x 2 ∂ z 1 ∂ z 1 ∂ b 1 \frac{\partial C}{\partial b_1} = \frac{\partial C}{\partial y_4}\frac{\partial y_4}{\partial z_4}\frac{\partial z_4}{\partial x_4}\frac{\partial x_4}{\partial z_3}\frac{\partial z_3}{\partial x_3}\frac{\partial x_3}{\partial z_2}\frac{\partial z_2}{\partial x_2}\frac{\partial x_2}{\partial z_1}\frac{\partial z_1}{\partial b_1}∂b 1 ∂C =∂y 4 ∂C ∂z 4 ∂y 4 ∂x 4 ∂z 4 ∂z 3 ∂x 4 ∂x 3 ∂z 3 ∂z 2 ∂x 3 ∂x 2 ∂z 2 ∂z 1 ∂x 2 ∂b 1 ∂z 1
最终：
∂ C ∂ b 1 = ∂ C ∂ y 4 σ ′ ( z 4 ) w 4 σ ′ ( z 3 ) w 3 σ ′ ( z 2 ) w 2 σ ′ ( z 1 ) \frac{\partial C}{\partial b_1} = \frac{\partial C}{\partial y_4} \sigma'(z_4)w_4\sigma'(z_3)w_3\sigma'(z_2)w_2\sigma'(z_1)∂b 1 ∂C =∂y 4 ∂C σ′(z 4 )w 4 σ′(z 3 )w 3 σ′(z 2 )w 2 σ′(z 1 )

; 1.2.2 例2 BPTT（摘自文章推荐1）

BPTT（back-propagation through time）是 RNN的训练方法，看到 BP就知道本质还是反向传播，只不过 RNN处理的是时间序列的数据，所以要随时间反向传播。
对标准 RNN来说，这是一个前向传播过程。具体的前向传播过程自行查阅链接。

在1.2.1的例子中，前向传播就只是1.2.2例子中的某一列（代表一个时刻）从下往上的过程，损失函数Loss也自然就是一个时刻的反向传播过程。而1.2.2每一个时刻的Loss，需要追溯这一时刻前所有时刻的信息，即：（以L(t)对W求偏导为例）
∂ L ( t ) ∂ W = ∑ k = 1 t . . . \frac{\partial L^{(t)}}{\partial W} = \sum_{k=1}^t …∂W ∂L (t )=k =1 ∑t …

而1.2.2例子的总Loss，即为：
L = ∑ t = 1 n L ( t ) L = \sum_{t=1}^nL^{(t)}L =t =1 ∑n L (t )
举个栗子：
如果要求在第三个时刻 L对 W的偏导，即：
∂ L ( 3 ) ∂ W \frac{\partial L^{(3)}}{\partial W}∂W ∂L (3 )

L(3) 不仅会影响 h(t) 到 h(t+1) 的 W，前面两个 W也会影响，这就是和上一个例子最大的区别。
我们按照上图的①②③可以写出：
∂ L ( 3 ) ∂ W = ∂ L ( 3 ) ∂ o ( 3 ) ∂ o ( 3 ) ∂ h ( 3 ) ∂ h ( 3 ) ∂ W + ∂ L ( 3 ) ∂ o ( 3 ) ∂ o ( 3 ) ∂ h ( 3 ) ∂ h ( 3 ) ∂ h ( 2 ) ∂ h ( 2 ) ∂ W + ∂ L ( 3 ) ∂ o ( 3 ) ∂ o ( 3 ) ∂ h ( 3 ) ∂ h ( 3 ) ∂ h ( 2 ) ∂ h ( 2 ) ∂ h ( 1 ) ∂ h ( 1 ) ∂ W \frac{\partial L^{(3)}}{\partial W} = \frac{\partial L^{(3)}}{\partial o^{(3)}}\frac{\partial o^{(3)}}{\partial h^{(3)}}\frac{\partial h^{(3)}}{\partial W} + \frac{\partial L^{(3)}}{\partial o^{(3)}}\frac{\partial o^{(3)}}{\partial h^{(3)}}\frac{\partial h^{(3)}}{\partial h^{(2)}} \frac{\partial h^{(2)}}{\partial W} + \frac{\partial L^{(3)}}{\partial o^{(3)}}\frac{\partial o^{(3)}}{\partial h^{(3)}}\frac{\partial h^{(3)}}{\partial h^{(2)}}\frac{\partial h^{(2)}}{\partial h^{(1)}} \frac{\partial h^{(1)}}{\partial W}∂W ∂L (3 )=∂o (3 )∂L (3 )∂h (3 )∂o (3 )∂W ∂h (3 )+∂o (3 )∂L (3 )∂h (3 )∂o (3 )∂h (2 )∂h (3 )∂W ∂h (2 )+∂o (3 )∂L (3 )∂h (3 )∂o (3 )∂h (2 )∂h (3 )∂h (1 )∂h (2 )∂W ∂h (1 )
把每一个L(t)（t从1~n）表示出来，最后累加，这个偏导就求出来了。

题外话：
这样的偏导既包含了空间信息，也包含了时间信息，因此后来也被STBP方法借鉴了思路。

2 好文章推荐

1）RNN训练算法-BPTT：RNN
2）梯度消失、梯度爆炸、常用激活函数对比分析：常用的激活函数（Sigmoid、Tanh、ReLU等）

3 LSTM的理解

3.1 三个门的理解

fgate：控制从cell中丢弃哪些信息
igate：确定什么样的新信息要被存放在cell中
ogate：确定输出什么样的值
h：新的候选值
三个门的作用可以理解为 yes or no，h的作用可以理解为 what。

3.2 激活函数的选择

三个σ：sigmoid函数选择更新内容
其他的act：tanh、ReLU、GeLU等，创建新的候选值

3.3 流程

首先，由fgate决定从cell中丢弃哪些信息。
其次，由igate和h决定什么样的新信息要存放在新的cell中。非要分开理解的话，可以这样理解：igate决定什么样的信息我们要更新（yes or no），h决定输入怎样的新信息（what）。
最后，fgate和igate、h对cell更新，从celli-1→celli，由ogate控制要输出哪些信息（或者说信息都给ogate，它决定输不输出）。

3.4 结合表达式理解

; 4 CNN的理解（参考链接2-3））

这一部分是因为写代码时想不通 conv2d的参数，所以想着记录一下。

4.1 例子

下面的例子， param1、2、3分别代表： height, width, channel。一般卷积核（ kernel_size）这个参数只用给出 size（即 height, width），不用给出 channel。为了方便理解，先给出 channel，见 eg1：
eg1
图片样本：[6, 6, 3]
卷积核：[3, 3, 3]
output → [4, 4, 1]
如果没有卷积核的 channel，见 eg2：
eg2
图片样本：[5, 4, 1]
卷积核：[2, 3]
output → [4, 2, 未知]（output channel取决于Conv2d的参数）

比如图片样本是 [5, 4, 1]，现在进行 nn.Conv2d(1, 4, (2, 3))操作，那么输出的图片就是 [4, 2, 4]，前两维的 4和 2是由 样本size和、 kernel size共同决定的，最后一维的 4是自己规定的， output channel是多少，自己定义就好，torch会自动给你匹配你卷积核需要的 channel数。

Original: https://blog.csdn.net/qq_45520647/article/details/123826260
Author: 御用厨师
Title: 神经网络基础知识

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/547947/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习——VGG16模型详解

1、网络结构 VGG16模型很好的适用于分类和定位任务，其名称来自牛津大学几何组（Visual Geometry Group）的缩写。根据卷积核的大小核卷积层数，VGG共有6种配…

人工智能 2023年7月25日
0061
Flask 报错：WARNING: This is a development server. Do not use it in a production deployment.

因为最近尝试部署flask 的项目到服务器，所以遇到特别多的琐碎事。在win 下就没报错，一放到线上就各种报错！估计我是写的代码或逻辑上还不够规范。继续加油！因为部署到服务器，在…

人工智能 2023年7月6日
0054
ModuleNotFoundError: No module named ‘onnxruntime‘和ModuleNotFoundError: No module named ‘onnx‘

D:\programfiles\miniconda\envs\py38torch_gpu\python.exe C:/Users/liqiang/Desktop/handpose_…

人工智能 2023年6月18日
0069
React 函数组件导出自定义方法的办法说明

在进行React开发时，函数组件是比较方便的，由于函数组件没有this指针，因此如果想在父组件里调用函数型子组件的方法，就需要用到React.useImperativeHandle…

人工智能 2023年6月26日
0070
多分类评估指标计算

文章目录混淆矩阵回顾 Precision、Recall、F1回顾多分类混淆矩阵宏平均（Macro-average）微平均（Micro-average）加权平均（Weigh…

人工智能 2023年7月1日
0058
快速上手数据挖掘

一、数据挖掘的应用数据挖掘是一项应用十分广泛的技术，它能够从历史数据中发掘出有用的规律，然后运用规律去做预测。比如在金融机构中通过挖掘历史用户信息和违约之间的规律进行风险预测，防…

人工智能 2023年7月17日
0063
AVI文件结构分析及举例验证

人工智能 2023年5月23日
0089
AssertionError: CUDA unavailable, invalid device 0 requested

1、查看报错 Traceback (most recent call last): File "train.py", line 651, in <modu…

人工智能 2023年7月22日
0032
array矩阵列表与dataframe互相转换

1.array转换为DataFrame import numpy as np import pandas as pd array_demo= np.random.randn(2,4…

人工智能 2023年6月15日
0099
一个BP神经网络的完整matlab代码(含模型公式提取）

目录一、建模的步骤二、建模代码三、模型的提取流程四、模型提取的代码五、一些个性化操作本文介绍在matlab神经网络工具箱(2012b以后)的建模方式和DEMO代码。新的…

人工智能 2023年6月15日
00104
1、PCB常用走线宽度

一、PCB走线一般pcb布线线宽要考虑两个问题。一是电流的大小，如果流过的电流大的话，走线就不能够太细；二是要考虑板厂的实际制板能力如果电流小的话，那走线可以细一点，但是太细的话…

人工智能 2023年5月30日
0083
多层感知机（MLP）、全连接神经网络（FCNN）、前馈神经网络（FNN）、深度神经网络（DNN）与BP算法详解

本篇文章涉及较多的基础知识，并且篇幅较长，是其它的更为复杂的神经网络的基础，需要重点掌握该神经网络的结构特征、网络的训练方法等内容。一：概念辨析兔兔在命名标题时，使用了这么多的…

人工智能 2023年7月5日
0049
如何把一个python列表(有很多个元素)变成一个excel表格的第一列？

点击上方” Python爬虫与数据挖掘“，进行关注回复” 书籍“即可获赠Python从入门到进阶共10本电子书今日鸡汤等…

人工智能 2023年6月19日
0081
使用K-means聚类算法进行数据处理（附代码）

· 什么是聚类？在事先未知数据分类的情况下，通过聚类分析可以将数据聚合成几个不同群体。 #这里聚类不需要对数据进行训练，属于无监督学习的一种。 · K-means聚类属于聚类…

人工智能 2023年7月15日
0069
将若干词向量转变为一个词向量的方法

文章目录 * – 题目 – 前言 – 问题来源 – 思路 – + 利用RNN的最终状态 + * 代码实现 * 运行结果 …

人工智能 2023年5月31日
0059
计算机视觉项目实战-驾驶员疲劳检测

😊😊😊 欢迎来到本博客😊😊😊本次博客内容将继续讲解关于OpenCV的相关知识🎉 作者简介：⭐️⭐️⭐️ 目前计算机研究生在读。主要研究方向是人工智能和群智能算法方向。目前熟悉深度学…

人工智能 2023年7月28日
0065

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30