全连接神经网络详解（Full Connect Neural Network）

2023年6月15日上午6:43 • 人工智能 • 阅读 104

深度学习最基础的网络类型的之一，全连接神经网络（Full Connect Neural Network）是大多数入门深度学习领域的初学者必学的内容，充分体现深度学习方法相比于传统机器学习算法的特点，即大数据驱动、去公式推导、自我迭代更新、黑匣子训练等。

本文介绍单层神经网络、浅层神经网络和深层神经网络，循序渐进地加深对于深度学习基本概念的理解。需要注意的是所有代码基于飞桨PaddlePaddle架构实现。

Logistic回归模型是最简单的单层网络，常被用来处理二分类问题，它使一种用于分析各种影响因素( x 1 , x 2 , … , x n ) (x_1,x_2,…,x_n)(x 1 ,x 2 ,…,x n )与分类结果y y y之间的有监督学习方法。

1.1 正向传播

此计算过程等同于线性回归计算，即给每一个输入向量x分配权值，计算出一个结果向量z。同时，为了使神经网络具有非线性特点，引入激活函数来处理线性变换得到的数值。

线性变换（加权和偏置）：z = w T x + b z=w^Tx+b z =w T x +b
非线性变换（激活函数）：δ ( x ) = 1 1 + e − z \delta (x) = \frac{1}{{1 + {e^{ – z}}}}δ(x )=1 +e −z 1

上式中w w w为权值，b b b为偏置，x x x为输入值，z z z为线性输出值，δ \delta δ为非线性输出值。

1.2 损失函数

模型需要定义损失函数来对参数w w w和b b b进行优化，损失函数的选择需要具体问题具体分析，以下为两种常见损失函数计算公式。

平方损失函数：L ( y ^ , y ) = 1 2 ( y ^ − y ) 2 L(\hat y,y) = \frac{1}{2}{(\hat y – y)^2}L (y ^,y )=2 1 (y ^−y )2
对数似然损失函数：L ( y ^ , y ) = − [ y log ⁡ y ^ + ( 1 − y ) log ⁡ ( 1 − y ^ ) ] L(\hat y,y) = – [y\log \hat y + (1 – y)\log (1 – \hat y)]L (y ^,y )=−[y lo g y ^+(1 −y )lo g (1 −y ^)]

上式中y ^ \hat y y ^为计算结果，y y y为实际结果

1.3 梯度下降

梯度下降是一种前反馈计算方法，反映的是一种”以误差来修正误差”的思想，亦是神经网络进行迭代更新的核心过程。

迭代更新：ω = ω − α d L ( ω ) d ω \omega = \omega – \alpha \frac{{dL(\omega )}}{{d\omega }}ω=ω−αd ωd L (ω)
链式法则：d L ( a , y ) d ω = d L ( a , y ) d a ⋅ d a d z ⋅ d z d ω \frac{{dL(a,y)}}{{d\omega }} = \frac{{dL(a,y)}}{{da}} \cdot \frac{{da}}{{dz}} \cdot \frac{{dz}}{{d\omega }}d ωd L (a ,y )=d a d L (a ,y )⋅d z d a ⋅d ωd z

浅层神经网络相比单层网络的差别在于隐藏层有多个神经节点，这就使得其可以处理”多输入多输出”的复杂问题。每一层的每一个节点都与上下层节点全部连接，这种神经网络称作全连接网络。

2.1 正向传播

z [ 1 ] = ( z 1 [ 1 ] z 2 [ 1 ] z 3 [ 1 ] ) = ( w 1 ( 1 ] T ⋅ x + b 1 ( 1 ) w 2 [ 1 ] T ⋅ x + b 2 [ 1 ] w 3 [ 1 ] T ⋅ x + b 3 [ 1 ] ) = ( w 1 [ 1 ] T ⋅ x w 2 [ 1 ] T ⋅ x w 3 ( 1 ] T ⋅ x ) + b [ 1 ] = W [ 1 ] x + b [ 1 ] a [ 1 ] = ( a 1 [ 1 ] a 2 [ 1 ] a 3 [ 1 ] ) = ( t ( z 1 ( 1 ] ) t ( z 2 ( 1 ] ) t ( z 3 [ 1 ] ) ) = t ( z 1 [ 1 ] z 2 [ 1 ] z 3 [ 1 ] ) = t ( z [ 1 ] ) \begin{array}{c} z^{[1]}=\left(\begin{array}{c} z_{1}^{[1]} \ z_{2}^{[1]} \ z_{3}^{[1]} \end{array}\right)=\left(\begin{array}{l} w_{1}^{(1] T} \cdot x+b_{1}^{(1)} \ w_{2}^{[1] T} \cdot x+b_{2}^{[1]} \ w_{3}^{[1] T} \cdot x+b_{3}^{[1]} \end{array}\right)=\left(\begin{array}{l} w_{1}^{[1] T} \cdot x \ w_{2}^{[1] T} \cdot x \ w_{3}^{(1] T} \cdot x \end{array}\right)+b^{[1]}=W^{[1]} x+b^{[1]} \ a^{[1]}=\left(\begin{array}{l} a_{1}^{[1]} \ a_{2}^{[1]} \ a_{3}^{[1]} \end{array}\right)=\left(\begin{array}{c} t\left(z_{1}^{(1]}\right) \ t\left(z_{2}^{(1]}\right) \ t\left(z_{3}^{[1]}\right) \end{array}\right)=t\left(\begin{array}{c} z_{1}^{[1]} \ z_{2}^{[1]} \ z_{3}^{[1]} \end{array}\right)=t\left(z^{[1]}\right) \end{array}z [1 ]=⎝⎜⎛z 1 [1 ]z 2 [1 ]z 3 [1 ]⎠⎟⎞=⎝⎜⎛w 1 (1 ]T ⋅x +b 1 (1 )w 2 [1 ]T ⋅x +b 2 [1 ]w 3 [1 ]T ⋅x +b 3 [1 ]⎠⎟⎞=⎝⎜⎛w 1 [1 ]T ⋅x w 2 [1 ]T ⋅x w 3 (1 ]T ⋅x ⎠⎟⎞+b [1 ]=W [1 ]x +b [1 ]a [1 ]=⎝⎜⎛a 1 [1 ]a 2 [1 ]a 3 [1 ]⎠⎟⎞=⎝⎜⎜⎜⎛t (z 1 (1 ])t (z 2 (1 ])t (z 3 [1 ])⎠⎟⎟⎟⎞=t ⎝⎜⎛z 1 [1 ]z 2 [1 ]z 3 [1 ]⎠⎟⎞=t (z [1 ])

上角标中括号用于区分不同层
下角标数字表示神经元节点的映射关系
一个神经元节点包含上一层节点数ω x ω_x ωx 和b x b_x b x 和下一层节点数z y z_y z y

2.2 反向传播

梯度下降法
W = W − α ∂ L ∂ W b = b − α ∂ L ∂ b \begin{aligned} \boldsymbol{W} &=\boldsymbol{W}-\alpha \frac{\partial L}{\partial \boldsymbol{W}} \ b &=b-\alpha \frac{\partial L}{\partial b} \end{aligned}W b =W −α∂W ∂L =b −α∂b ∂L
向量表达式
W [ 1 ] = ( w 1 [ 1 ] , w 2 [ 1 ] , w 3 [ 1 ] ) T = [ w 1 [ 1 ] T w 2 [ 1 ] T w 3 [ 1 ] T ] = [ w 11 [ 1 ] , w 12 [ 1 ] w 21 [ 1 ] , w 22 [ 1 ] w 31 [ 1 ] , w 32 [ 1 ] ] b [ 1 ] = [ b 1 [ 1 ] b 2 [ 1 ] b 3 [ 1 ] ] \boldsymbol{W}^{[1]}=\left(\boldsymbol{w}{1}^{[1]}, \boldsymbol{w}{2}^{[1]}, \boldsymbol{w}{3}^{[1]}\right)^{\mathrm{T}}=\left[\begin{array}{l} \boldsymbol{w}{1}^{[1]^{\mathrm{T}}} \ \boldsymbol{w}{2}^{[1] \mathrm{T}} \ \boldsymbol{w}{3}^{[1] \mathrm{~T}} \end{array}\right]=\left[\begin{array}{c} w_{11}^{[1]}, w_{12}^{[1]} \ w_{21}^{[1]}, w_{22}^{[1]} \ w_{31}^{[1]}, w_{32}^{[1]} \end{array}\right] \quad b^{[1]}=\left[\begin{array}{l} b_{1}^{[1]} \ b_{2}^{[1]} \ b_{3}^{[1]} \end{array}\right]W [1 ]=(w 1 [1 ],w 2 [1 ],w 3 [1 ])T =⎣⎢⎡w 1 [1 ]T w 2 [1 ]T w 3 [1 ]T ⎦⎥⎤=⎣⎢⎡w 1 1 [1 ],w 1 2 [1 ]w 2 1 [1 ],w 2 2 [1 ]w 3 1 [1 ],w 3 2 [1 ]⎦⎥⎤b [1 ]=⎣⎢⎡b 1 [1 ]b 2 [1 ]b 3 [1 ]⎦⎥⎤

随着网络的层数增加，每一层对于前一层次的抽象表示更深入。在神经网络中，每一层神经元学习到的是前一层神经元值的更抽象的表示。例如第一个隐藏层学习到的是”边缘”的特征，第二个隐藏层学习到的是由’边缘”组成的”形状”的特征，第三个隐藏层学习到的是由”形状”组成的”图案”的特征，最后的隐藏层学习到的是由”图案”组成的”目标”的特征。通过抽取更抽象的特征来对事物进行区分，从而获得更好的区分与分类能力。

3.1 ImageNet发展史

针对ImageNet数据集的图像分类任务，人们提出了许多重要的网络模型，生动形象地向我们展示了深层网络的巨大优势，回顾整个发展史能够发现，深度学习的网络层数从8层到152层逐步增加，网络分类的能力也越来越强。

年份算法错误率主要贡献1994LeNet5-卷积、池化和全连接，标志CNN的诞生2012Alex15.3%ReLU、Dropout、归一化2014GoogLeNet6.66%没有最深只有更深、Inception模块2015ResNet3.57%152层，深度残差网络2016、2017Soushen、Momenta2.99%、2.251%SE模块嵌入残差网络

3.2 网络参数

参数：指算法运行迭代、修正最终稳定的值。权重W和偏置b。
超参：开发者人为设定的值。学习率、迭代次数、隐藏层层数、单元节点数、激活函数等

全连接神经网络可以用来解决回归任务、预测任务和分类任务，在不考虑计算机性能的条件下，无脑设置更深层次的网络模型往往可以取得更好的效果。本质上它是一种线性神经网络，无法避免地要面临处理非线性数据集精度差的问题。优化主要集中在以下几个方面。

非线性因素：围绕激活函数展开来说，提高计算速率就要使激活函数去积分化、去微分化、易求偏导，解决梯度消失和梯度爆炸的问题。
迭代更新策略：围绕反向传播更新权值和偏置，如损失函数选择、优化器选择、学习率衰减策略等等，在一定程度上可以提高精度。这类问题本质上仍是一种寻优算法的探索，可以引入遗传算法、差分进化、多目标优化等寻找pareto最优解，
骨干网络：网络应该设置多少层，每一层应该有多少个节点，从来没有一套标准的设计模板，毫无方向的在不断测试中摸索前进。

Original: https://blog.csdn.net/weixin_40928633/article/details/120088667
Author: CPones
Title: 全连接神经网络详解（Full Connect Neural Network）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/613992/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

c++ opencv 图像处理：灰度变换（灰度反转，对数变换，冥律（伽马）变换）

文章目录前言一、灰度变换 * 1.灰度反转 2.对数变换 3.冥律（伽马）变换二、opencv函数笔记 * 1.cvtColor函数 2.normalize函数 3.conv…

人工智能 2023年7月20日
0072
难受啊，139天备战字节跳动，一个疏忽让我前功尽弃…

面试是走的内推途径，因为内推的简历通过率远高于其他方式;我的内推的途径有：联系我在字节跳动工作的一个大学学长。在线面试，有个线上文本编辑器，类似leetcode那种，可以在线编程…

人工智能 2023年7月29日
0047
R语言为dataframe添加新的数据列（add new columns）：使用R原生方法、data.table、dplyr等方案

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月28日
0054
【机器学习】用特征量重要度(feature importance)解释模型靠谱么？怎么才能算出更靠谱的重要度？

【机器学习】用特征量重要度(feature importance)解释模型靠谱么？怎么才能算出更靠谱的重要度？我们用机器学习解决商业问题的时候，不仅需要训练一个高精度高泛化性的模…

人工智能 2023年6月15日
00103
语音识别入门第六节：基于DNN-HMM的语音识别系统

DNN-HMM语音识别系统将GMM-HMM过度到DNN-HMM时，只需简单的将GMM替换为DNN即可。但是在GMM-HMM可以进行冷启动，即先给一个初始的对齐，在初始的对齐上，使…

人工智能 2023年5月25日
0078
关于安装pytorch的简单步骤及一些问题解决

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月20日
0053
Transformer代码详解(Pytorch版)

前言基于上一篇经典网络架构学习-Transformer的学习，今天我们来使用pytorch 搭建自己的transformer模型，加深对transformer的理解，不仅在NLP…

人工智能 2023年7月24日
0086
视频号助手后台数据不一致问题排查

视频号助手自动化团队测试问题发现正文总结问题发现本部门视频号自动化团队在给某10w+视频号做自动回复工具的过程中发现，官方后台提供的数据与实际数据不符，且常常有较大的偏离…

人工智能 2023年6月28日
00261
基于聚类的图像分割-Python

点击上方” 小白学视觉“，选择加” 星标“或” 置顶“ 重磅干货，第一时间送达了解图像分割当我们在做一个…

人工智能 2023年5月31日
0088
目标检测YOLO系列总结

目标检测目标检测一、YOLO系列 * YOLOv1: YOLOV2 – + Darknet-19 Batch Normalization Anchor Dimens…

人工智能 2023年7月9日
0079
HMM（隐马尔可夫）中文分词

一、隐马尔可夫模型隐马尔可夫模型（Hidden Markov Model，HMM）是用来描述一个含有隐含未知参数的马尔可夫过程。 1、举例理解假设我手里有三个不同的骰子。第一个…

人工智能 2023年5月27日
0076
Python实验–手写KNN+PCA实现药品聚类和手写字识别

KNN 算法原理：从D中随机取k个元素，作为k个簇的各自的中心；分别计算剩下的元素到k个簇中心的相异度，将这些元素分别划归到相异度最低的簇；根据聚类结果，重新计算k个簇各自的…

人工智能 2023年5月31日
0085
结构型设计模式（下）

装饰模式： 1、定义：动态地给一个对象增加一些额外的职责，就增加对象功能来说，装饰模式比生成子类实现更为灵活 2、模型结构： (1)抽象构件(Component)：定义一个抽象接…

人工智能 2023年6月6日
0053
3D视觉——1.人体姿态估计(Pose Estimation)入门——使用MediaPipe含单帧(Signel Frame)与实时视频(Real-Time Video)

使用MediaPipe工具包进行开发什么是MediaPipe? MediaPipe是一款由Google Research 开发并开源的多媒体机器学习模型应用框架，用于处理视频、音…

人工智能 2023年6月16日
0079
时间序列分析–移动平均法预测模型

时间序列是按时间顺序排列的、随时间变化且相互关联的数据序列。分析时间序列的方法构成数据分析的一个重要领域，即时间序列分析。如果在预测时间范围以内，无突然变动且随机变动的方差较小…

人工智能 2023年7月15日
00113
【李宏毅机器学习CP1-3】(task1)机器学习简介&分类|回归

文章目录 1.机器学习的过程 2.机器学习相关分类 3.选择合适的model，loss function 4.CP3 * 一、回归定义和应用例子 – 回归定义应用举例…

人工智能 2023年6月17日
0089

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31