菜菜的深度学习笔记 | 基于Python的理论与实现（九）—＞Affine层的实现

2023年7月14日下午12:19 • 人工智能 • 阅读 49

菜菜的深度学习笔记 | 基于Python的理论与实现（九）—＞Affine层的实现

系列索引：菜菜的深度学习笔记 | 基于Python的理论与实现;

文章目录

*
– （一）Affine层
– （二）Softmax层
– （三）误差反向传播法的实现
–
+ 1.神经网络的全貌
+ 2.手撕两层网络

（一）Affine层

神经网络中矩阵的乘积运算中 对应维度的元素个数要保持一致

神经网络的正向传播中进行的矩阵的乘积运算在几何学领域被称为” 仿射变换“，因此这里将进行仿射变换的处理实现为”Affine层”。

按矩阵的各个元素进行计算时，步骤和以标量为对象的计算图相同。

下图是 批版本的Affine层：

class Affine:
    def __init__(self,W,b):
        self.W = W
        self.b = b
        self.x = None
        self.dW = None
        self.db = None

    def forward(self,x):
        self.x = x
        out = np.dot(x,self.W) + self.b

        return out

    def backward(self,dout):
        dx = np.dot(dout,self.W.T)
        self.dW = np.dot(self.x.T,dout)
        self.db = np.sum(sout,axis=0)
        return dx

（二）Softmax层

Softmax-with-Loss层位于 输出层，softmax函数会将输入值 正规化后在输出。

神经网络中进行的处理有推理和学习两个阶段，神经网络的推理通常不使用Softmax层，神经网络中未被正规化的输出结果被称为”得分”，此时只对得分最大值感兴趣，不过在学习阶段时需要softmax层。

神经网络的反向传播会将softmax层的输出与监督数据的差分表示的误差传递给前面的层，这是神经网络中的重要性质。

神经网络的目的就是 通过调整权重参数，使神经网络的输出接近监督标签。

使用交叉熵误差作为softmax函数的损失函数后，反向传播得到（y1-t1）这种形式的”漂亮”的结果， 使用”平方和误差”作为”恒等函数”的损失函数，反向传播才能得到这样的结果。

class SoftmaxWithLoss:
    def __init__(self):
        self.loss = None
        self.y = None
        self.t = None

    def forward(self,x,t):
        self.t = t
        self.y = softmax(x)
        self.loss = cross_entropy_error(self.y,self.t)
        return self.loss

    def backward(self,dout=1):
        batch_size = self.t.shape[0]
        dx = (self.y - self.t) / batch_size
        return dx

（三）误差反向传播法的实现

1.神经网络的全貌

前提：神经网络有合适的权重和偏置，调整权重和偏置以便拟合训练数据的过程称为学习，分为以下四步骤。

步骤1（mini-batch） 从训练数据中随机选择一部分数据
步骤2（计算梯度） 计算损失函数关于各个权重参数的梯度
步骤3（更新参数） 将权重参数沿梯度方向进行微小的更新
步骤4（重复） 重复步骤1-3

2.手撕两层网络

import sys,os
sys.path.append(os.pardir)
import numpy as np
from common.layers import *
from common.gradient import numerical_gradient
from collections import OrderedDict

class TwoLayerNet:
    def __init__(self,input_size,hidden_size,output_size,weight_init_std = 0.01):
        self.params = {}
        self.params['W1'] = weight_init_std * np.random.randn(input_size,hidden_size)
        self.params['b1'] = np.zeros(hidden_size)
        self.params['W2'] = weight_init_std * np.random.randn(hidden_size,output_size)
        self.params['b2'] = np.zeros(output_size)

        self.layers = OrderedDict()
        self.layers['Affine1'] = Affine(self.params['W1'], self.params['b1'])
        self.layers['Relu1'] = Relu()
        self.layers['Affine2'] = Affine(self.params['W2'], self.params['b2'])
        self.lastLayer = SoftmaxWithLoss()

    def predict(self,x):
        for layer in self.layers.values():
            x = layer.forward(x)
        return x

    def loss(self,x,t):
        y = self.predict(x)
        return self.lastLayer.forward(y, t)

    def accuracy(self, x, t):
        y = self.predict(x)
        y = np.argmax(y,axies = 1)
        if t.ndim != 1:
            t = np.argmax(t, axis = 1)
        accuracy = np.sum(y==t) / float(x,shape[0])
        return accuracy

    def numerical_gradient(self, x, t):
        loss_W = lambda W:self.loss(x,t)
        grads = {}
        grads['W1'] = numerical_gradient(loss_W, self.params['W1'])
        grads['b1'] = numerical_gradient(loss_W, self.params['b1'])
        grads['W2'] = numerical_gradient(loss_W, self.params['W2'])
        grads['b2'] = numerical_gradient(loss_W, self.params['b2'])
        return grads

    def gradient(self, x, t):

        self.loss(x, t)

        dout = 1
        dout = self.lastLayer.backward(dout)

        layers = list(self.layers.values())
        layers.reverse()
        for layer in layers:
            dout = layer.backward(dout)

        grads = {}
        grads['W1'] = self.layers['Affine1'].dW
        grads['b1'] = self.layers['Affine1'].db
        grads['W2'] = self.layers['Affine2'].dW
        grads['b2'] = self.layers['Affine2'].db

        return grads

自己动手敲一遍效果比看十遍还要好！
下面看一段 微分求导法与 反向传播法的比较：

import sys, os
sys.path.append(os.pardir)
import numpy as np
from dataset.mnist import load_mnist
from twolayernet import TwoLayerNet

(x_train, t_train),(x_test, t_test) = load_mnist(normalize=True, one_hot_label= True)
network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)
x_batch = x_train[:3]
t_batch = t_train[:3]

grad_numerical  = network.numerical_gradient(x_batch, t_batch)
grad_backprop = network.gradient(x_batch , t_batch)

for key in grad_numerical.keys():
    diff = np.average(np.abs(grad_backprop[key] - grad_numerical[key]))
    print(key+":"+str(diff))

W1:4.328233887775118e-10
b1:2.8681047496166956e-09
W2:6.111598311388141e-09
b2:1.3957577380263598e-07

可以看出数值微分和误差反向传播法求出的梯度 差非常小。

基于Python的理论与实现系列持续更新，欢迎 点赞收藏＋ 关注

上一篇：菜菜的深度学习笔记 | 基于Python的理论与实现（八）—＞简单层的实现
下一篇：

本人水平有限，文章中不足之处欢迎下方👇评论区批评指正~
如果感觉对你有帮助，点个赞👍 支持一下吧 ~
不定期分享有趣、有料、有营养内容，欢迎订阅关注 🤝 我的博客，期待在这与你相遇 ~

Original: https://blog.csdn.net/Magic_Zsir/article/details/123447941
Author: 猿知
Title: 菜菜的深度学习笔记 | 基于Python的理论与实现（九）—＞Affine层的实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/692043/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pandas数据分析之数据重塑透视(stack、unstack、melt、pivot)

在数据分析的过程中，分析师常常希望通过多个维度多种方式来观察分析数据，重塑和透视是常用的手段。数据的重塑简单说就是对原数据进行变形，为什么需要变形，因为当前数据的展示形式不是我们期…

人工智能 2023年7月17日
00114
L1损失（MAE）、L2损失（MSE）

目录均绝对误差(L1 Loss) 均方误差MSE (L2 Loss) MSE和MAE的选择总结均绝对误差(L1 Loss) 均绝对误差（Mean Absolute Error…

人工智能 2023年6月15日
0066
语音识别基础知识一

1 、人耳组成的三部分：外耳：外耳包含耳翼和外耳道，耳翼具有定向作用，外耳道同其它管道一样也有共振频率，大约是3400Hz。鼓膜位于外耳道内端，声音的振动通过鼓膜传到内耳。中耳…

人工智能 2023年5月25日
0074
【sparkSQL】DataFrame的常用操作

DataFrame的操作 java;gutter:true; scala> import org.apache.spark.sql.SparkSession import o…

人工智能 2023年6月2日
0095
OpenCV-Python实战（5）——OpenCV图像运算

OpenCV-Python实战（5）——OpenCV图像运算 * – 0. 前言 – 1. 饱和运算 – 2. 图像加减法与图像混合 &#821…

人工智能 2023年5月26日
0061
使用Anconda创建Object Detection Api虚拟环境

1.创建Object Detection Api虚拟环境，名称为：object_detection conda create -n object_detection python=…

人工智能 2023年7月12日
0038
MXNe

MXNe问题的介绍 MXNe是一种用于多源环境下异常检测的算法。在实际应用中，我们常常会面临多个不同的数据源，这些数据源往往具有不同的特征和分布。MXNe旨在解决在这种多源环境下进…

人工智能 2023年12月31日
0053
半监督学习算法中如何处理类别不平衡的问题

问题介绍在半监督学习中，我们面临一个类别不平衡的问题。即训练数据中某些类别的样本数量远远少于其他类别的样本数量。这种不平衡可能导致模型在预测时对少数类别的识别能力下降。因此，我们…

人工智能 2024年1月1日
0028
Pytorch基础操作 —— 14. 张量的加法、减法、乘法、除法运算

FunctionDescriptionDetailaddAdds other, scaled by alpha, to input.多个张量相加运算sumReturns the s…

人工智能 2023年7月22日
0070
TensorFlow 2.0 与 1.0 的区别与联系

一、TensorFlow 2.0 vs 1.0 对比举例： 1、TensorFlo 1.x（2015年开源） session.run() 全局化 sessions API混乱总的…

人工智能 2023年5月23日
0043
【需特殊处理】如何使用request.post(Python)直接发送数组类型的方式

关于api：如何使用request.post(Python)发送数组？ “值错误：太多值无法解包” | 码农家园 """ 声明…

人工智能 2023年6月28日
0068
yolov7：win10下的安装配置以及训练自己的数据集（从VOC转换为YOLO）

安装并测试yolov7 一、下载yolov7 GitHub – WongKinYiu/yolov7: Implementation of paper – Y…

人工智能 2023年6月16日
0077
学习使用 OpenCV 中的函数 cv2.kmeans() 对数据进行分类

OpenCV 中的 K 值聚类目标• 学习使用 OpenCV 中的函数 cv2.kmeans() 对数据进行分类理解函数的参数输入参数 samples: 应该是 np.floa…

人工智能 2023年7月1日
0082
集群报错 /lib64/libstdc++.so.6: version `GLIBCXX_3.4.29‘ not found

集群报错：ImportError: /lib64/libstdc++.so.6: version GLIBCXX_3.4.29' not found</p> …

人工智能 2023年6月16日
0072
R语言实例：基于Boston数据集的数据分析报告——用 logistic 回归、LDA（线性判别法）、K 临近法（k=1 和 k=5）构建分类模型。目的是预测一个区域的犯罪率是否高于所有犯罪率的中位数

文章目录问题 Boston 数据集 * 查看数据集数据描述构建分类模型 * 数据可视化 logistic 分类模型 – 构建分类模型的因变量构建三个不同自变量的…

人工智能 2023年7月15日
0091
SECOND点云检测代码详解

1、前言 SECOND也是一片基于Voxel按anchor-based的点云检测方法，网络的整体结构和实现大部分与原先VoxelNet相近，同时在VoxelNet的基础上改进了中间…

人工智能 2023年6月15日
0073

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30