机器学习之神经网络的公式推导与python代码（手写+pytorch）实现

2023年6月16日上午11:46 • 人工智能 • 阅读 100

文章目录

前言
神经网络公式推导
*
参数定义
前向传播（forward）
反向传播（backward）
–
- 隐藏层和输出层的权重更新
- 输入层和隐藏层的权重更新
代码实现
*
python手写实现
pytorch实现
总结
参考

前言

因为要课上讲这东西，因此总结总结，发个博客

神经网络公式推导

参数定义

                                        &#x6A21;&#x578B;&#x56FE;

假设我们有这么一个神经网络，由输入层、一层隐藏层、输出层构成。
（这里为了方便，不考虑偏置bias）
输入特征为xn
输入层与隐藏层连接的权重为vij
隐藏层的输出（经过激活函数）为ym
隐藏层与输出层连接的权重为wjk
输出层的预测值（经过激活函数）为ol
隐藏层和输出层后面都接sigmoid激活函数。
Simoid激活函数如下：

前向传播（forward）

首先，我们可以试着表示一下y1
如模型图所示可以表示为：

那么我要表示yj呢？

其中j=1时，就是y1的表示，j=m时，就是ym的表示。

同理我们可以得到：

ok表示输出层第k个神经元的预测值，这就是我们需要的输出。
至此，正向传播完毕。

; 反向传播（backward）

光正向传播，我们只能得到模型的预测值，不能更新模型的参数，也就是说，正向传播的时候，模型是不会被更新的。

因为我们得到了模型输出的预测值，并且我们手上有对应的真实值，我们就能够将误差反向传播，更新模型参数。

具体操作怎么操作呢？

首先，我们需要定义误差，即预测值和真实值差了多少，以此来决定模型参数更新的方向和力度。

这里我们采用简单的差的平方的损失函数：

注意，这里只是更新输出层第k个神经元所反馈的误差。

隐藏层和输出层的权重更新

首先根据已知如下：

输出层预测值ok

激活函数Sigmoid

那我们可以试着展开一下Ek

因为我们现在需要更新的是wjk，因此展开到wjk我们就能有一个比较形象的认识了。

根据梯度下降法可得，我们现在只需要求出

即可通过

来更新我们隐藏层和输出层的权重了。
那么如何计算呢？
直接求导可能有点混乱，利用复合函数求导的方法，我们可以根据链式法则将表达式展开如下：

接下来我们分别求出

以及

就可以了。

我们先给出激活函数的导数推导过程：

就是使用复合函数除的求导法则进行求导。我们可以发现sigmoid函数求导之后还是挺好看的。

接下来就是计算两个导数即可。

首先：

一眼就能看出来了吧。

这个可能会有点困难，但是仔细看看，发现还是很简单的。
首先

然后我们知道 [f(g(x))]’ = g(x)’ * f(g(x))’
例如 y = log(x^2)
那么 y’ = (x^2)’ * [log(x^2)]’ = 2*x * 1 / x^2 = 2x / x^2
由于这里f(x)是Sigmoid激活函数
f(x)’ = (1-f(x)) * f(x) （上面已经推到过了）

那么这个结果计算起来就比较简单了。

既然如此，将结果拼起来就是我们要求的结果了：

其中：

全是已知的，不就可以更新参数了嘛

因此，加个学习率这层权重更新推导就大功告成了。

; 输入层和隐藏层的权重更新

如果上面的推导看懂了，下面的推导就非常简单了，无非就是多展开一级，多求一次导数而已。

首先（前面已经推到过了）

那么我们可以将误差再展开一级：

那么下面这个就非常值观了

同样的，我们也分别求出三次的导数，最后拼起来就行了。

至此分别求出来了，拼起来就是我们要的结果了：

通过观察，里面全是已知的变量
那么更新公式也就有了：

至此我们公式推导就完成了。

代码实现

首先需要数据集，这里使用手写数据集。
训练集 http://www.pjreddie.com/media/ﬁles/mnist_train.csv
测试集http://www.pjreddie.com/media/ﬁles/mnist_test.csv

python手写实现

其中比较关键的就是那两个参数的更新公式。

隐藏层和输出层的权重更新：

输入层和隐藏层的权重更新

完整代码如下：

import numpy as np
import scipy.special
import matplotlib.pyplot

class Network:
    def __init__(self, input_size, hidden_size, output_size, learning_rate):
        self.input_size = input_size
        self.hidden_size = hidden_size
        self.output_size= output_size
        self.lr = learning_rate

        self.Vij = np.random.normal(0.0, pow(self.hidden_size, -0.5), (self.hidden_size, self.input_size))

        self.wjk = np.random.normal(0.0, pow(self.output_size, -0.5), (self.output_size, self.hidden_size))

        self.activation_function = lambda x: 1 / (1 + np.exp(-x))

    def train(self, inputs_list, targets_list):

        inputs = np.array(inputs_list, ndmin=2).T

        targets = np.array(targets_list, ndmin=2).T

        hidden_inputs = np.dot(self.Vij, inputs)

        Yj = self.activation_function(hidden_inputs)

        final_inputs = np.dot(self.wjk, Yj)

        Ok = self.activation_function(final_inputs)

        output_errors = targets - Ok

        self.wjk += self.lr * np.dot((output_errors * Ok * (1 - Ok)), np.transpose(Yj))

        hidden_errors = np.dot(self.wjk.T, output_errors * (1 - Ok) * Ok)

        self.Vij += self.lr * np.dot((hidden_errors * Yj * (1 - Yj)), np.transpose(inputs))

        errors = (np.power(output_errors, 2).sum() + np.power(hidden_errors, 2).sum())
        return errors

    def predict(self, inputs_list):
        inputs = np.array(inputs_list, ndmin=2).T

        hidden_inputs = np.dot(self.Vij, inputs)
        Yj = self.activation_function(hidden_inputs)

        final_inputs = np.dot(self.wjk, Yj)
        Ok = self.activation_function(final_inputs)

        return Ok

    def get_acc(self, data):

        sum = len(data)
        true_n = 0
        for d in data:
            all_values = d.split(',')
            inputs = (np.asfarray(all_values[1:])/255.0 * 0.99) + 0.01
            pred = np.argmax(self.predict(inputs))
            if int(pred) == int(all_values[0]):
                true_n += 1
        return true_n / sum

input_size = 784
hidden_size = 128
output_size = 10
learning_rate = 0.001
epoch = 2

model = Network(input_size=input_size, hidden_size=hidden_size, output_size=output_size, learning_rate=learning_rate)

training_data_file = open("mnist_train.csv", "r")
training_data_list = training_data_file.readlines()
training_data_file.close

testing_data_file = open("mnist_test.csv", "r")
testing_data_list = testing_data_file.readlines()
testing_data_file.close

for i in range(epoch):
    errors = []
    for record in training_data_list:
        all_values = record.split(',')

        inputs = (np.asfarray(all_values[1:])/255.0 * 0.99) + 0.01

        targets = np.zeros(output_size) + 0.01
        targets[int(all_values[0])] = 0.99

        train_errors = model.train(inputs, targets)
        errors.append(train_errors)
    print("epoch", i)
    print("训练集平均损失为", np.mean(errors))
train_acc = model.get_acc(training_data_list)
test_acc = model.get_acc(testing_data_list)
print("训练集准确率", train_acc)
print("测试集准确率", test_acc)

输出：

pytorch实现

import pandas as pd
import numpy as np
import torch as th
import torch.nn as nn
import torch.utils.data.dataloader as dataloader
from torch.utils.data import TensorDataset
from tqdm import tqdm
from sklearn.metrics import accuracy_score

def get_dataloader(batch_size, file_name):
    filedata = pd.read_csv(file_name, header=None)
    label = filedata.values[:, 0]
    data = filedata.values[:, 1:]
    data = th.from_numpy(data).to(th.float32)
    label = th.from_numpy(label).to(th.long)
    dataset = TensorDataset(data, label)
    data_loader = dataloader.DataLoader(dataset=dataset, shuffle=True, batch_size=batch_size)
    return data_loader

batch_size = 256
input_size = 784
hidden_size = 128
output_size = 10
learning_rate = 0.001
epoch = 2
test_loader = get_dataloader(batch_size=batch_size, file_name = "mnist_test.csv")
train_loader = get_dataloader(batch_size=batch_size, file_name = "mnist_train.csv")

class network(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super().__init__()
        self.input_size = input_size
        self.hidden_size = hidden_size
        self.output_size = output_size
        self.w1 = nn.Linear(input_size, hidden_size, bias=False)
        self.w2 = nn.Linear(hidden_size, output_size, bias=False)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        i2h = self.w1(x)
        i2h = self.sigmoid(i2h)
        h2o = self.w2(i2h)
        h2o = self.sigmoid(h2o)
        return h2o

def evaluate_model(model, iterator, criterion):
    all_pred = []
    all_y = []
    losses = []
    for i, batch in tqdm(enumerate(iterator)):
        if th.cuda.is_available():
            input = batch[0].cuda()
            label = batch[1].type(th.cuda.LongTensor)
        else:
            input = batch[0]
            label = batch[1]

        y_pred = model(input)
        loss = criterion(y_pred, label)
        losses.append(loss.cpu().detach().numpy())

        predicted = th.max(y_pred.cpu().data, 1)[1]
        all_pred.extend(predicted.numpy())
        all_y.extend(label.cpu().detach().numpy())
    score = accuracy_score(all_y, np.array(all_pred).flatten())
    return score, np.mean(losses)

model = network(input_size=input_size, hidden_size=hidden_size, output_size=output_size)

optimizer = th.optim.Adam(model.parameters(), lr=learning_rate)
loss_func = nn.CrossEntropyLoss()

train_scores = []
test_scores = []
train_losses = []
test_losses = []
for epoch in range(epoch):
    model.train()
    for step, (x, label) in enumerate(train_loader):
        pred = model(x)
        loss = loss_func(pred, label)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
    model.eval()
    train_score, train_loss = evaluate_model(model, train_loader, loss_func)
    test_score, test_loss = evaluate_model(model, test_loader, loss_func)
    train_losses.append(train_loss)
    test_losses.append(test_loss)
    train_scores.append(train_score)
    test_scores.append(test_score)
    print('#' * 20)
    print('train_acc:{:.4f}'.format(train_score))
    print('test_acc:{:.4f}'.format(test_score))

import matplotlib.pyplot as plt

x = [i for i in range(len(train_scores))]
fig = plt.figure()
plt.plot(x, train_scores, color ="r", label="train_score")
plt.plot(x, test_scores, color="g", label="test_score")
plt.legend()
plt.show()

x = [i for i in range(len(train_scores))]
fig = plt.figure()
plt.plot(x, train_losses, color ="r", label="train_loss")
plt.plot(x, test_losses, color="g", label="test_loss")
plt.legend()
plt.show()

输出

总结

感觉从推导到代码实现也是一个反复的过程，从推导发现代码写错了，写不出代码了就要去看看推导的过程，这个过程让我对反向传播有了较全面的理解。

我们发现，手写代码运行时间要一分多钟而pytorch其实只要10s不到，毕竟框架，底层优化很多，用起来肯定用框架。

以及二者准确率有一些差距，可能是因为pytorch里使用了交叉熵损失函数，比较适合分类任务；手写的并没有分batch，而是所有数据直接更新参数，但是pytorch里分了batch，分batch能够使得模型训练速度加快（并行允许），也使得模型参数更新的比较平稳。

代码+数据集+PPT

参考

神经网络反向传播算法及代码实现

Original: https://blog.csdn.net/qq_52785473/article/details/127454390
Author: Icy Hunter
Title: 机器学习之神经网络的公式推导与python代码（手写+pytorch）实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/623838/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Pygame实战】第三版本最终确认——《愤怒的小鸟梦幻爆破》上线回归，爆赞~

前言《愤怒的小鸟》其实活得还不错，尽管我们一直在嘲笑它的IP帝国梦做得太大。但要知道，把休闲益智游戏的生意做到这个份上的，恐怕也就独此一家了。尤其还是这样的一款古早、过时、难…

人工智能 2023年6月17日
00104
机器学习笔记１(西瓜书)：聚类任务、性能度量、距离计算、

聚类：试图将数据集中的样本划分为若干个不相交的子集，每个子集称为一个”簇”。性能度量：聚类性能度量亦称聚类”有效性指标”。通常希望…

人工智能 2023年5月31日
0078
【动手学习pytorch笔记】2.softmax回归

图像分类数据集 %matplotlib inline import torch import torchvision from torch.utils import data fr…

人工智能 2023年6月17日
0061
车位检测算法-Context-Based Parking Slot Detection With a Realistic Dataset

停车位检测算法总结 Context-Based Parking Slot Detection With a Realistic Dataset 摘要这篇文章提出了一种基于上下文的…

人工智能 2023年7月9日
0068
深度学习入门课笔记（三）

目录一、序列数据二、语言模型三、RNN 基本结构 RNN的通过（穿越）时间反向传播四、门控循环单元引入门的循环网络（GRU）五、长短期记忆网络LSTM 一、序列数据序…

人工智能 2023年5月31日
0064
【计算机视觉】新冠肺炎COVID-19 CT影片阳性检测，感染区域分割，肺部分割，智慧医疗实践，医疗影像处理示例

引言新型冠状病毒肺炎（Corona Virus Disease 2019，COVID-19），简称”新冠肺炎”，世界卫生组织命名为”2019冠…

人工智能 2023年6月16日
0067
RML2018.01a数据集的读取与使用

本栏目将简要介绍数据集的组成，并给出数据集的注意事项和处理方法。 [En] This column will briefly introduce the composition o…

人工智能 2023年5月23日
00156
MongoDB数据库的备份恢复

MongoDB数据库的备份恢复文章目录 MongoDB数据库的备份恢复 * 1.mongodb备份还原工具 2.mongoexport备份还原某个库的某张表 – 2….

人工智能 2023年7月31日
0064
视觉SLAM十四讲-第五讲-OpenCV的安装和使用（基于ROS-melodic安装后）

目录一、安装OpenCV 3.2.0 二、测试运行例程代码 * 2.1 配置CMakeLists.txt 2.2 测试例程代码 – 2.2.1 测试代码imageBa…

人工智能 2023年6月19日
0084
电信保温杯笔记——《统计学习方法（第二版）——李航》第3章 k近邻法

电信保温杯笔记——《统计学习方法（第二版）——李航》第3章 k近邻法论文介绍特点模型结构 * 模型三要素 – 距离度量 + 实例 k值的选择分类决策规则 k近…

人工智能 2023年7月3日
00114
RepVGG论文详解以及使用Pytorch进行模型复现

RepVGG: Making VGG-style ConvNets Great Again 是 2021 CVPR的一篇论文，正如他的名字一样，使用 structural re-p…

人工智能 2023年7月22日
0060
YOLOV5的pt模型转Paddle的inference模型

文章目录前言一、环境准备 * 1、yolov5环境及代码准备 2、Paddle环境搭建 2.1 直接安装 2.2 whl安装 3、x2paddle安装 3.1 直接安装 3.2…

人工智能 2023年7月12日
0095
线性回归（基函数回归和正则化）

如果说朴素贝叶斯是解决分类任务的好起点，那么线性回归模型就是解决回归任务的好起点。这些模型之所以大受欢迎，是因为它们的拟合速度非常快，而且很容易解释。你可能对线性回归模型最简单的…

人工智能 2023年6月18日
0076
3D目标检测评估标准

评价指标 bbox：2D检测框的准确率 3d： 3D检测框的准确率 bev： BEV视图下检测框的准确率 aos：检测目标旋转角度的准确率 pointrcnn评估的时候就产生了4…

人工智能 2023年7月9日
0053
超参数调优时，如何选择合适的搜索空间范围

如何选择合适的搜索空间范围在机器学习中，超参数调优是一个关键任务，它可以提高机器学习算法的性能。超参数是机器学习算法中的可调整参数，如学习率、正则化参数、决策树深度等。搜索空间范…

人工智能 2024年1月6日
0060
MATLAB中text函数使用

目录语法说明示例向数据点添加文本说明向多个数据点添加文本显示多行文本指定文本大小和颜色修改现有文本 text函数的功能是向数据点添加文本说明。语法 text(x,…

人工智能 2023年7月4日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31