pytorch手写数字识别【源码实现-小清新版】

2023年7月13日上午11:13 • 人工智能 • 阅读 78

; 引言

手写数字识别，也就是让机器能够习得图片中的手写数字，并能正确归类。

本文使用 pytorch 搭建一个简单的神经网络，实现手写数字的识别，
从本文，你可了解到：
1、搭建神经网络的流程
2、完成手写数字识别模型
3、pytorch基本库

1.准备数据

''' 1. &#x5BFC;&#x4EBA;&#x5FC5;&#x8981;&#x7684;&#x6A21;&#x5757; '''
import numpy as np
import torch
&#x5BFC;&#x5165; pytorch &#x5185;&#x7F6E;&#x7684; mnist &#x6570;&#x636E;
from torchvision.datasets import mnist
#&#x5BFC;&#x5165;&#x9884;&#x5904;&#x7406;&#x6A21;&#x5757;
import torchvision.transforms as transforms
from torch.utils.data import DataLoader
#&#x5BFC;&#x5165;nn&#x53CA;&#x4F18;&#x5316;&#x5668;
import torch.nn.functional as F
import torch.optim as optim
from torch import nn

其中，torch.nn 是 pytorch 中重要的神经网络高级封装，其封装了：常见的网络层，如：卷积，以及优化器等。

我们这里使用 mnist 数据集，其里面就包括了手写数字识别的数据集。
transforms 和 DataLoader 主要用来做数据的下载和预处理。
torch.optim 是我们使用的优化器

下面我们定义一些超参数：

''' 2. &#x5B9A;&#x4E49;&#x4E00;&#x4E9B;&#x8D85;&#x53C2;&#x6570; '''
train_batch_size = 64     # &#x8BAD;&#x7EC3;&#x6279;&#x6B21;
test_batch_size = 128    # &#x6D4B;&#x8BD5;&#x6279;&#x6B21;
learning_rate = 0.01       # &#x5B66;&#x4E60;&#x7387;
num_epoches = 20
lr = 0.01
momentum = 0.5

接下来，下载 mnist 数据集，并封装到 DataLoader 中：

''' 3. &#x4E0B;&#x8F7D;&#x6570;&#x636E;&#x5E76;&#x5BF9;&#x6570;&#x636E;&#x8FDB;&#x884C;&#x9884;&#x5904;&#x7406; '''
#&#x5B9A;&#x4E49;&#x9884;&#x5904;&#x7406;&#x51FD;&#x6570;&#xFF0C;&#x8FD9;&#x4E9B;&#x9884;&#x5904;&#x7406;&#x4F9D;&#x6B21;&#x653E;&#x5728;Compose&#x51FD;&#x6570;&#x4E2D;&#x3002;
transform = transforms.Compose([transforms.ToTensor(),transforms.Normalize([0.5], [0.5])])
#&#x4E0B;&#x8F7D;&#x6570;&#x636E;&#xFF0C;&#x5E76;&#x5BF9;&#x6570;&#x636E;&#x8FDB;&#x884C;&#x9884;&#x5904;&#x7406;
train_dataset = mnist.MNIST('/Users/zhouzhan/Documents/to_github/NLPLearn/Deep-Learning/data', train=True, transform=transform, download=True)
test_dataset = mnist.MNIST('/Users/zhouzhan/Documents/to_github/NLPLearn/Deep-Learning/data', train=False, transform=transform)
#dataloader&#x662F;&#x4E00;&#x4E2A;&#x53EF;&#x8FED;&#x4EE3;&#x5BF9;&#x8C61;&#xFF0C;&#x53EF;&#x4EE5;&#x4F7F;&#x7528;&#x8FED;&#x4EE3;&#x5668;&#x4E00;&#x6837;&#x4F7F;&#x7528;&#x3002;
train_loader = DataLoader(train_dataset, batch_size=train_batch_size, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=test_batch_size, shuffle=False)

2.可视化数据源

下载成功后，我们看一下数据集长什么样：

import matplotlib.pyplot as plt
%matplotlib inline

examples = enumerate(test_loader)
batch_idx, (example_data, example_targets) = next(examples)

fig = plt.figure()
for i in range(6):
  plt.subplot(2,3,i+1)
  plt.tight_layout()
  plt.imshow(example_data[i][0], cmap='gray', interpolation='none')
  plt.title("Ground Truth: {}".format(example_targets[i]))
  plt.xticks([])
  plt.yticks([])

运行结果：

3.构建模型

构建模型，即：构建神经网络模型
其搭建神经网络所需组件：

层：神经网络的层级
模型：层构成的网络
损失函数：学习过程中的目标函数，即：损失函数最小化
优化器：如何使损失函数最小化的方法

首先，是构建网络模型，模型是由层构成的网络，我们的模型有2个隐藏层，且每层都含有一个激活函数 ReLU，最后使用 torch.max(out,1) 找出张量 out 最大值对应索引作为预测值：

代码如下：

''' 1. &#x6784;&#x5EFA;&#x7F51;&#x7EDC; '''
class Net(nn.Module):
"""
    &#x4F7F;&#x7528;sequential&#x6784;&#x5EFA;&#x7F51;&#x7EDC;&#xFF0C;Sequential()&#x51FD;&#x6570;&#x7684;&#x529F;&#x80FD;&#x662F;&#x5C06;&#x7F51;&#x7EDC;&#x7684;&#x5C42;&#x7EC4;&#x5408;&#x5230;&#x4E00;&#x8D77;
"""
    def __init__(self, in_dim, n_hidden_1, n_hidden_2, out_dim):
        super(Net, self).__init__()
        # &#x7B2C;&#x4E00;&#x5C42;&#x7F51;&#x7EDC;
        self.layer1 = nn.Sequential(nn.Linear(in_dim, n_hidden_1),nn.BatchNorm1d(n_hidden_1))
        # &#x7B2C;&#x4E8C;&#x5C42;&#x7F51;&#x7EDC;
        self.layer2 = nn.Sequential(nn.Linear(n_hidden_1, n_hidden_2),nn.BatchNorm1d(n_hidden_2))
        # &#x8F93;&#x51FA;&#x5C42;
        self.layer3 = nn.Sequential(nn.Linear(n_hidden_2, out_dim))

    def forward(self, x):
        x = F.relu(self.layer1(x))
        x = F.relu(self.layer2(x))
        x = self.layer3(x)
        return x

我们定义了一个 class Net，它继承 nn.Module 类（它是所有网络的基类）
nn.Module 类里面定义了很多模型，如：卷积层、全连接层、池化层等，一般定义网络都需基层该类。
其中， init 方法，用于定义网络；forward 方法，实现前向传播。

forward函数：任务是把输入层、网络层、输出层链接起来，实现信息的前向传导。

nn.Sequential：一个有序的容器，它可将神经网络模块依次添加到计算图中执行。

实例化网络：

''' 2. &#x5B9E;&#x4F8B;&#x5316;&#x7F51;&#x7EDC; '''
#&#x68C0;&#x6D4B;&#x662F;&#x5426;&#x6709;&#x53EF;&#x7528;&#x7684;GPU&#xFF0C;&#x6709;&#x5219;&#x4F7F;&#x7528;&#xFF0C;&#x5426;&#x5219;&#x4F7F;&#x7528;CPU
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
#&#x5B9E;&#x4F8B;&#x5316;&#x7F51;&#x7EDC;
model = Net(28 * 28, 300, 100, 10)
model.to(device)

最后，我们定义损失函数和优化器，则网络构造完毕：

&#x5B9A;&#x4E49;&#x635F;&#x5931;&#x51FD;&#x6570;&#x548C;&#x4F18;&#x5316;&#x5668;
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=lr, momentum=momentum

criterion：交叉熵损失
optimizer：SGD优化器（随机梯度下降算法）

4.训练模型

训练模型的代码有点长，
根据之前设置的 num_epoches 进行多次训练和预测，
其目的是通过训练，学习到适合的参数，动态修改学习率

其步骤如下：

动态修改学习率；
model.train()，将模型设置为训练模式；
前向传播；
反向传播；
计算训练误差；
model.eval()，将模型设置为预测模式；
预测模型；
计算预测误差。

根据以上步骤，其代码实现如下：

''' 1. &#x8BAD;&#x7EC3;&#x6A21;&#x578B; '''
&#x5F00;&#x59CB;&#x8BAD;&#x7EC3;
losses = []
acces = []
eval_losses = []
eval_acces = []

for epoch in range(num_epoches):
   train_loss = 0
   train_acc = 0
   model.train()
   #&#x52A8;&#x6001;&#x4FEE;&#x6539;&#x53C2;&#x6570;&#x5B66;&#x4E60;&#x7387;
   if epoch%5==0:
       optimizer.param_groups[0]['lr']*=0.1
   for img, label in train_loader:
       img=img.to(device)
       label = label.to(device)
       img = img.view(img.size(0), -1)
       # &#x524D;&#x5411;&#x4F20;&#x64AD;
       out = model(img)
       loss = criterion(out, label)
       # &#x53CD;&#x5411;&#x4F20;&#x64AD;
       optimizer.zero_grad()
       loss.backward()
       optimizer.step()
       # &#x8BB0;&#x5F55;&#x8BEF;&#x5DEE;
       train_loss += loss.item()
       # &#x8BA1;&#x7B97;&#x5206;&#x7C7B;&#x7684;&#x51C6;&#x786E;&#x7387;
       _, pred = out.max(1)
       num_correct = (pred == label).sum().item()
       acc = num_correct / img.shape[0]
       train_acc += acc

   losses.append(train_loss / len(train_loader))
   acces.append(train_acc / len(train_loader))
   # &#x5728;&#x6D4B;&#x8BD5;&#x96C6;&#x4E0A;&#x68C0;&#x9A8C;&#x6548;&#x679C;
   eval_loss = 0
   eval_acc = 0
   # &#x5C06;&#x6A21;&#x578B;&#x6539;&#x4E3A;&#x9884;&#x6D4B;&#x6A21;&#x5F0F;
   model.eval()
   for img, label in test_loader:
       img=img.to(device)
       label = label.to(device)
       img = img.view(img.size(0), -1)
       out = model(img)
       loss = criterion(out, label)
       # &#x8BB0;&#x5F55;&#x8BEF;&#x5DEE;
       eval_loss += loss.item()
       # &#x8BB0;&#x5F55;&#x51C6;&#x786E;&#x7387;
       _, pred = out.max(1)
       num_correct = (pred == label).sum().item()
       acc = num_correct / img.shape[0]
       eval_acc += acc

   eval_losses.append(eval_loss / len(test_loader))
   eval_acces.append(eval_acc / len(test_loader))
   print('epoch: {}, Train Loss: {:.4f}, Train Acc: {:.4f}, Test Loss: {:.4f}, Test Acc: {:.4f}'
         .format(epoch, train_loss / len(train_loader), train_acc / len(train_loader),
                    eval_loss / len(test_loader), eval_acc / len(test_loader)))

下面进行关键代码解释：
前向传播，就是将图片输入到模型中，得出结果，并计算出损失值

&#x524D;&#x5411;&#x4F20;&#x64AD;
out = model(img)
loss = criterion(out, label)

反向传播，
zero_grad()：将梯度清零，因为缺省情况下梯度是累加的，所以需要手动清零；
backward()：自动生成梯度；
step()：执行优化器，把梯度传播回每个网络。

&#x53CD;&#x5411;&#x4F20;&#x64AD;
optimizer.zero_grad()
loss.backward()
optimizer.step()

最后的结果：

我们看看损失函数：

''' 2. &#x53EF;&#x89C6;&#x5316;&#x8BAD;&#x7EC3;&#x53CA;&#x6D4B;&#x8BD5;&#x635F;&#x5931;&#x503C; '''
plt.title('train loss')
plt.plot(np.arange(len(losses)), losses)
plt.legend(['Train Loss'], loc='upper right')

5.总结

从这个例子中，我们学到了：

mnist 数据集是一个不错的入门学习数据集；
数据集的下载与预处理，可使用：transforms 和 DataLoader 来完成；
使用 matplotlib.pyplot 来做可视化操作；
通过继承 nn.Module 来构建神经网络模型；
训练模型，最后得出结果

最后，你可以根据本文，自己手写代码完成，学习效果更佳哦～

Original: https://blog.csdn.net/zane402075316/article/details/121998805
Author: 细卷子
Title: pytorch手写数字识别【源码实现-小清新版】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/689691/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数据分析Power BI案例：产品与客户销售数据分析

文章目录一、产品与客户销售数据分析 * 1. 新建项目及数据源准备二、数据预处理 * 1. 产品表预处理 2. 员工表预处理 3. 销售表预处理 4. 计算实际业绩 &#821…

人工智能 2023年7月15日
0077
windows和linux平台C++工程如何连接第三方依赖库

C++工程如何连接第三方依赖库本文以opencv为例说明分别在windows平台用VS2019以及linux平台下使用CMake如何连接项目的第三方依赖库 VS2019设置第三…

人工智能 2023年7月20日
0088
RAVDESS语音情感分类数据集的介绍

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月25日
0079
[毕业设计] 基于大数据B站数据分析项目 – 情感分析

文章目录 0 数据分析目标 1 B站整体视频数据分析 * 1.1 数据预处理 1.2 数据可视化 1.3 分析结果 2 单一视频分析 * 2.1 数据预处理 2.2 数据清洗 2….

人工智能 2023年7月15日
0062
回归模型—一次函数与高次函数

有一组数据，通过这组数据来建立回归方程： import matplotlib.pyplot as plt import pandas as pd import numpy as n…

人工智能 2023年6月18日
0081
CUDA 11.7最新特性

CUDA 11.7最新特性周三，与R515 NVIDIA Linux驱动测试版和NVIDIA GPU内核驱动开源版一起发布的是CUDA 11.7。NVIDIA CUDA 11.7…

人工智能 2023年5月28日
00115
回归模型–由浅入深

5.1 回归思想的起源 “回归”是由英国著名生物学家兼统计学家高尔顿(Francis Galton,1822～1911.生物学家达尔文的表弟)在研究人类遗传…

人工智能 2023年7月2日
0091
VGA带音频转HDMI转换芯片|VGA转HDMI 转换器方案|VGA转HDMI1.4转换器芯片介绍

1.1ZY5621概述 ZY5621是VGA音频到HDMI转换器芯片，它符合HDMI1.4 DV1.0规范。ZY5621也是一款先进的高速转换器，集成了MCU和VGA EDID芯片…

人工智能 2023年5月27日
00232
Python 机器学习实战 —— 无监督学习（下）

前言在上篇《 Python 机器学习实战 —— 无监督学习（上）》介绍了数据集变换中最常见的 PCA 主成分分析、NMF 非负矩阵分解等无监督模型，举例说明使用使用非监督模型对多…

人工智能 2023年6月2日
0068
暗猝灭剂BHQ-2 氨基，BHQ-2 amine，CAS：1241962-11-7

产品描述 1、名称英文：BHQ-2 amine 中文：BHQ-2 氨基 2、CAS编号：1241962-11-7 3、所属分类：Other dyes 4、分子量：477.53 5…

人工智能 2023年6月27日
0086
ChatGPT最近大火？教你实现破产版ChatGPT(一)数据预处理

目录一.前言二.下载数据文件三.导包并设置使用GPU 四.加载和预处理数据五.为模型准备数据一.前言最近ChatGPT大火，成功破圈，到底是个啥？简单说，它是一个模型，…

人工智能 2023年7月31日
0072
联邦学习综述（一）——联邦学习的背景、定义及价值

原文地址：https://zhanghan.xyz/posts/54575/ 文章目录第一章：联邦学习背景 * 1.1 现状 1.2 挑战 1.3 联邦学习解决方案 1.4 联邦…

人工智能 2023年7月27日
0072
【PyTorch深度学习项目实战100例】—— 使用文心大模型ERNIE-ViLG生成图片 | 第1例

大家好，我是阿光。本专栏整理了《PyTorch深度学习项目实战100例》，内包含了各种不同的深度学习项目，包含项目原理以及源码，每一个项目实例都附带有完整的代码+数据集。正在更…

人工智能 2023年7月21日
0052
stata行logistic回归交互项（交互作用）的可视化分析(1)

交互作用效应(p for Interaction)在SCI文章中可以算是一个必杀技，几乎在高分的SCI中必出现，因为把人群分为亚组后再进行统计可以增强文章结果的可靠性，不仅如此，交…

人工智能 2023年6月19日
0094
OpenCV人脸识别，训练模型为cv2.face.LBPHFaceRecognizer_create()

OpenCV内部自带有三种人脸检测方式：LBPH人脸识和其他两种方法（Eigen人脸识别，FisherFace人脸识别）本次主要说明第一种方式LBPH检测。 1.素材创建图（1….

人工智能 2023年6月23日
0090
ValueError: all the input arrays must have same number of dimensions, but the array at index 0 has 1

ValueError: all the input arrays must have same number of dimensions, but the array at ind…

人工智能 2023年6月23日
0070

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31