6. 手写数字图片数据集MNIST

2023年6月16日上午12:23 • 人工智能 • 阅读 79

MNIST数据集（http://yann.lecun.com/exdb/mnist/）

手写数字图片数据集，存在60000个训练样本，10000个测试样本。每个样本为一个28X28像素的图片。

主要包含四个压缩文件：

train-images-idx3-ubyte.gz训练样本图片的原始数据train-labels-idx1-ubyte.gz训练样本图片对应的标签数据t10k-images-idx3-ubyte.gz测试样本图片的原始数据t10k-labels-idx1-ubyte.gz测试样本图片对应的标签数据 第一步：数据集的下载
MNIST — Torchvision 0.12 documentation https://pytorch.org/vision/stable/generated/torchvision.datasets.MNIST.html#torchvision.datasets.MNIST ;

from torchvision.transforms import ToTensor
from torchvision.datasets import MNIST

trainData = MNIST(root = "./",
                  train = True,
                  transform=ToTensor(),
                  download = True)
testData = MNIST(root = "./",
                  train = False,
                  transform=ToTensor(),
                  download = True)

如果download为True,在当前目录下出现MNIST文件夹，其中./MNIST/raw内会出现MNIST的四个文件。否则，会从./MNIST/raw自动加载四个文件。

第二步：数据集加载

torch.utils.data — PyTorch 1.11.0 documentation 6. 手写数字图片数据集MNIST https://pytorch.org/docs/stable/data.html#torch.utils.data.DataLoader ;

from torch.utils.data import DataLoader
batch_size = 64
trainData_loader = DataLoader(dataset = trainData,
                              batch_size = batch_size,
                              shuffle = True)
testData_loader = DataLoader(dataset = testData,
                             batch_size = batch_size,
                             shuffle = True)

batch_size = 64 代表每次加载64个样本

第三步：理解样本数据

3.1 数据查看

examples = enumerate(trainData_loader)
idx, (data,labels) = next(examples)
print(data.shape)
print(labels)

torch.Size([64, 1, 28, 28])
tensor([3, 9, 0, 1, 2, 1, 5, 1, 8, 1, 9, 8, 3, 4, 3, 0, 9, 8, 3, 9, 4, 9, 6, 9,
        7, 4, 5, 3, 0, 6, 1, 4, 0, 6, 1, 8, 5, 0, 5, 8, 0, 7, 1, 8, 1, 4, 6, 9,
        4, 6, 7, 4, 2, 5, 4, 7, 1, 2, 6, 1, 9, 0, 0, 7])

data.shape [64,1,28,28] – 64个样本，每个样本有一个通道，每个通道包含28X28的像素；

label – 对应这64个样本的标签；

注：一般灰度图像只有一个通道；如果是彩色图像，是三个通道，对应RGB三原色。

labels – 64个样本图片对应的标签。

3.2 数据显示

import matplotlib.pyplot as plt
data = data.squeeze()   # 删除通道维度 [64,1,28,28]->[64,28,28]

fig = plt.figure(dpi=300)
for i in range(8):
    for j in range(8):
        plt.subplot(8,8, i*8+j+1 )
        plt.imshow(data[i*8+j])
        plt.xticks([])
        plt.yticks([])
plt.show()

生成的图片与 3.1步骤中显示 labels标签一一对应

附录：完整代码

from torchvision.transforms import ToTensor
from torchvision.datasets import MNIST
from torch.utils.data import DataLoader
import matplotlib.pyplot as plt

trainData = MNIST(root = "./",
                  train = True,
                  transform=ToTensor(),
                  download = True)
testData = MNIST(root = "./",
                  train = False,
                  transform=ToTensor(),
                  download = True)

batch_size = 64
trainData_loader = DataLoader(dataset = trainData,
                              batch_size = batch_size,
                              shuffle = True)

testData_loader = DataLoader(dataset = testData,
                             batch_size = batch_size,
                             shuffle = True)

examples = enumerate(trainData_loader)
idx, (data,labels) = next(examples)

fig = plt.figure()
for i in range(8):
    for j in range(8):
        plt.subplot(8,8, i*8+j+1 )
        plt.imshow(data.squeeze()[i*8+j])
        plt.xticks([])
        plt.yticks([])
plt.show()

Original: https://blog.csdn.net/Austin6035/article/details/124542318
Author: Austin6035
Title: 6. 手写数字图片数据集MNIST

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/618442/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Wikidata知识图谱介绍与数据处理

1. Wikidata 简介 Wikidata（维基数据）是一个自由开放的知识库，可以同时被人和机器阅读、编辑[1]。根据官网介绍，Wikidata作为一种结构化数据的集中存储，为…

人工智能 2023年6月1日
0089
用pandas处理类似鸢尾花数据集【附代码】

在学习深度学习的时候，前期最重要的就是对数据集的处理，先抛开数据增强等过程，单单数据集的加载也是很重要的，只有正确处理好数据集才能送入网络进行训练。前面我有写过关于VOC数据集的处…

人工智能 2023年6月19日
0089
pandas数据清洗：案例详解 fillna函数填补空缺值

pandas数据清洗：fillna函数填补空缺值 1 fillna函数简介 2 填补空缺值3种方法 * 2.1 构建学习数据 2.2 填补特定值 2.3 用前一个非空缺值填充 2….

人工智能 2023年7月7日
00139
文字生成图片

文章目录摘要 PaddleHub能力简介文心ERNIE-ViLG介绍配置环境模型加载推理 Prompt 设计原则摘要根据文字生成图像，是近几年大模型领域比较热门的研究。…

人工智能 2023年6月23日
0063
CVPR2021 | PAConv：一种位置自适应卷积，点云分类、分割任务表现SOTA

导读：由香港大学CVMI Lab和牛津大学合作提出了一种点云上具有动态内核组装的位置自适应卷积——PAConv: Position Adaptive Convolution wi…

人工智能 2023年7月3日
0093
特征融合的分类和方法

1、特征融合的定义特征融合方法是模式识别领域的一种重要的方法，计算机视觉领域的图像识别问题作为一种特殊的模式分类问题，仍然存在很多的挑战，特征融合方法能够综合利用多种图像特征，实…

人工智能 2023年7月4日
0083
论文阅读 Real-Time Streaming Graph Embedding Through Local Actions 11

9 Real-Time Streaming Graph Embedding Through Local Actions 11 link:https://scholar.google…

人工智能 2023年6月4日
00202
WorkPlus移动平台 | 如何建设“智慧校园”新样态？

加粗样式一、教育信息化2.0时代教育信息化2.0由中华人民共和国教育部印发的《教育信息化2.0行动计划》于2018年4月13日正式提出，是教育信息化的升级。要实现从专用资源向大资…

人工智能 2023年7月17日
0080
16.Pandas实现groupBy分组统计

简单介绍类似Sql:select city,max(temperature) from city_weather group by city;groupby:先对数据分组，然后在…

人工智能 2023年7月8日
0074
2022亚太C题详细思路

2022年亚太今日已经正式开赛，为了帮助大家更好的选题建模，这里首先对ABC三道题目进行浅要评析，以方便大家更好的择题。同时相关资料也会后续进行补充。预计明日公布各题统计选题人数以…

人工智能 2023年7月30日
0066
服务双管齐下，智能语音机器人帮你say hi~

什么是智能语音机器人？智能语音机器人是一种以ASR、TTS、 NLU 等技术为基础的智能客服机器人。能够根据客户咨询做出反应，快速识别客户意图，并根据客户咨询内容进行智能化解答,…

人工智能 2023年5月27日
0079
Tensorflow、CUDA、cuDNN详细的下载安装过程

文章目录前言一、Tensorflow简介二、Tensorflow版本介绍 * 1.Tensorflow与python、CUDA、cuDNN对应关系 2.NVIDIA显卡和CU…

人工智能 2023年5月24日
00121
LeetCode – 207 课程表

目录题目来源题目描述示例提示题目解析算法源码题目来源 207. 课程表 – 力扣（LeetCode）题目描述你这个学期必须选修 numCourses …

人工智能 2023年6月27日
0076
Python：如何实现提取文本关键词、摘要、短语、无监督文本聚类

我们在使用Python对文本数据进行处理时，通常会遇到提取文本关键词、提取摘要、提取短语或者进行无监督文本聚类等需求。本文将向大家推荐一个非常实用的包pyhanlp，使用这个包中的…

人工智能 2023年6月16日
0088
基于（线性 | 逻辑）回归的思想分类（神经网络的由来）

目录基于回归的思想分类： * 1 线性回归 – step 1 step2 2 逻辑回归 – step1 step2 3 对比&总结 –…

人工智能 2023年7月3日
00144
7.pytorch自然语言处理-循环神经网络与分词

一、基础知识 1、tokenization分词分词，分出的每一个词语叫做token *清华大学API：THULAC；或者直接用jieba 可以切分为词语，或者完全分成一个一个字 …

人工智能 2023年5月28日
00111

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

6. 手写数字图片数据集MNIST

大家都在看