PyTorch（二）Dataset 与 DataLoader

2023年7月22日上午4:54 • 人工智能 • 阅读 84

文章目录

*
– Log
* 一、Dataset
*
– 1. 在控制台进行操作
–
+ ①获取图片的基本信息
+ ②获取文件的基本信息
– 2. 编写一个继承 Dataset 的类加载数据
–
+ ①定义 MyData类
+ ②创建类的实例并调用
* 二、DataLoader

Log

2022.08.31八月最后一日，继续学习
2022.10.03九月事情还算可以吧，十月归来学习。后面应该还会回来完善

一、Dataset

D a t a s e t \rm Dataset Dataset 类提供一种方式去获取数据及其标签
主要有两个目的：
获取每一个数据及其标签
获取数据的总量大小

1. 在控制台进行操作

H y m e n o p t e r a \rm Hymenoptera Hymenoptera （膜翅目昆虫）数据集下载
这是一个蚂蚁蜜蜂二分类的数据集，通常数据集有以下三种组织形式（上面的数据集属于第一种）：
不同的类别以文件夹的形式存在，文件夹中是该类别的图片
图片与标签分别存储，图片在一个文件夹下， label信息在另一个文件夹下
label直接写在图片名称里

①获取图片的基本信息

在P y c h a r m \rm Pycharm Pycharm 中，点击下方的P y t h o n C o n s o l e \rm Python Console PythonConsole 进入控制台进行操作（通过控制台可以看到变量的详细信息）
首先加载图片，逐行输入下方代码：

from PIL import Image
img_path = "./dataset/hymenoptera_data/train/ants/0013035.jpg"
img = Image.open(img_path)

此时我们就可以在右侧看到相关变量的信息：
点击 img变量，可以查看图片的详细信息。通过控制台执行程序能够直观地获取后续操作所需的数据：
最后可以通过 img.show()打开图片查看：

②获取文件的基本信息

同样还是在控制台逐行输入以下代码：

dir_path = "dataset/hymenoptera_data/train/ants"
import os
img_path_list = os.listdir(dir_path)
img_path_list[0]

我们就可以获取到文件夹下的文件名称，由于是使用控制台，我们还可以在右侧查看列表的详细信息：
因此在控制台操作是有很大的优点的，我们可以在控制台逐行执行已经编写好的文件中的语句，通过查看右侧变量的值来判断程序写的是否有问题

2. 编写一个继承 Dataset 的类加载数据

下面的代码也可以在控制台运行（可以多行复制粘贴）来检验程序是否有误

①定义 MyData类

导入所需头文件：

from torch.utils.data import Dataset
from PIL import Image
import os

定义 MyData类：
__init__：初始化函数
__getitem__：返回指定下标的图片和标签
__len__：返回数据集的大小

class MyData(Dataset):
    def __init__(self, root_dir, label_dir):
        self.root_dir = root_dir
        self.label_dir = label_dir
        self.path = os.path.join(self.root_dir, self.label_dir)
        self.img_path = os.listdir(self.path)

    def __getitem__(self, idx):
        img_name = self.img_path[idx]
        img_item_path = os.path.join(self.root_dir, self.label_dir, img_name)
        img = Image.open(img_item_path)
        label = self.label_dir
        return img, label

    def __len__(self):
        return len(self.img_path)

其中 os.path.join()可以实现多个路径的合并且不出错

②创建类的实例并调用

创建 MyData 类的实例：

if __name__ == "__main__":
    root_dir = "../dataset/hymenoptera_data/train"
    ants_label_dir = "ants"
    bees_label_dir = "bees"
    ants_dataset = MyData(root_dir, ants_label_dir)
    bees_dataset = MyData(root_dir, bees_label_dir)

调用类中写好的函数：

    img, label = ants_dataset.__getitem__(3)
    print(ants_dataset.__len__(), label)
    img.show()

同时我们也可以通过下面这种方式用已有的数据集来创造数据集：

    train_dataset = ants_dataset + bees_dataset

二、DataLoader

D a t a L o a d e r \rm DataLoader DataLoader 类是为后面的网络提供不同的数据形式
D a t a L o a d e r \rm DataLoader DataLoader 会根据 batch_size的值对数据进行打包
导入所需的包

import torchvision
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter

加载数据：

test_data = torchvision.datasets.CIFAR10("./dataset", train=False, transform=torchvision.transforms.ToTensor())
test_loader = DataLoader(dataset=test_data, batch_size=64, shuffle=True, num_workers=0, drop_last=True)

测试：

img, target = test_data[0]
print(img.shape)
print(target)

进行日志记录，开始训练：

writer = SummaryWriter("dataloader")
for epoch in range(2):
    step = 0
    for data in test_loader:
        imgs, targets = data
        print(imgs.shape)
        print(targets)
        writer.add_images("Epoch: {}".format(epoch), imgs, step)
        step = step + 1
writer.close()

Original: https://blog.csdn.net/weixin_53312629/article/details/126616169
Author: 竹清兰香
Title: PyTorch（二）Dataset 与 DataLoader

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/708455/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习顶会论文复现 tensorflow代码转pytorch 吐血入门经验

我想把一个TensorFlow代码转为pytorch代码，深度学习的代码。经过一个月的调试。。。。。自己好垃圾啊。。。将某tensorflow代码转pytorch。网络结构或许…

人工智能 2023年5月26日
0050
rasa sanic_worker开启多线程并发服务

rasa sanic_worker开启多线程并发服务（linux only） @hey_超级巨星默认状态下rasa 的action动作服务器和restful服务器是单线程运行的这里…

人工智能 2023年5月31日
0091
大学生个人博客网页设计模板学生个人博客网页成品简单个人网站作品下载静态HTML CSS个人网页作业源代码

🎉精彩专栏推荐👇🏻👇🏻👇🏻✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战案例…

人工智能 2023年6月26日
00140
MASS | 广义线性模型（四）——负二项回归

本篇是”广义线性模型”系列推文的最后一篇，来介绍另外一种重要的广义线性模型：负二项回归。与泊松回归一样，负二项回归也是一种计数模型。由于泊松回归的内在要求…

人工智能 2023年5月25日
0060
OpenKE 的使用（二）— TransX 系列论文复现

OpenKE 的使用（二）— TransX 系列论文复现前言：之前踩了VM中ubuntu不能使用Nvidia驱动的坑，于是我在安装好Windows+Ubuntu双系统，并在Ub…

人工智能 2023年6月1日
0078
卷积神经网络CNN中的卷积操作详解

从公式理解：从公式看，卷积就是相乘再相加的过程从这张图看，卷积就是之前的点对当前点的影响。有人说，卷积就是瞬时行为的持续性后果。 CNN中的卷积操作在CNN的卷积操作中，其…

人工智能 2023年7月12日
0064
Python3 DataFrame数据排序与排名

pandas的DataFrame极大地简化了数据分析过程中一些烦琐操作，它是一个表格型的数据结构, 每一列代表一个变量，而每一行则是一条记录。简答地说，DataFrame是共享同一…

人工智能 2023年7月7日
0077
什么是知识图谱？有哪些典型应用？终于有人讲明白了

导读：本文将详细阐述知识图谱的基本概念，包括知识图谱的背景、定义以及典型应用。作者：邵浩张凯李方圆张云柯戴锡强来源：大数据DT（ID：hzdashuju） 01 知识图…

人工智能 2023年6月1日
00100
Openpilot EP1：Openpilot开源项目深度解析

目录 0.前言 1.整体介绍 2.系统架构与硬件配置 2.1 系统架构 2.2 硬件配置 3.量产安全规范体系 4.生态体系 5.软件算法分析 5.2 Supercombo模型 5…

人工智能 2023年7月20日
0054
【python+ROS+路径规划】六、mpc轨迹规划和跟踪

所使用的就是pyomo,使用mpc框架，达到的效果是优化轨迹并进行轨迹跟踪，如图：pyomo相关教程：【python+ROS+路径规划】五、pyomo非线性规划工具. python…

人工智能 2023年6月2日
0098
TransRHS: A Representation Learning Method for Knowledge Graphs with Relation Hierarchical Structure

研究问题在学习知识图谱上的嵌入时对关系的层次结构（RHS）进行建模，训练一个向量和一个球（sphere），用向量差和球的相对位置关系表示关系的层级结构。背景动机之前基于聚类的…

人工智能 2023年6月1日
00101
猿创征文｜前端到全栈，一名 IT 初学者的学习与成长之路

目录导读 * – 写在前面 – 创作之路 – + ❤ 前端开发工程师知识体系 + ❤ Vue&React 开发框架 + ❤ 前端开发实战…

人工智能 2023年6月2日
0090
【考研数据结构题型分类讲解练习】5-3. 查找–应用题、实做题

更新时间：2022年11月3日做之前先看这个哈希查找方法_Anthony_4926-CSDN博客_哈希查询线性探测本文以例题形式讲解散列查找中，散列表的构建，以及查找成功的AS…

人工智能 2023年7月2日
0078
Linux系统上安装python详细步骤

1、默认情况下，Linux会自带安装Python，可以运行python –version命令查看，如图：启动python，使用命令：python: Ctrl+D退出p…

人工智能 2023年7月5日
00128
关于pytorch与CUDA版本匹配问题

项目场景：在跑CLAM实验时遇到如下问题：RuntimeError: CUDA error: no kernel image is available for execution…

人工智能 2023年7月27日
0043
python –opencv图像处理轮廓(寻找轮廓、绘制轮廓)详解

什么是轮廓？轮廓是一系列相连的点组成的曲线，代表了物体的基本外形，相对于边缘，轮廓是连续的，边缘并不全部连续。寻找轮廓寻找轮廓 OpenCV 为我们提供了一个现成的函数 fi…

人工智能 2023年7月4日
0084

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31