pytorch中的数据导入之DataLoader和Dataset的使用介绍

2023年6月16日下午10:37 • 人工智能 • 阅读 151

在使用Pytorch构建和训练模型的过程中，经常需要把原始数据（图片、文本等）转换为张量的格式。对于小数据集，我们可以手动导入，但是在深度学习中，数据集往往是比较大的，这时pytorch的数据导入功能便发挥了作用，Pytorch导入数据主要依靠

这两个类来完成。

torch.utils.data.Dataset：这是一个 抽象类，所以我们需要对其进行派生，从而使用其 派生类来创建数据集。最主要的两个函数实现为 __Len__和 __getitem__。

__init__：可以在这里设置加载的data和label。
__Len__：获取数据集大小
__getitem__：根据索引获取一条训练的数据和标签。
torch.utils.data.DataLoader：接收torch.utils.data.Dataset作为输入，得到DataLoader， 它是一个迭代器，方便我们去多线程地读取数据，并且可以实现batch以及shuffle的读取等。

pytorch 的数据加载到模型的操作顺序如下：

(看完本文章，再回过头看这部分会更清晰)：

创建一个 Dataset 对象
创建一个 DataLoader 对象
循环这个 DataLoader 对象，将img, label加载到模型中进行训练

dataset = MyDataset()
dataloader = DataLoader(dataset)
num_epoches = 100
for epoch in range(num_epoches):
    for img, label in dataloader:
        ....

torch.utils.data.Dataset可通过两种方式生成， 一种是通过内置的下载功能，另一种便是自己实现。下载功能需要借助一些其他的包，比如torchvision，下载CIFAR10数据格式大致如下：

import torch
import torchvision

cf10_data = torchvision.datasets.CIFAR10('dataset/cifar/', download=True)

下面我们主要介绍怎么创建一个属于自己的数据集。

任何自定义的数据集都要继承自torch.utils.data.Dataset，然后重写两个函数： __len__(self)和 __getitem__(self, idx)。

下面是一个简单的自定义小型数据集，以期能够理解它的创建方式。注意下面的示例中并没有通过 __init__传入data和label，而是在内部创建的。

import torch
from torch.utils.data import Dataset

class myDataset(Dataset):
    def __init__(self):

        self.data = torch.tensor([[1,2],[3,4],[2,1],[3,4],[4,5]])

        self.label = torch.tensor([0,1,0,1,2])

    def __getitem__(self,index):
        return self.data[index], self.label[index]

    def __len__(self):
        return len(self.data)

data = myDataset()
print(f'data size is : {len(data)}')

print(data[1])

输出：

data size is : 5
(tensor([3, 4]), tensor(1))

torch.utils.data.Dataset通过 __getitem__获取单个数据，如果希望获取批量数据、shuffle或者其它的一些操作，那么就要由torch.utils.data.DataLoader来实现了，它的实现形式如下：

data.DataLoader(
    dataset,
    batch_size = 50,
    shuffle = False,
    sampler=None,
    batch_sampler = None,
    num_workers = 0,
    collate_fn =
    pin_memory = False,
    drop_last = False,
    timeout = 0,
    worker_init_fn = None,
)

dataset：待传入的数据集，也就是上面自己实现的myData。
batch_size：每个batch有多少个样本
shuffle：代表数据会不会被随机打乱， 在每个epoch开始的时候，对数据进行重新排序。
sampler：自定义从数据集中取样本的策略，如果指定这个参数，那么shuffle必须为False
batch_sampler：类似于sampler，不过返回的是一个迷你批次的数据索引。
num_workers：是数据载入器使用的进程数目，默认为0。
collate_fn：用于自定义sample 如何形成 batch sample 的函数。 因为getitem只是得到一条数据，collate_fun组成一个batch数据
pin_memory：如果设置为True，那么data loader将会在返回它们之前，将tensors拷贝到CUDA中的固定内存（CUDA pinned memory）中。
drop_last：如果设置为true，那么最后的batch的大小如果小于batch_size，那么则会丢弃。
timeout：如果是正数，表明等待从worker进程中收集一个batch等待的时间，若超出设定的时间还没有收集到，那就不收集这个内容了。这个numeric应总是大于等于0。默认为0。
worker_init_fn：它决定了每个数据载入的子进程开始时运行的函数

按照上面的Dataset，使用DataLoader加载数据示例如下，因为设置了 drop_last = True，所以最后一个batch会被丢弃。

from torch.utils.data import DataLoader
data = myDataset()

my_loader = DataLoader(data,batch_size=2,shuffle=False,num_workers = 0,drop_last=True)
for step,train_data in enumerate(my_loader):
    Data,Label = train_data
    print("step:",step)
    print("data:",Data)
    print("Label:",Label)

输出：

step: 0
data: tensor([[1, 2],
        [3, 4]])
Label: tensor([0, 1])
step: 1
data: tensor([[2, 1],
        [3, 4]])
Label: tensor([0, 1])

在Dataset和DataLoader的地方都可以实现把数据放入GPU，下面分别进行介绍。

Dataset阶段把数据放入GPU

如果在此阶段把数据放入GPU，则此阶段必须把num_workers设置为0，要不然会报错。此阶段的操作需要在 __getitem__中实现，实现过程大致如下。

    def __getitem__(self, index):
        data = torch.Tensor(self.Data[index])
        label = torch.IntTensor(self.Label[index])
        if torch.cuda.is_available():
            data = data.cuda()
            label = label.cuda()
        return data, label

DataLoader阶段把数据放入GPU

这种实现方式就没有特别需要注意的地方，直接把tensor放入GPU即可，所以 推荐使用这种实现方式，如下所示。

data = myDataset()

my_loader = DataLoader(data,2,shuffle=False,num_workers = 0,drop_last=True)
for step,train_data in enumerate(my_loader):
    Data,Label = train_data

    if torch.cuda.is_available():
        data = data.cuda()
        label = label.cuda()
    print("step:",step)
    print("data:",Data)
    print("Label:",Label)

Original: https://blog.csdn.net/QLeelq/article/details/121388746
Author: 非晚非晚
Title: pytorch中的数据导入之DataLoader和Dataset的使用介绍

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/627047/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

华为机试真题 C++ 实现【正方形数量】

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月28日
0062
HMM（隐马尔可夫）中文分词

一、隐马尔可夫模型隐马尔可夫模型（Hidden Markov Model，HMM）是用来描述一个含有隐含未知参数的马尔可夫过程。 1、举例理解假设我手里有三个不同的骰子。第一个…

人工智能 2023年5月27日
0076
Anaconda安装及环境配置+更换下载源+Pytorch安装配置过程详解（基于python3.9）

Anaconda安装及环境配置+更换下载源+Pytorch安装配置过程详解（基于python3.9）一、前言二、Anaconda更改默认下载源三、安装配置pytorch 四、…

人工智能 2023年7月4日
00229
卷积神经网络 ——卷积神经网络的结构

卷积神经网络的基本思想 ; 卷积神经网络的基本结构卷积神经网络是一种多层的、前馈型网络。从结构上，可以分为特征提取阶段和分类识别阶段。在特征提取阶段，通常由多个特征层堆叠而成，每…

人工智能 2023年7月13日
0097
如何使用熵值法分组计算核心指标权重，并为项目打分

在实际工作中，需要结合数据的特征情况选择权重计算方法。我在B端项目分析中更多考虑的是数据所携带的信息量，故选择了熵值法。本次权重计算的不同之处在于，项目具有较强的行业属性，须按照行…

人工智能 2023年7月8日
0093
【GNN报告】赵越-图神经网络与异常检测

目录 1、简介 2、图神经网络与异常检测小引图异常检测背景系统PyGOD 基准BOND综述未来方向总结小结 QA 3、参考 1、简介摘要：在这次演讲中，赵越会围绕…

人工智能 2023年7月28日
0077
百分点数据科学实验室：零售行业新店品类配比测算方案

编者按：零售行业是数据科学的重要应用领域之一。零售领域有着丰富的数据和大量的优化问题，如商品定价、折扣、库存水平、客户分类、订单挑选与配送，以及品类配比等。本篇文章结合百分点数据科…

人工智能 2023年7月18日
0078
yolov5只训练数据集中的某几个类别

文章目录前言一、直接修改数据集标签二、修改加载labels的代码 * 1.train 2.create_dataloader 3.LoadImagesAndLabels 4….

人工智能 2023年7月21日
0054
python回归代码_线性回归代码-python

import numpy as np import matplotlib.pyplot as plt from scipy.optimize import leastsq # 方法…

人工智能 2023年6月18日
0065
风险管理工作，这几块数据分析的内容都做了吗

在风险管理中，数据分析算是一个最基本也是最重要的环节，往往决定着风险管理的好坏差异。数据分析师就像一位侦查兵，数据一有变动就能马上感知。不需像模型岗位，需要等待数据累积到某个量级才…

人工智能 2023年7月18日
0050
Python数据分析高薪实战第六天数据过滤与数据清洗

13 高级索引：过滤与查看表格中的局部数据上一节课中，我们学习了 pandas 中两个核心的数据结构：Series 和 DataFrame，之后还学习了 DataFrame 的常…

人工智能 2023年7月16日
0066
车牌识别项目全过程——opencv知识自学(1)

目录什么是opencv? * 图像数字化基础知识图像获取图像变换 – 改变大小车牌识别内容分析 * 定位车牌 – 图像降噪形态学处理阈值分割+边…

人工智能 2023年7月27日
0076
遥感图像目标检测研究综述

遥感图像目标检测遥感图像特殊性一、目标检测研究综述 * 1.介绍 2.传统目标检测 3.基于深度学习目标检测 – R-CNN系列为代表的两阶段算法 YOLO、SSD…

人工智能 2023年5月26日
0080
碰撞检测技术介绍

自动驾驶决策规划模块中会经常使用到碰撞检测计算分析Ego vehicle行为的安全性，并且可以用在planning计算的多个方面。例如下图中第一幅图，黄色车辆为主车，灰色车辆为交通…

人工智能 2023年7月27日
0064
猿创征文｜mysql中show的常用命令-Navicat篇【建议收藏】

文章目录一.mysql show 命令 * 1.查看表信息 2.查看表信息 3.显示表中列名称 4.显示create database 语句是否能够创建指定的数据库 5.显示cr…

人工智能 2023年7月30日
0077
在监督学习中，什么是过拟合和欠拟合？如何解决这些问题

什么是过拟合和欠拟合？在监督学习中，过拟合和欠拟合是两个常见的问题。这两个问题都与模型在训练数据和测试数据上的表现相关。过拟合指模型在训练数据上表现得很好，但在测试数据上表现较…

人工智能 2024年1月2日
0044

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pytorch中的数据导入之DataLoader和Dataset的使用介绍

大家都在看