pytorch中Dataset，TensorDataset和DataLoader用法

2023年7月6日上午5:56 • 人工智能 • 阅读 81

1 用法介绍

pytorch中常用类torch.utils.data.Dataset和torch.utils.data.TensorDataset对数据进行封装；常用类torch.utils.data.DataLoader对数据进行加载。具体的用法细节如下所示：

1.1 torch.utils.data.Dataset的用法

class Dataset(object):
    def  __getitem__(self, index):
        raise NotImplementError
    def __len__(self):
        raise NotImplementError
    def __add__(self, other):
        return ConcatDataset([self, other])

注：torch.utils.data.Dataset表示一个数据集的抽象类，所有的其它数据集都要以它为父类进行数据封装。Dataset的类函数__getitem__和__len__必须要被进行重写。

1.2 torch.utils.data.TensorDataset的用法

classtorch.utils.data.TensorDataset(data_tensor, target_tensor)

data_tensor : 需要被封装的数据样本
target_tensor : 需要被封装的数据标签

class TensorDataset(Dataset):

    def __init__(self, data_tensor, target_tensor):
        self.data_tensor = data_tensor
        self.target_tensor = target_tensor
    def __getitem__(self, index):
        return self.data_tensor[index], self.target_tensor[index]
    def __len__(self):
        return self.data_tensor.size(0)

注：torch.utils.data.TensorDataset继承父类torch.utils.data.Dataset，不需要对类TensorDataset的函数进行重写。

1.3 torch.utils.data.DataLoader的用法

class torch.utils.data.DataLoader(dataset, batch_size=1, shuffle=False, sampler=None, batch_sampler=None, num_workers=0, collate_fn=None, pin_memory=False, drop_last=False, timeout=0, worker_init_fn=None, multiprocessing_context=None)

dataset (Dataset): 封装后的数据集。
batch_size (python:int,optional)): 每一批加载的样本量，默认值为1。
shuffle (bool,optional): 设置为True时,每一个epoch重新打乱数据顺序。
sampler (Sampler,optional): 定义在数据集中进行采样的策略，如果被指定，则False必须为shuffle。
batch_sampler (Sampler,optional): 类似sampler，但是一次返回一批索引。互斥有batch_size，shuffle，sampler和drop_last。
num_workers (python:int,optional): 多少个子进程用于数据加载。0表示将在主进程中加载数据,默认值为0。
collate_fn(callable,optional): 合并样本列表以形成张量的小批量。在从地图样式数据集中使用批量加载时使用。
pin_memory (bool,optional): 如果为True，则数据加载器在将张量返回之前将其复制到CUDA固定的内存中。
drop_last (bool,optional): 设置为True，如果数据集大小不能被该批次大小整除则删除最后一个不完整的批次。如果False，数据集的大小不能被批量大小整除，那么最后一个批量将更小，默认值为False。
timeout (numeric,optional): 如果为正，则为从worker收集批次的超时值。应始终为非负数,默认值为0。
worker_init_fn (callable,optional): 如果不是None，则在种子工作之后和数据加载之前，将在每个工作程序子进程上调用此程序，并以工作程序ID作为输入,取值为[0, num_workers – 1]或None。

注：torch.utils.data.DataLoader结合了数据集和取样器，并且可以提供多个线程处理数据集。在训练模型时该类可以将数据进行切分，每次抛出一组数据，直至把所有的数据都抛出。

2 代码实例

实例1中数据封装利用的是TensorDataset，数据加载利用的是DataLoader具体代码如下所示：

import torch
import torch.utils.data as Data
BATCH_SIZE = 5
x = torch.linspace(1, 10, 10)
y = torch.linspace(10, 1, 10)

torch_dataset = Data.TensorDataset(x, y)
loader = Data.DataLoader(
    dataset=torch_dataset,
    batch_size=BATCH_SIZE,
    shuffle=True,
    num_workers=0,
)
print(loader)
def show_batch():
    for epoch in range(3):
        for step, (batch_x, batch_y) in enumerate(loader):

            print("steop:{}, batch_x:{}, batch_y:{}".format(step, batch_x, batch_y))

if __name__ == '__main__':
    show_batch()

运行结果为：

pytorch中Dataset，TensorDataset和DataLoader用法

实例2中利用Dataset抽象类自定义出了一个子类进行数据封装，数据加载利用的是DataLoader具体代码如下所示：

import numpy as np
import torch
import torch.utils.data as Data

def generate_dataset(sample_num, class_num, X_shape):
    Label_list = []
    Sample_list = []
    for i in range(sample_num):
        y = np.random.randint(0, class_num)
        Label_list.append(y)
        Sample_list.append(np.random.normal(y, 0.2, X_shape))
    return torch.tensor(Sample_list), torch.tensor(Label_list)

class Normal_Dataset(Data.Dataset):
    def __init__(self, Numpy_Dataset):
        super(Normal_Dataset, self).__init__()
        self.data_tensor = Numpy_Dataset[0]
        self.target_tensor = Numpy_Dataset[1]

    def __getitem__(self, index):
        return self.data_tensor[index], self.target_tensor[index]

    def __len__(self):
        return self.data_tensor.size(0)

if __name__ == '__main__':
    numpy_dataset = generate_dataset(10, 2, 5)
    Dataset = Normal_Dataset(numpy_dataset)
    DataLoader = Data.DataLoader(
                        dataset = Dataset,
                        batch_size = 2,
                        shuffle = True,
                        num_workers = 0,
                        )
    for epoch in range(2):
        for step, (batch_x, batch_y) in enumerate(DataLoader):
            print("step: {}, batch_x: {}, batch_y: {}".format(step, batch_x, batch_y))

运行结果为：

Original: https://blog.csdn.net/qq_38406029/article/details/121282487
Author: 鬼道2022
Title: pytorch中Dataset，TensorDataset和DataLoader用法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/673342/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【CNN回归预测】基于matlab鲸鱼算法优化CNN回归预测【含Matlab源码 1453期】

⛄一、鲸鱼算法及CNN简介 1 鲸鱼优化算法（Whale Optimization Algorithm，WOA）简介鲸鱼优化算法(WOA)，该算法模拟了座头鲸的社会行为，并引入了气…

人工智能 2023年7月14日
0074
神经网络学习小记录72——Parameters参数量、FLOPs浮点运算次数、FPS每秒传输帧数等计算量衡量指标解析

神经网络学习小记录72——Parameters参数量、FLOPs浮点运算次数、FPS每秒传输帧数等计算量衡量指标解析学习前言网络的运算时组成我们要关注网络的什么指标 * 1、…

人工智能 2023年6月16日
00101
apex——安装方式和避免踩坑

背景：这个库的安装不是像其他的一样的直接使用 pip install XXX的形式，而是使用原始的Git方式 1、apex 这是NVIDIA开发的基于PyTorch的混合精度训练加…

人工智能 2023年7月22日
0046
双麦回音消除+噪音抑制+远场拾取模块 A-51

一，产品概述： A-51 是一款具有优异性能的数字语音处理模块，可以针对免提全双工通话中的回音问题消除和抑制环境噪声，以实现更好的呼叫质量。 [En] Eliminate an…

人工智能 2023年5月23日
0075
【MindSpore】简单使用Resnet50实现狗狼图片分类。附全部代码下载。

本文章用的例子来自MindSpore官网教程，这里主要是分享一下个人理解和整合一下相关代码。个人博客网站查看环境配置： windows10 MindSpore1.6.1 CPU…

人工智能 2023年6月18日
0092
语音识别从入门到进阶一文末附项目/源码

嗨，大家我，欢迎来到AI+语音专栏，本专栏长期更新，每篇文章必备干货，文章附带大量的算法原理+代码实现教学，欢迎关注，一起AI。语音识别原理首先是语音识别和语音唤醒等任务。一听…

人工智能 2023年7月26日
0066
tensorflow2.x保存pb模型，用于opencv3.4.16 dnn模块调用

——————- from tensorflow.python.framework.convert_to_constants import convert_v…

人工智能 2023年5月25日
0083
NLP之LDA及情感分析实现——Matlab Text Analysis Toolbox 工具箱例程：官方文档中文解释在2020美赛C题的应用

引言：该篇文章由笔者于2022年1月15日至19日做美赛赛前训练，2020年C题的亚马逊平台评论分析中实操总结记录。一、自然语言处理（NLP）及其matlab实现自然语言处理(…

人工智能 2023年5月28日
0085
pytorch个人学习笔记(2)—Normalize()参数详解及用法

起因是看到有的T.Normalize参数是固定的一堆0.5，而有的则是符合函数定义的计算出来的均值标准差而产生的疑惑一. 函数功能（快速上手） T.Normalize(mean,…

人工智能 2023年6月16日
00160
计算机视觉与深度学习第二章：图像分类任务

计算机视觉与深度学习本文按照北京邮电大学计算机学院鲁鹏老师的计算机视觉与深度学习课程按章节进行整理，需要的同学可借此系统学习该课程详尽知识~ 第二章图像分类任务计算机视觉与深…

人工智能 2023年7月2日
0090
知识图谱论文阅读（十六）【WWW2019】Knowledge Graph Convolutional Networks for Recommender

题目： KGCN论文链接：代码链接：https://github.com/hwwang55/KGCN ; 想法高阶的意思就是multi-hop的意思注意是从外向里聚合的，第h-…

人工智能 2023年6月1日
0089
【电赛开发】2021-F题数字识别-YOLOV2(含无脑训练教程

前言: 本教程采用K210跑模板进行数字识别，针对电赛的环境训练出来的效果更好在比赛中对识别速度要求也不是很高，所以尽量追求正确率，我选择了K210跑YOLOV2模型演示视频:BI…

人工智能 2023年7月11日
0078
从零学习 InfiniBand-network架构（七） ——IB协议中数据如何传输

从零学习 InfiniBand-network架构（七） —— IB协议中数据如何传输 🔈声明：😃博主主页：王_嘻嘻的CSDN主页🔑未经作者允许，禁止转载🚩本专题部分内容源于《In…

人工智能 2023年6月27日
0096
【Python中pandas库查看df开头和结尾数据】【df.head()和df.tail()方法】

● 选择题以下代码可以查看dataframe中开头3行和结尾3行数据分别是：A df.head(2) df.tail(2)B df.tail(2) df.head(2)C df.h…

人工智能 2023年7月7日
0071
K-Means不同含量果汁饮料的聚类（聚类算法）

文章目录实验内容实验要求实验代码实验内容某企业通过采集企业自身流水线生产的一种果汁饮料含量的数据集，来实现K-Means算法。通过聚类以判断该果汁饮料在一定标准含量偏差下…

人工智能 2023年5月31日
0096
计算机视觉项目实战-背景建模与光流估计（目标识别与追踪）

😊😊😊 欢迎来到本博客😊😊😊本次博客内容将继续讲解关于OpenCV的相关知识🎉 作者简介：⭐️⭐️⭐️ 目前计算机研究生在读。主要研究方向是人工智能和群智能算法方向。目前熟悉pyt…

人工智能 2023年6月23日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31