pytorch中DataLoader详解

2023年6月16日下午5:10 • 人工智能 • 阅读 102

功能初体验


import torch
import torch.utils.data as Data

if __name__ == '__main__':
    torch.manual_seed(1)

    BATCH_SIZE = 5

    x = torch.linspace(11, 20, 10)
    y = torch.linspace(1, 10, 10)

    torch_dataset = Data.TensorDataset(x, y)

    loader = Data.DataLoader(
        dataset=torch_dataset,
        batch_size=BATCH_SIZE,
        shuffle=False,
        num_workers=0,
    )

    for epoch in range(3):
        for step,(batch_x,batch_y) in enumerate(loader):

            print('Epoch: ', epoch, '| Step:', step, '| batch x: ', batch_x.numpy(), '| batch y: ', batch_y.numpy())

参数简介

上图为源码中dataloader中所有的可选参数。除了第一个dataset参数外，其他均为可选参数。

Dataset：处理好的所有数据
batch_size：批数量
shuffle：打乱数据
sampler：采样机制，即从数据集里面取样本的方式(迭代器，每次返回一个样本)
batch_sampler：把sampler的采样的样本根据batch_size组织成一个batch返回
num_worker：加载数据的线程数
collate_fn：把batch_sampler返回的list结构的一个batch的样本打包成一个tensor的结构
pin_memory：将加载的数据拷贝到CUDA中的固定内存中，从而使数据更快地传输到支持cuda的gpu
drop_last：丢弃余数
timeout：如果是正数，表明等待从加载一个batch等待的时间，若超出设定的时间还没有加载完，就放弃这个batch，如果是0，表示不设置限制时间。默认为0
worker_init_fn：如果不是None ，它将在每个worker子进程上以worker id ([0, num_workers – 1] )作为输入调用，在seeding之后和数据加载之前。
generater：如果不是None，这个RNG将被RandomSampler用来生成随机索引，并被multiprocessing用来为worker生成’ base_seed ‘。 (默认值:’ ‘没有’ ‘)
prefetch_factor：提前加载多少个batch的数据，可以保证线程不会等待，每个线程都总有至少一个数据在加载。提升显卡利用率。
persistent_workers：如果为True，数据加载器将不会在数据集运行完一个Epoch后关闭worker进程。这允许维护worker数据集实例保持激活。(默认值:False)，意思是运行完一个Epoch后并不会关闭worker进程，而是保持现有的worker进程继续进行下一个Epoch的数据加载。好处是Epoch之间不必重复关闭启动worker进程，加快训练速度。

; Dataloader参数之间的互斥

值得注意的是，Dataloader的参数之间存在互斥的情况，主要针对自己定义的采样器：

sampler：如果自行指定了sampler参数，则shuffle必须保持默认值，即False
batch_sampler：如果自行指定了batch_sampler参数，则 batch_size、shuffle、sampler、drop_last 都必须保持默认值
如果没有指定自己是采样器，那么默认的情况下（即sampler和batch_sampler均为None的情况下），dataloader的采样策略是如何的呢：

sampler：

shuffle = True：sampler采用 RandomSampler，即随机采样
shuffle = Flase：sampler采用 SequentialSampler，即按照顺序采样
batch_sampler：采用 BatchSampler，即根据 batch_size 进行batch采样
上面提到的 RandomSampler、SequentialSampler和BatchSampler都是PyTorch自己实现的，且它们都是Sampler的子类。

Sampler

SequentialSampler

SequentialSampler就是一个按照顺序进行采样的采样器，接收一个数据集做参数（实际上任何可迭代对象都可），按照顺序对其进行采样：

from torch.utils.data import SequentialSampler

pseudo_dataset = list(range(10, 20))
for data in SequentialSampler(pseudo_dataset):
    print(data, end=" ")

0 1 2 3 4 5 6 7 8 9

RandomSampler

RandomSampler 即一个随机采样器，返回随机采样的值，第一个参数依然是一个数据集（或可迭代对象）。还有一组参数如下：

replacement：bool值，默认是False，设置为True时表示可以采出重复的样本
num_samples：只有在replacement设置为True的时候才能设置此参数，表示要采出样本的个数，默认为数据集的总长度。有时候由于replacement置True的原因导致重复数据被采样，导致有些数据被采不到，所以往往会设置一个比较大的值

from torch.utils.data import RandomSampler

pseudo_dataset = list(range(10, 20))

randomSampler1 = RandomSampler(pseudo_dataset)
randomSampler2 = RandomSampler(pseudo_dataset, replacement=True, num_samples=20)

print("for random sampler #1: ")
for data in randomSampler1:
    print(data, end=" ")

print("\n\nfor random sampler #2: ")
for data in randomSampler2:
    print(data, end=" ")

for random sampler
4 5 2 9 3 0 6 8 7 1

for random sampler
4 9 0 6 9 3 1 6 1 8 5 0 2 7 2 8 6 4 0 6

WeightedRandomSampler

WeightedRandomSampler和RandomSampler的参数一致，但是不在传入一个dataset，第一个参数变成了weights，只接收一个一定长度的list作为 weights 参数，表示采样的权重，采样时会根据权重随机从 list(range(len(weights))) 中采样，即WeightedRandomSampler并不需要传入样本集，而是只在一个根据weights长度创建的数组中采样，所以采样的结果可能需要进一步处理才能使用。weights的所有元素之和不需要为1。

from torch.utils.data import WeightedRandomSampler

weights = [1,1,10,10]

weightedRandomSampler = WeightedRandomSampler(weights, replacement=True, num_samples=20)

for data in weightedRandomSampler:
    print(data, end=" ")

2 2 2 3 2 2 3 2 3 3 1 3 2 2 1 3 3 2 3 3

详细使用可参考：WeightedRandomSampler使用案例

BatchSampler

其他Sampler在每次迭代都只返回一个索引，而BatchSampler的作用是对上述这类返回一个索引的采样器进行包装，按照设定的batch size返回 一组具体数据，因其他的参数和上述的有些不同：

sampler：一个Sampler对象（或者一个可迭代对象）
batch_size：batch的大小
drop_last：是否丢弃最后一个可能不足batch size大小的数据

from torch.utils.data import BatchSampler
pseudo_dataset = list(range(10, 20))

batchSampler1 = BatchSampler(pseudo_dataset, batch_size=3, drop_last=False)
batchSampler2 = BatchSampler(pseudo_dataset, batch_size=3, drop_last=True)

print("for batch sampler #1: ")
for data in batchSampler1:
    print(data, end=" ")

print("\n\nfor batch sampler #2: ")
for data in batchSampler2:
    print(data, end=" ")

for batch sampler
[10, 11, 12] [13, 14, 15] [16, 17, 18] [19]

for batch sampler
[10, 11, 12] [13, 14, 15] [16, 17, 18]

SubsetRandomSampler

SubsetRandomSampler 可以设置子集的随机采样，多用于将数据集分成多个集合，比如训练集和验证集的时候使用：

from torch.utils.data import SubsetRandomSampler

pseudo_dataset = list(range(10, 20))

subRandomSampler1 = SubsetRandomSampler(pseudo_dataset[:7])
subRandomSampler2 = SubsetRandomSampler(pseudo_dataset[7:])

print("for subset random sampler #1: ")
for data in subRandomSampler1:
    print(data, end=" ")

print("\n\nfor subset random sampler #2: ")
for data in subRandomSampler2:
    print(data, end=" ")

for subset random sampler
14 15 11 16 13 10 12

for subset random sampler
17 19 18

参考：https://blog.csdn.net/qq_38962621/article/details/111146427

Original: https://blog.csdn.net/EMIvv/article/details/122509200
Author: Shashank497
Title: pytorch中DataLoader详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/625702/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

2022.03.14：Anaconda某环境下安装Spacy的Models模型

scispaCy是一个Python包，其中包含用于处理生物医学，科学或临床文本的spaCy模型。 2022.03.14为止，Spacy官方提供的可供安装的Models有8个：en…

人工智能 2023年5月28日
00106
问题解决之 RuntimeError: Couldn‘t load custom C++ ops. This can happen if your PyTorch XXX

一、问题描述在深度学习环境 GPU 版 pytorch 下，运行代码出现报错，关键报错信息如下： RuntimeError: Couldn’t load custom C++ o…

人工智能 2023年6月16日
0084
YOLO系列 — YOLOV7算法（七）：YOLOV7算法总结

YOLO系列 — YOLOV7算法（七）：YOLOV7算法总结基本上已经把YOLO V7算法的重要知识点全部讲完了，我们做个简单的总结吧~ 网络结构图片转载于：https://…

人工智能 2023年6月15日
00106
python——pandas展示所有列

在进行数据展示时，当dataframe的行或列较多时，会将中间的列压缩为省略号，在一定场景下会对数据处理造成困扰。用以下方法来解决： 1、完全展示（数据量较小时使用）——在要展示的…

人工智能 2023年7月6日
00147
pytorch 层标准化 LayerNorm 的用法

目录 1、为什么要标准化（理解的直接跳过到这部分） 2、LayerNorm 解释 3、举例-只对最后 1 个维度进行标准化 4、举例-对最后 D 个维度进行标准化 1、为什么要标准…

人工智能 2023年7月20日
0081
鲍鱼数据案例（岭回归、LASSO回归）

鲍鱼数据集案例实战）数据集探索性分析鲍鱼数据预处理对sex特征进行OneHot编码，便于后续模型纳入哑变量筛选特征将鲍鱼数据集划分为训练集和测试集实现线性回归和岭回归 …

人工智能 2023年6月16日
0071
翻译: Keras 标准化：TensorFlow 2.0 中高级 API 指南

TensorFlow 正在为2.0 版的发布做准备。在本文中，我们想预览 TensorFlow 的高级 API 的发展方向，并回答一些常见问题。 Keras是一个非常流行的高级 A…

人工智能 2023年5月24日
0076
逻辑回归模型是否需要进行特征缩放

是否需要进行特征缩放的问题在逻辑回归模型中，是否需要进行特征缩放是一个常见的问题。特征缩放是指将特征数据标准化到特定的范围内，以保证模型能够更好地拟合数据。本文将介绍逻辑回归模型…

人工智能 2023年12月31日
0043
基于运动控制器硬件平台的多种PSO位置同步输出模式详解

本节我们主要去讲解一下多种PSO模式原理和使用，用户可根据实际需求灵活选择触发模式。硬件选型的首要要求是支持PSO功能，再分析PSO的应用场合和轴数等选择具体的型号。本例以ZM…

人工智能 2023年6月4日
00100
读书笔记-深度学习推荐系统4-推荐与embedding

本篇结合了书籍《深度学习推荐系统》和吴恩达老师的视频课程《Natural Language Processing and Word Embeddings》。 embedding…

人工智能 2023年5月28日
0098
Vue学习笔记-vuex

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月28日
0081
最佳搭档！Data Fabrics与知识图谱之间的共生关系

全文共2220字，预计学习时长6分钟图源：ontotext Datafabric的概念正逐渐得到数据分析师团体的青睐，它和我们多年以来使用的知识图谱（KnowledgeGraph…

人工智能 2023年6月4日
00101
机器学习分类算法之支持向量机

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月23日
00100
【pytorch系列】withtorch.no_grad():用法详解

在pytorch写的网络中， with torch.no_grad():非常常见。首先，关于python中的 with ： with 语句适用于对资源进行访问的场合，确保不管使用…

人工智能 2023年7月24日
0065
名校AI课推荐 | UC Berkeley《人工智能导论》

深度学习具备强感知能力但缺乏一定的决策能力，强化学习具备决策能力但对感知问题束手无策，因此将两者结合起来可以达到优势互补的效果，为复杂系统的感知决策问题提供了解决思路。今天我们推…

人工智能 2023年6月4日
00127
OAK-D深度AI相机双目测距原理详解

编辑：OAK中国首发：oakchina.cn喜欢的话，请多多👍⭐️✍ 前言 Hello，大家好，这里是OAK中国，我是助手君。目前视觉测距主要有被动双目深度测距、TOF光测距、结…

人工智能 2023年7月20日
0086

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31