PyTorch之torch.utils.data.DataLoader详解

2023年5月26日上午5:31 • 人工智能 • 阅读 83

1、dataset：（数据类型 dataset）

输入的数据类型,这里是原始数据的输入。PyTorch内也有这种数据结构。

2、batch_size：（数据类型 int）

批训练数据量的大小，根据具体情况设置即可（默认：1）。PyTorch训练模型时调用数据不是一行一行进行的（这样太没效率），而是一捆一捆来的。这里就是定义每次喂给神经网络多少行数据，如果设置成1，那就是一行一行进行（个人偏好，PyTorch默认设置是1）。每次是随机读取大小为batch_size。如果dataset中的数据个数不是batch_size的整数倍，这最后一次把剩余的数据全部输出。若想把剩下的不足batch size个的数据丢弃，则将drop_last设置为True，会将多出来不足一个batch的数据丢弃。

3、shuffle：（数据类型 bool）

洗牌。默认设置为False。在每次迭代训练时是否将数据洗牌，默认设置是False。将输入数据的顺序打乱，是为了使数据更有独立性，但如果数据是有序列特征的，就不要设置成True了。

4、collate_fn：（数据类型 callable，没见过的类型）

将一小段数据合并成数据列表，默认设置是False。如果设置成True，系统会在返回前会将张量数据（Tensors）复制到CUDA内存中。

5、batch_sampler：（数据类型 Sampler）

批量采样，默认设置为None。但每次返回的是一批数据的索引（注意：不是数据）。其和batch_size、shuffle 、sampler and drop_last参数是不兼容的。我想，应该是每次输入网络的数据是随机采样模式，这样能使数据更具有独立性质。所以，它和一捆一捆按顺序输入，数据洗牌，数据采样，等模式是不兼容的。

6、sampler：（数据类型 Sampler）

采样，默认设置为None。根据定义的策略从数据集中采样输入。如果定义采样规则，则洗牌（shuffle）设置必须为False。

7、num_workers：（数据类型 Int）

工作者数量，默认是0。使用多少个子进程来导入数据。设置为0，就是使用主进程来导入数据。注意：这个数字必须是大于等于0的，负数估计会出错。

8、pin_memory：（数据类型 bool）

内存寄存，默认为False。在数据返回前，是否将数据复制到CUDA内存中。

9、drop_last：（数据类型 bool）

丢弃最后数据，默认为False。设置了 batch_size 的数目后，最后一批数据未必是设置的数目，有可能会小些。这时你是否需要丢弃这批数据。

10、timeout：（数据类型 numeric）

超时，默认为0。是用来设置数据读取的超时时间的，但超过这个时间还没读取到数据的话就会报错。所以，数值必须大于等于0。

11、worker_init_fn（数据类型 callable，没见过的类型）

子进程导入模式，默认为Noun。在数据导入前和步长结束后，根据工作子进程的ID逐个按顺序导入数据。
对batch_size举例分析：

"""
    批训练，把数据变成一小批一小批数据进行训练。
    DataLoader就是用来包装所使用的数据，每次抛出一批数据
"""
import torch
import torch.utils.data as Data

BATCH_SIZE = 5

x = torch.linspace(1, 11, 11)
y = torch.linspace(11, 1, 11)
print(x)
print(y)
把数据放在数据库中
torch_dataset = Data.TensorDataset(x, y)
loader = Data.DataLoader(
    # 从数据库中每次抽出batch size个样本
    dataset=torch_dataset,
    batch_size=BATCH_SIZE,
    shuffle=True,
    # num_workers=2,
)

def show_batch():
    for epoch in range(3):
        for step, (batch_x, batch_y) in enumerate(loader):
            # training
            print("steop:{}, batch_x:{}, batch_y:{}".format(step, batch_x, batch_y))

if __name__ == '__main__':
    show_batch()

输出为：

tensor([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11.])
tensor([11., 10.,  9.,  8.,  7.,  6.,  5.,  4.,  3.,  2.,  1.])
steop:0, batch_x:tensor([ 3.,  2.,  8., 11.,  1.]), batch_y:tensor([ 9., 10.,  4.,  1., 11.])
steop:1, batch_x:tensor([ 5.,  6.,  7.,  4., 10.]), batch_y:tensor([7., 6., 5., 8., 2.])
steop:2, batch_x:tensor([9.]), batch_y:tensor([3.])
steop:0, batch_x:tensor([ 9.,  7., 10.,  2.,  4.]), batch_y:tensor([ 3.,  5.,  2., 10.,  8.])
steop:1, batch_x:tensor([ 5., 11.,  3.,  6.,  8.]), batch_y:tensor([7., 1., 9., 6., 4.])
steop:2, batch_x:tensor([1.]), batch_y:tensor([11.])
steop:0, batch_x:tensor([10.,  5.,  7.,  4.,  2.]), batch_y:tensor([ 2.,  7.,  5.,  8., 10.])
steop:1, batch_x:tensor([3., 9., 1., 8., 6.]), batch_y:tensor([ 9.,  3., 11.,  4.,  6.])
steop:2, batch_x:tensor([11.]), batch_y:tensor([1.])

Process finished with exit code 0

若drop_last=True

"""
    批训练，把数据变成一小批一小批数据进行训练。
    DataLoader就是用来包装所使用的数据，每次抛出一批数据
"""
import torch
import torch.utils.data as Data

BATCH_SIZE = 5

x = torch.linspace(1, 11, 11)
y = torch.linspace(11, 1, 11)
print(x)
print(y)
把数据放在数据库中
torch_dataset = Data.TensorDataset(x, y)
loader = Data.DataLoader(
    # 从数据库中每次抽出batch size个样本
    dataset=torch_dataset,
    batch_size=BATCH_SIZE,
    shuffle=True,
    # num_workers=2,
    drop_last=True,
)

def show_batch():
    for epoch in range(3):
        for step, (batch_x, batch_y) in enumerate(loader):
            # training
            print("steop:{}, batch_x:{}, batch_y:{}".format(step, batch_x, batch_y))

if __name__ == '__main__':
    show_batch()

对应的输出为：


tensor([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11.])
tensor([11., 10.,  9.,  8.,  7.,  6.,  5.,  4.,  3.,  2.,  1.])
steop:0, batch_x:tensor([ 9.,  2.,  7.,  4., 11.]), batch_y:tensor([ 3., 10.,  5.,  8.,  1.])
steop:1, batch_x:tensor([ 3.,  5., 10.,  1.,  8.]), batch_y:tensor([ 9.,  7.,  2., 11.,  4.])
steop:0, batch_x:tensor([ 5., 11.,  6.,  1.,  2.]), batch_y:tensor([ 7.,  1.,  6., 11., 10.])
steop:1, batch_x:tensor([ 3.,  4., 10.,  8.,  9.]), batch_y:tensor([9., 8., 2., 4., 3.])
steop:0, batch_x:tensor([10.,  4.,  9.,  8.,  7.]), batch_y:tensor([2., 8., 3., 4., 5.])
steop:1, batch_x:tensor([ 6.,  1., 11.,  2.,  5.]), batch_y:tensor([ 6., 11.,  1., 10.,  7.])

Process finished with exit code 0

Original: https://blog.csdn.net/qq_36044523/article/details/118914223
Author: 进击的程小白
Title: PyTorch之torch.utils.data.DataLoader详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/518305/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

点云配准（三）传统点云配准算法概述

一.点云配准介绍 1.点云配准的概念图像配准是图像处理研究领域中的一个典型问题和技术难点，其目的在于比较或融合针对同一对象在不同条件下获取的图像，例如图像会来自不同的采集设备，取…

人工智能 2023年5月26日
00168
毕设题目：Matlab语音识别

1 案例背景随着计算机技术的快速发展,语音交互已经成为了一种十分重要的人机交互手段。而语音识别的准确性和语音合成的音质在很大程度上受到语音特征参数准确性的影响,因此对语音特征参数进…

人工智能 2023年5月25日
00109
基于Python的超市管理系统毕业设计源码111042

随着互联网趋势的到来，各行各业都在考虑利用互联网将自己推广出去，最好方式就是建立自己的互联网系统，并对其进行维护和管理。在现实运用中，应用软件的工作规则和开发步骤，采用python…

人工智能 2023年7月30日
0045
GIMP 基本教程（1）

GIMP 是开源PhotoShop的替代品，目前 Photoshop 只支持 Windows、Mac 平台，不便于其他平台的用户使用。而 GIMP 就不一样了，GIMP 是一个跨…

人工智能 2023年6月22日
0069
R语言summary.lm信息进一步挖掘

废话不多说，直接上例子（由于summary出来的结果是有截断的，以下比较会有一定误差，要精确的话可以自己从model里面取出相应系数） `r data(“faithfu…

人工智能 2023年6月17日
0063
Ubuntu18.04安装安装ROS2-Dashing

1、设置UTF-8编码 sudo locale-gen en_US en_US.UTF-8 sudo update-locale LC_ALL=en_US.UTF-8 LANG=e…

人工智能 2023年6月10日
0056
【文献阅读】ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information

Abstract 最近的中文预训练模型忽略了中文特有的两个重要方面：字形和拼音，它们携带重要的句法和语义信息，用于语言理解我们提出了 ChineseBERT，它将汉字的字形和拼音…

人工智能 2023年5月30日
0085
数字图像相关（Digital Image Correlation, DIC）中的非线性优化方法（FA-GN与IC-GN）

目录前言内容回顾一. 非线性优化数学模型二. 前向累加高斯-牛顿法——FA-GN（Forward Additive Gauss-Newton method）三. 逆合成高…

人工智能 2023年5月26日
0064
pandas—添加新列的常见方法

pandas为DataFrame格式数据添加新列的方法非常简单，只需要新建一个列索引，再为其赋值即可。以下总结了5种常见添加新列的方法。首先，创建一个DataFrame结构数据，…

人工智能 2023年7月6日
0083
实习踩过的那些坑1：数据抽取

python表格数据预处理检验常用表操作 * 信息读取表备份创建操作 – 遍历每一行增加一行创建空列赋值 – 给某列满足条件的行赋值一列拆成…

人工智能 2023年6月29日
0075
神经网络的学习（一）

大家好，这段时间，我在跟着一个老师学习深度学习，但是把，那么多人，就我一个大一的，什么都不会。之后，老师让我学习python和神经网络算法。像这样的就叫做神经网络算法。我是零…

人工智能 2023年7月14日
0060
cv2.add()和cv2.addWeighted()简要介绍

定义 cv2.add(X,Y) cv2.addWeighted(X,a,Y,y,b) 用法使用cv2.add(X,Y)是一种饱和操作，不同于numpy的加法（res = img1…

人工智能 2023年7月20日
0046
数据分析一、 pandas库基础知识

pandas库基础知识一、jupyter 代码编辑器概述：Python 数据分析库介绍二、pandas 库基础知识 * （1）常用的Series属性与方法：（2） Data…

人工智能 2023年7月6日
0071
数据分析案例（口罩厂亏损）—-明确目的

数据分析前需了解的基础知识 1.jupyter代码编辑器2.pandas库基础知识3.数据分析流程 pandas库 pandas库是一个专门用来解决数据分析问题的库，其有两大优点1…

人工智能 2023年7月8日
0083
columns pandas 修改_Pandas 3：如何修改columns的名称

DataFrame有一个重要的属性——columns，也就是数据集的列名。先前提到过，我们可以在导入数据的时候设置names参数，也可以在导入数据之后设置该数据集的columns属…

人工智能 2023年7月8日
00101
Datawhale开源组队学习 & 《机器学习》第五章神经网络【思维导图版】

第五章神经网络【思维导图】 ; 定义由具有适应性的”简单单元”组成的广泛并行互联的网络，它的组织能够模拟生物神经系统对真实世界物体所做的交互反应。 M…

人工智能 2023年7月14日
0066

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

PyTorch之torch.utils.data.DataLoader详解

大家都在看