【Pytorch学习笔记】11.取Dataset的子集、给Dataset打乱顺序的方法（使用Subset、random_split）

2023年7月22日上午11:28 • 人工智能 • 阅读 61

（pytorch版本：1.2）

文章目录

*
– Dataset取子集、拆分
–
+ 打乱Dataset内数据的顺序
– 随机拆分Dataset

我们在使用Dataset定义好数据集后，在处理数据集时经常会碰到这些问题：如何把Dataset拆分成两个子集（如用于指定训练集和测试集、k折交叉验证等）？如何进行随机拆分？如何打乱一个Dataset内数据的顺序？

Dataset取子集、拆分

使用 torch.utils.data.Subset() 可对数据集取子集。

【Pytorch学习笔记】11.取Dataset的子集、给Dataset打乱顺序的方法（使用Subset、random_split）

传入一个Dataset，一个序列切片indices，即可得到一个子集。

1.我们可以传入一个range()：

indices = range(18353)
sub_imgs = torch.utils.data.Subset(imgs, indices)
len(imgs), len(sub_imgs)

2.可以取区间：

indices = range(18353, 27153)
sub_imgs = torch.utils.data.Subset(imgs, indices)
len(imgs), len(sub_imgs)

3.可以传入一个List。有List就可以用列表生成式：

indices = [x for x in range(1234)]
sub_imgs = torch.utils.data.Subset(imgs, indices)
len(imgs), len(sub_imgs)

打乱Dataset内数据的顺序

我们可以直接传入一个乱序的index就可以达到数据集乱序的目的：

from torch import randperm
lenth = randperm(len(Leaf_dataset_train)).tolist()
rand_train = torch.utils.data.Subset(imgs, lenth)

X = rand_train[0]
plt.imshow(torch.transpose(X[0],0,2)), lenth[0]

我们在打乱顺序后就可以取子集对数据集进行k折交叉验证等行为。

随机拆分Dataset

使用 torch.utils.data.random_split() 可直接对数据集进行拆分，随机分成多份。

可以传入一个List，注意传入的List序列中包含每个子集的大小（数量），且这几个数的和必须等于传入Dataset的长度。
示例：


train_set, test_set = torch.utils.data.random_split(Leaf_dataset_train, [17000, 1353])
print(len(train_set), len(test_set))

Original: https://blog.csdn.net/takedachia/article/details/125866456
Author: takedachia
Title: 【Pytorch学习笔记】11.取Dataset的子集、给Dataset打乱顺序的方法（使用Subset、random_split）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/708933/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

软件智能：aaas系统的AI众生-一个脑力原型

1、问题的提出今天在整理大纲视图、概观总表以及连接二者的标示图解时，涉及到和神经系统有关的一组技术名词，它们是：BP网络、CMAC和CSTR。有关它们的名词解释，可以很简…

人工智能 2023年6月1日
0077
第2章：知识表示–实践：Protégé本体构建

实践：Protégé本体构建知识建模本体本体（Ontology）：领域共享知识的描述方式，是语义Web、语义搜索、知识工程和很多人工智能应用的基础。 ; 知识建模方法知识图谱…

人工智能 2023年6月1日
0096
Dlib库实现人脸关键点检测（Opencv实现）

文章目录 * – 1.dlib实现人脸实时检测 – 2.dlib采用检测人脸的68个关键点 – 3.相关文件的下载 – 4.代码实战…

人工智能 2023年7月19日
0060
ERROR: Could not build wheels for opencv-python which use PEP 517 and cannot be installed directly

pip install –upgrade -r requirements.txt -i https://mirror.baidu.com/pypi/simpleLook…

人工智能 2023年6月24日
0048
《机器学习实战：基于Scikit-Learn、Keras和TensorFlow第2版》-学习笔记（6）：决策树

· Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition, by Auré…

人工智能 2023年5月26日
0089
【双目视觉】 SGBM算法应用（Python版）

文章目录 * – 流程图 – 相机标定 – 立体匹配 – 效果 – + 1.原图像 + 2.深度图 + 3.代码链接流…

人工智能 2023年7月4日
0061
集群报错 /lib64/libstdc++.so.6: version `GLIBCXX_3.4.29‘ not found

集群报错：ImportError: /lib64/libstdc++.so.6: version GLIBCXX_3.4.29' not found</p> …

人工智能 2023年6月16日
0077
数据预处理

数据预处理数据预处理 * 1.非数值型数据处理 – 1.1Get_dummies哑变量处理 1.2LabelEncoding编号处理 2.重复值、缺失值及异常值处理 …

人工智能 2023年7月7日
0062
关于图像预处理和halcon-OCR训练与识别经验分享

halcon-OCR 训练与识别小经验。 halcon的OCR训练与识别主要的算子就只有几个，但是在做的过程还是会遇到一些问题，刚好最近学习这个，在阅读了大量的经验贴和看了许多的视…

人工智能 2023年6月22日
0084
AlexNet模型及代码详解

Alex在2012年提出的alexnet网络结构模型引爆了神经网络的应用热潮，并赢得了2012届图像识别大赛的冠军，使得CNN成为在图像分类上的核心算法模型。该网络的亮点在于：（…

人工智能 2023年6月23日
00225
pandas包安装教程

pandas是数据科学中常用的Python包。最近更新时间：2023.3.3 2.1 xlsx后缀的Excel文件入参：文件名 skiprows=[1,2]：跳过索引为1、2…

人工智能 2023年5月25日
0077
《MATLAB 神经网络43个案例分析》：第14章基于SVM的数据分类预测——意大利葡萄酒种类识别

《MATLAB 神经网络43个案例分析》：第14章基于SVM的数据分类预测——意大利葡萄酒种类识别 1. 前言 2. MATLAB 仿真示例 3. 小结 ; 1. 前言《MAT…

人工智能 2023年7月1日
0073
[Raspberry Pi] Raspberry Pi 4配置OpenCV4.6.0和ncnn环境(32-bit operation system)

本教程参考如下几篇文章 1 调整GPU Memory 树莓派默认的GPU Memory大小有点小，需要手动增大。找到树莓派左下角和win类似的按钮->Preferences…

人工智能 2023年7月19日
0055
数据分析工具Pandas

.Pandas的数据结构分析 Series :类似一维数组的对象，它能够保存任何类型的数据，主要由一组数据和与之相关的索引两部分构成。构造方法创建：class pandas.Se…

人工智能 2023年7月7日
0055
halcon图像拼接(2行5列)，例程详解

参考例程mosaicking.hdev 原理简要说明：要进行图像拼接，就要求所拍摄图像中有重叠区域，即交集，在这个基础上，才能通过算法找到两张图像的共性特征，此处利用的特征正是图像…

人工智能 2023年5月26日
0089
TF-GNN踩坑记录(三)

在Tensorflow-GNN中使用batch size除了需要注意上面的链接问题之外，最近我在调试的发现，使用了merge_batch_to_components() 之后，使用…

人工智能 2023年6月4日
0073

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【Pytorch学习笔记】11.取Dataset的子集、给Dataset打乱顺序的方法（使用Subset、random_split）

文章目录

Dataset取子集、拆分

打乱Dataset内数据的顺序

随机拆分Dataset

大家都在看