pytorch 的 DataLoader中的shuffer与随机种子

2023年7月13日下午10:05 • 人工智能 • 阅读 67

好多博客都只说简单shuffer与随机种子，没有说清楚他们具体作用，这次我来具体说说。
DataLoader用于加载数据到模型中
在pytorch 中的数据加载到模型的操作顺序是这样的：

① 创建一个 Dataset 对象（自己去实现以下这个类，内部使用yeild返回一组数据数据）
② 创建一个 DataLoader 对象
③ 循环这个 DataLoader 对象，将img, label加载到模型中进行训练

DataLoader中的shuffer=False表示不打乱数据的顺序，然后以batch为单位从头到尾按顺序取用数据。

DataLoader中的shuffer=Ture表示在 每一次epoch中都打乱所有数据的顺序，然后以batch为单位从头到尾按顺序取用数据。这样的结果就是不同epoch中的数据都是乱序的。

在训练网络时，同样的结构与数据，但是训练后结果每次都不同，有时结果相差还很大，这就很苦恼，复现不了以前的结果，这除了和模型的参数随机初始化有关，还有一点点原因是因为你这一次训练是与你上一次训练的数据乱得不一样。

设置随机种子的作用就是让你的 每一次训练都乱的一样，即可以让你在 单次训练内部数据保持乱序但不同训练之间都是一样的乱序。
有图有真相，下面请看：

代码部分参考自：简单测试一下pytorch dataloader里的shuffle=True是如何工作的

import numpy as np
from torch.utils.data import TensorDataset, DataLoader, Dataset
import torch

class DealDataset(Dataset):
    def __init__(self):
        xy = np.loadtxt(open('./5555.csv', 'rb'), delimiter=',', dtype=np.float32)

        self.x_data = torch.from_numpy(xy[:, 0:-1])
        self.y_data = torch.from_numpy(xy[:, [-1]])
        self.len = xy.shape[0]

    def __getitem__(self, index):
        return self.x_data[index], self.y_data[index]

    def __len__(self):
        return self.len

dealDataset = DealDataset()

这是建的一些简单的数据，用于loder:

设置 shuffle=False

train_loader2 = DataLoader(dataset=dealDataset,
                           batch_size=2,
                           shuffle=False)
for epoch in range(3):
    for i, data in enumerate(train_loader2):
        inputs, labels = data

        print(inputs)

    print("----------epoch分割线-----------------------")

结果：

设置 shuffle=Ture

; 设置 shuffle=Ture 并设置随机种子

train_loader2 = DataLoader(dataset=dealDataset,
                           batch_size=2,
                           shuffle=True)

seed=10
torch.manual_seed(seed)

for epoch in range(3):
    for i, data in enumerate(train_loader2):
        inputs, labels = data

        print(inputs)

    print("----------epoch分割线-----------------------")

另外，参考自别的博客，使用下面的代码应该就可以在每一次训练时固定住模型的一些随机的东西了吧（事实上，我使用了下面的代码以后，实验结果依旧不稳定）：

if args.seed is not None:    　　
    random.seed(args.seed)
    torch.manual_seed(args.seed)
    torch.cuda.manual_seed(args.seed)
    torch.backends.cudnn.deterministic = True

Original: https://blog.csdn.net/qq_44901346/article/details/115770988
Author: 我不是薛定谔的猫
Title: pytorch 的 DataLoader中的shuffer与随机种子

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/690704/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

常用的高光谱遥感影像数据集（详细介绍+下载链接）

常用的高光谱遥感影像数据集前言数据集 * Indian Pines Salinas Pavia Centre and University – Pavia Cent…

人工智能 2023年7月16日
0075
SiamFC代码分析(architecture、training、test)

文章目录 1、architecture * 1.1 特征提取网络 1.2 互相关层 2、training * 2.1 图像预处理 2.2 加载训练数据、标签及损失函数 2.3 优化…

人工智能 2023年5月26日
0066
复旦nlp实验室 nlp-beginner 任务一：基于机器学习的文本分类

实现基于logistic/softmax regression的文本分类参考文本分类《神经网络与深度学习》第2/3章数据集：Classify the sentiment …

人工智能 2023年5月28日
00127
如何优雅的抢占别人的显卡？

人工智能 2023年5月26日
0093
【OpenCV学习】（七）图像滤波

【OpenCV学习】（七）图像滤波背景图像滤波的作用简单来说就是将一副图像通过滤波器得到另一幅图像；明确一个概念，滤波器又被称为卷积核，滤波的过程又被称为卷积；实际上深度学习就…

人工智能 2023年6月22日
0054
python DataFrame的stack()方法，unstack()方法，pivot()方法

文章目录 1.stack() 2. unstack() 3. pivot() ; 1.stack() stack()用于将列索引转换为最内层的行索引，这样叙述比较抽象，看示例就容易…

人工智能 2023年7月16日
0098
海康工业相机SDK + OpenCV实例(4)：相机参数设置详解

海康SDK提供一系列参数设置的接口，本节主要讲解几个万能接口的使用，例如 MV_CC_SetIntValue、 MV_CC_SetFloatValue、MV_CC_SetBoolV…

人工智能 2023年5月26日
00161
GMSL 介绍

一、GMSL是什么？ GMSL–Gigabit Multimedia Serial Link (中文译为：吉比特多媒体串行链路)，整个传输线路包含串行器和解串器(Se…

人工智能 2023年6月10日
0097
多目标跟踪（MOT）数据集资源整理分享

我们已经生活在一个被摄像头和视频包围的世界里，从手机、汽车、无人机到各类监控设备，随处可见摄像头的”身影”。据前瞻产业研究院2020年的报告分析，预计到20…

人工智能 2023年5月26日
0085
R语言使用＜-操作符创建新的变量、使用两个数据列通过加和创建新的数据列（sum variables to make new featurs in dataframe）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月18日
0054
知识图谱：知识表示学习（KRL）/知识嵌入（KE）必读论文

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月1日
0060
第九章内置模块

目录第九章内置模块 1.math模块 1.查看： 2.常用方法： 2.random模块 1.查看： 2.例： 3.random(a,b) 4.random.sample(ra…

人工智能 2023年6月27日
0066
目标检测笔记

目标检测算法的分类两步走先找出候选区域再对候选区域进行调整、分类代表：R-CNN 一步走（端对端采用一个网络一步到位 yolo, SSD 目标检测不仅需要输出分类结果还要…

人工智能 2023年7月10日
0064
R语言使用subset函数基于组合逻辑筛选dataframe符合条件的数据行（select observations）、并指定需要保留的dataframe数据列或者字段

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月17日
0052
使用机器学习算法实现单细胞测序数据的降维和聚类（二）

本篇主要记录一下几种常用的聚类算法使用的参考代码和数据集还是(一)里面的1.K-Means算法思想大致为：先从样本集中随机选取 k个样本作为簇中心，并计算所有样本与这 k个&#82…

人工智能 2023年6月2日
0075
【八天学好Linux】第八天 Linux的文件权限与网络管理

目录一、Linux的文件系统权限二、管理Linux的联网三、管理Linux软件包和进程一、Linux的文件系统权限（一）思维导图（二）实验练习设置权限，要求如下：（…

人工智能 2023年6月27日
0068

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

pytorch 的 DataLoader中的shuffer与随机种子

设置 shuffle=False

设置 shuffle=Ture

; 设置 shuffle=Ture 并设置随机种子

大家都在看