用开源代码跑自己的数据集：修改dataloader

2023年7月23日下午3:25 • 人工智能 • 阅读 56

论文需要跑网络对比实验。那么如何用 Github 上的代码（或者其他开源代码） 跑我们需要它跑的数据集呢？

下文将简要介绍与 PyTorch 框架的 dataloader 的相关知识。
首先引用 PyTorch 中文教程中关于 Dataset 抽象类的介绍和 Dataloader 的介绍：

我们在做深度学习训练时，首先要做的是做一个 数据集类，它可能需要完成 自动打乱数据、 数据处理、 批量提供 batchsize 数据等功能。 PyTorch 在 torch.utils.data 中提供了 Dataset 的 抽象类，用于构建一个数据集类，可以对数据批量处理，可以构建一个数据集索引，PyTorch中的以方便批量训练数据时，方便调取。
数据集创建完成后，我们 可以对数据进行索引，但是 还是无法实现批量获取数据，这时，我们就用到 DataLoader 去加载数据做一个数据加载器。

The DataLoader combines the dataset and a sampler, returning an iterable over the dataset.

它指出了 DataLoader 本质上是一个 迭代器，而且同时由 dataset 和 sampler 组成。一语道破，妙不可言。

上文中关于 “数据加载器” 的概念，同时出现 dataloader 和 Dataloader。因为后者是 PyTorch 提供的。通常使用的时候，我们对 Dataloader 的参数赋值，然后将 Dataloader 赋值给一个 自己命名的 dataloader。如下所示：

train_loader = DataLoader(dataset = my_dataset,
                          batch_size = 32,
                          shuffle = True,
                          num_workers = 2)

下面的代码 ex1，我专门把 from torch.utils.data import Dataset 与 from torch.utils.data import DataLoader 写出来了，

为什么？

因为在写自己的类 MyDataset 的时候，类 MyDataset 要继承 PyTorch 的抽象类 Dataset。

另外，也用到了 PyTorch 的 DataLoader 来得到参数 batch_size 等赋值后的我们自己的 train_loader 。


from torch.utils.data import Dataset
from torch.utils.data import DataLoader

class MyDataset(Dataset):

    def __init__(self):

    def __getitem__(self,index)
        return

    def __len__(self):
        return

my_dataset = MyDataset()
train_loader = DataLoader(dataset = my_dataset,
                          batch_size = 32,
                          shuffle = True,
                          num_workers = 2)

ex2 这个代码的背景是要解决分类问题， 代码数据的来源是 data.csv。当然在 init 函数中， 还可以有其他一些代码，根据实际需求。比如假设场景是图像识别，那么在 init 函数中可能会有例如 ex3 的一段代码：


class MyDataset(Dataset):

    def __init__(self):
    xy = np.loadtxt('data.csv',delimiter=',',dtype=np.float32)
    self.len = xy.shape[0]
    self.data_input= torch.from_numpy(xy[:, 0:-1])
    self.label= torch.from_numpy(xy[:,[-1]])

    def __getitem__(self,index)
        return self.data_input[index], self.label[index]

    def __len__(self):
        return self.len


from torchvision import transforms as T
class MyDataset(Dataset):

    def __init__(self):
        上文代码省略
        transform = T.Compose([
            T.Resize(112,112),
            T.ToTensor(),
            T.Normalize(mean=[0.5], std=[0.5])
        ])

    def __getitem__(self,index)
        return

    def __len__(self):
        return


for step, data in enumerate(train_loader):
    data_input, label = data


for epoch in range(max_epoch):

    model.train()
    for step, data in enumerate(train_loader):
        data_input, label = data

本文得到了该视频的启发，该视频作者信息如下：
PyTorch Zero To All Lecture by Sung Kim hunkim+ml@gmail.com at HKUST
Code: https://github.com/hunkim/PyTorchZero…

Slides: http://bit.ly/PyTorchZeroAll
* PyTorch 中文教程：构建自己的数据集

Original: https://blog.csdn.net/OrdinaryMatthew/article/details/123182727
Author: 培之
Title: 用开源代码跑自己的数据集：修改dataloader

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/710800/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

第七讲多元线性回归分析

简介回归的目的是通过研究自变量X与因变量Y之间的相互关系识别重要的变量，剔除次要的变量，即逐步回归的思想判断相关性的方向，正还是负估计变量的权重，即回归系数 *在x=x0处…

人工智能 2023年6月18日
00107
Python-中北大学人工智能OpenCV人脸识别（根据图片训练数据，根据训练好的数据识别人脸）

文章目录 1. 根据训练照片训练数据模型 2. 根据训练的数据文件，进行人脸识别根据训练照片训练数据模型训练流程：读取文件夹下的所有文件，使用PIL 库中的Image方法打开…

人工智能 2023年7月26日
0059
R语言使用＜-操作符创建新的变量、使用两个数据列通过加和创建新的数据列（sum variables to make new featurs in dataframe）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月18日
0058
Python图像处理丨图像缩放、旋转、翻转与图像平移

摘要：本篇文章主要讲解Python调用OpenCV实现图像位移操作、旋转和翻转效果，包括四部分知识：图像缩放、图像旋转、图像翻转、图像平移。本文分享自华为云社区《[Python图…

人工智能 2023年7月5日
0078
数据库概论之MySQL表的增删改查 – 进阶版本1

MySQL表的增删改查 – 进阶2 3、新增(plus) * 3.1 语法 3.2 实例 3.3 注意事项 4、查询(plus) * 4.1 聚合查询 – …

人工智能 2023年7月30日
0066
微信支付服务商，可视化进件特约商户

服务商拓展特约商户（子商户），可能出现如下问题： 1、人工录入大量商户资料，耗时耗力。 2、商户对标准费率不满意，无法说服商户先签约再帮其调整费率。针对以上问题，微信支付面向服务…

人工智能 2023年6月29日
0096
人工智能、机器学习、深度学习和神经网络的关系

人工智能、机器学习、深度学习和神经网络的关系人工智能（Artificial Intelligence）人工智能（Artificial Intelligence），英文缩写为AI…

人工智能 2023年7月27日
0078
机器学习–单细胞聚类(一)

首先，先上一篇综述。有道翻译的，所以有的话可能读起来有些奇怪。关于单细胞聚类和单细胞聚类所面临的挑战 Challenges in unsupervised clustering …

人工智能 2023年5月31日
0098
python/numpy-求取最大值、最小值以及求最大最小值的索引-max，np.max，np.amax，np.nanmax，np.fmax，np.maximum

零、前言提要一、参考来源和基础知识小结二、求取容器中的最大值、最小值 2.1 python内置的max()函数 2.2 numpy模块的np.max函数（同np.amax）、n…

人工智能 2023年7月6日
0081
numpy中的concatenate和pandas中的concat函数

concatenate功能：数组拼接concat功能：数组拼接 1、numpy.concatenate() numpy.concatenate((a1, a2, …),…

人工智能 2023年7月7日
0049
BERTopic：NLP主题模型的未来！

文| ZenMoore编| 小轶以前我一直以为，主题建模(提取文档的主题词)这种机器学习时代就开始研究的基础工具，现在肯定已经到头了，虽然…有时效果可能不是那么让人满…

人工智能 2023年6月15日
00109
OSPF高级配置

路由器高级 _配置_命令………………………………

人工智能 2023年6月29日
0079
HTML小游戏4 —— 简易版英雄联盟（附完整源码）

💂 网站推荐:【神级源码资源网】【摸鱼小游戏】 🤟 风趣幽默的前端学习课程：👉28个案例趣学前端 💅 想寻找共同学习交流、摸鱼划水的小伙伴，请点击【摸鱼学习交流群】 *💬 免…

人工智能 2023年6月19日
0096
java-net-php-python-net本科生毕业设计选导师系统演示录像2019计算机毕业设计程序

本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：idea eclipse 前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAV…

人工智能 2023年6月30日
0078
为什么要做数仓分层，不做行吗？

来源：数据社作者：数据一哥编辑：数据一哥全文共1404个字，建议阅读 4分钟大家好，我是一哥。今天跟大家聊一聊数仓为什么分层？ 01 经典的数仓分层首先跟大家聊一个经典…

人工智能 2023年6月11日
0070
TransD 论文笔记

Knowledge Graph Embedding via Dynamic Mapping Matrix – Abstract – Background &…

人工智能 2023年6月1日
0069

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

用开源代码跑自己的数据集：修改dataloader

为什么？

因为在写自己的类 MyDataset 的时候，类 MyDataset 要继承 PyTorch 的抽象类 Dataset。

另外，也用到了 PyTorch 的 DataLoader 来得到参数 batch_size 等赋值后的我们自己的 train_loader 。

大家都在看