在pytorch中使用自己的数据集，dataset的写法

2023年7月23日上午7:13 • 人工智能 • 阅读 57

文章目录

引入
方法
测试
总结

引入

在学习pytorch的过程中，用的一直都是教程中别人定义好从网上直接下载的数据集，不需要进行任何的处理，数据和标号都可以直接获取。但是，我想要进行自己的研究大多数情况需要我们自己收集数据并进行一些预处理在制作成数据集，然后通过pytorch读入后用来训练模型。这里记录的是一次对上万张验证码图片组成的数据集（标号是其名称）制作pytorch数据集的尝试。

部分数据如下：

大多数教程中并没有讲这些图片数据和标签是如何装载到torch中的，在分析了一个github项目https://github.com/braveryCHR/CNN_captcha 后我大概了解如何装载数据。

; 方法

如果我们需要利用pytorch装载数据以及标签，我们就必须自己写一个dataset类，该类要继承data.Dataset类，该类在torch.utils中，并实现该类的_getitem_和_len_方法。

示例：

为了实现将验证码分类，我们先定义label和字符互相转换的函数：

import os

import torch
from PIL import Image
from torch.utils import data
import numpy as np
from torch.utils.data import DataLoader
from torchvision import transforms as T

def StrToLabel(Str):

    label = []
    for i in range(0, charNumber):
        if '0'  Str[i]  '9':
            label.append(ord(Str[i]) - ord('0'))
        elif 'a'  Str[i]  'z':
            label.append(ord(Str[i]) - ord('a') + 10)
        else:
            label.append(ord(Str[i]) - ord('A') + 36)
    return label

def LabelToStr(Label):
    Str = ""
    for i in Label:
        if i  9:
            Str += chr(ord('0') + i)
        elif i  35:
            Str += chr(ord('a') + i - 10)
        else:
            Str += chr(ord('A') + i - 36)
    return Str

接下来是数据集合类的定义

class Captcha(data.Dataset):
    def __init__(self, root, train=True):
        self.imgPath = [os.path.join(root, img) for img in os.listdir(root)]
        self.transform = T.Compose([
            T.Resize((150, 30)),
            T.ToTensor(),
            T.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5])
        ])

    def __getitem__(self, index):
        img_path = self.imgPath[index]
        label = img_path.split('\\')[-1].split('.')[0]
        label_tensor = torch.Tensor(StrToLabel(label))
        data=Image.open(img_path)
        data = self.transform(data)
        return data, label_tensor

    def __len__(self):
        return len(self.imgPath)

在init中的transform是预处理的定义。

getitem方法用来返回读取的图片数据和该图片的参数，我们将图片文件名获取到并转换为tensor，再使用PIL模块中的Image.open()读取图片数据，之后通过预处理transform转为tensor对象，最后返回图片数据data和图片标签label_tensor就可以了。

len函数返回文件中图片的数量。

dataloader会根据len读取文件中所有图片，每次读取图片的方法就是getitem中定义的方法。

测试

我们来使用一下这个Capthca类，看看能否正确读取图片数据data以及其标号label

import os.path
import torch
import torchvision
from torch import nn, optim
import torch.nn.functional as F
from torch.utils.data import DataLoader
from torchvision import datasets, transforms

img_data = Captcha("./data/train/train", train=True)
trainDataLoader = DataLoader(img_data, batch_size=1,
                             shuffle=False, num_workers=4)

if __name__ == '__main__':

    it = trainDataLoader.__iter__()
    data, label = it.next()
    print(data)
    print(label)
    print(LabelToStr(int(x)for x in label.squeeze().tolist()))

由于在jupyter中运行该代码会报错所以我放上在pycharm上的运行结果：

总结

想要使用自己定义的数据集就必须实现一个dataset，使得dataloader知道如何获取数据以及标签。

Original: https://blog.csdn.net/weixin_46919419/article/details/123674117
Author: LiterMa
Title: 在pytorch中使用自己的数据集，dataset的写法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/710244/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

易景智慧驾考三维可视化系统方案－易景智能驾考系统

随着我国人民生活水平的提高，汽车出行已经成为人们生活中必不可少的一部分，而驾照则时驾车出行的前提。目前市场上的驾校机构众多，质量参差不齐，管理不规范，效率不高。如何提高服务质量，保…

人工智能 2023年6月4日
0082
Python pandas 将字典dict转化为DataFrame时需避免的坑

先上结论：以下是详细阐述。有这样一个字典 d = {‘a’:1, ‘b’:2, ‘c’:4} 如果直接使用 pd.DataFrame(data=d)，会出现以下的报错： Val…

人工智能 2023年7月6日
0089
OpenMV：18数字识别

Lenet是一种卷积神经网络，可以用来识别打印的、手写的数字我们之前就有讲到过利用 OpenMV的NCC模板匹配算法来进行数字识别，模板匹配需要我们实现保存需要匹配的数字或者字母…

人工智能 2023年5月23日
00106
Python哪个Excel库最好用？

作为人生苦短的 Python 程序员，该如何优雅地操作 Excel？其实Python提供的操作Excel的库有7个之多，到底哪个更好使用更加方便呢？首先让我们来整体把握下不同库的特…

人工智能 2023年6月26日
0090
ssm+Vue计算机毕业设计校园疫情管理系统（程序+LW文档）

ssm+Vue计算机毕业设计校园疫情管理系统（程序+LW文档）项目运行环境配置： Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX （Webstor…

人工智能 2023年7月30日
0062
tensorflow:Not creating XLA devices, tf_xla_enable_xla_devices not set

人工智能 2023年5月26日
00142
心情不好的时候，用 Python 画棵樱花树送给自己吧

最近发生了很多事情，工作不开心，爱情无果而终，身边的小伙伴陆陆续续离职。虽然都不是会一下子击垮自己的事情，但是积攒起来，还是会有突然感到疲惫和倦怠的时候，有一种不知道下一步要走向哪…

人工智能 2023年7月3日
0077
matlab智能算法之遗传算法

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月31日
0065
Diffusion模型详解

1 引言在上一篇《基于流的深度生成模型》中详解介绍了有关流的生成模型理论和方法。目前为止，基于GAN生成模型，基于VAE的生成模型，以及基于flow的生成模型它们都可以生成较高质…

人工智能 2023年6月23日
0053
目标检测概述

系列文章目录：第一章目标检测综述第二章基于候选区域的目标检测方法之R-CNN第三章基于候选区域的目标检测方法之Fast R-CNN第四章基于候选区域的目标检测方法之Fas…

人工智能 2023年7月10日
0077
信道的定义及分类

1信道的分类 1.1狭义信道的分类 1.1.1有线信道 1.1.2无线信道 1.1.3存储信道 1.2广义信道的分类 2信道的数学模型 2.1调制信道模型 2.2编码信道模型 1….

人工智能 2023年6月30日
00116
Spring学习第4篇：Spring 的依赖注入

大家家好，我是一名网络怪咖，北漂五年。相信大家和我一样，都有一个大厂梦，作为一名资深Java选手，深知Spring重要性，现在普遍都使用SpringBoot来开发，面试的时候Spr…

人工智能 2023年6月30日
0069
pandas ：案例详解 loc函数、iloc函数数据切片

pandas：数据切片 0 创建学习数据 1 直接切片 * 1.1 根据行切片 1.2 根据列切片 1.3 两种方法组合 2 loc切片 * 2.1 按照列提取数据 2.1 提取指…

人工智能 2023年7月8日
0055
MATLAB 在图像处理和机器视觉的应用举例01 – 官网培训视频笔记（上）– 图像分割和图像配准

前言：笔记：以下内容为Matlab的官网视频的笔记： 1课程大意： 2 图像处理的应用： 3 科学计算的基本流程：【案，Matlab的研究方法主要关注在算法的层面，但是，Mat…

人工智能 2023年6月22日
0087
Pandas 学习总结

目录一、数据结构 1、创建series 2、获取series以及切片 3、Series的基本属性 4、读取数据 5、DataFrame的基本属性 6、创建DataFrame 7、…

人工智能 2023年7月17日
0057
tensorflow-gpu无法调用GPU的解决办法

配置：i5 6300HQ显卡是GTX950M 之前用tensorflow整天检测都是说False，捣鼓了一天，总结分享一下。因为要使用pytorch，所以安装的cuda10.2（…

人工智能 2023年6月15日
0094

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

在pytorch中使用自己的数据集，dataset的写法

文章目录

大家都在看