使用Pytorch框架自己制作做数据集进行图像分类（一）

2023年7月23日下午5:46 • 人工智能 • 阅读 48

第一章：Pytorch制作自己的数据集实现图像分类

第一章： Pytorch框架制作自己的数据集实现图像分类
 第二章： Pytorch框架构建残差神经网络(ResNet)
第三章： Pytorch框架构建DenseNet神经网络

提示：本文代码，含有部分测试性输出语句，更改数据文件夹路径后可以直接跑通，文章末尾附全部代码

文章目录

第一章：Pytorch制作自己的数据集实现图像分类
前言
一、上网搜取相关照片作为数据
二、定义自己的数据类并读入图片数据
*
1.引入相关库
2.继承Dataset实现Mydataset子类
3.使用glob方法获取文件夹中所有图片路径
三、为图片制作标签，并划分训练集与测试集
*
1.利用自定义类Mydataset创建对象weather_dataset
2.为每张图片制作相应的标签
3.完善Mydataset类，将图片数据转换成Tensor，并展示部分图片与标签对应关系
4.划分数据集和测试集
总结
本文代码

前言

网上有很多直接利用已有数据集（如MNIST， CIFAR-10等），直接进行机器学习，图像分类的教程。但如何自己制作数据集，为图像制作相应标签等的教程较少。故写本文，分享一下自己利用Pytorch框架制作数据集的方法技巧。

开发环境：
Pycharm + Python 3.7.9
torch 1.10.2+cu102
torchvision 0.11.3+cu102

提示：以下是本篇文章正文内容

一、上网搜取相关照片作为数据

制作了三个文件夹，每个文件夹里面有十张图片，分别是关于云、雨、太阳，所有图片均来自百度图片。

这是cloud文件夹里面的内容，请注意图片命名格式

这是rain文件夹里面的内容，请注意图片命名格式

这是sun文件夹里面的内容，请注意图片命名格式

; 二、定义自己的数据类并读入图片数据

1.引入相关库

代码如下：

import glob
import torch
from torch.utils import data
from PIL import Image
import numpy as np
from torchvision import transforms
import matplotlib.pyplot as plt

2.继承Dataset实现Mydataset子类

代码如下：


class Mydataset(data.Dataset):

    def __init__(self, root):
        self.imgs_path = root

    def __getitem__(self, index):
        img_path = self.imgs_path[index]
        return img_path

    def __len__(self):
        return len(self.imgs_path)

init() 初始化方法，传入数据文件夹路径。
getitem() 切片方法，根据索引下标，获得相应的图片。
len() 计算长度方法，返回整个数据文件夹下所有文件的个数。

3.使用glob方法获取文件夹中所有图片路径

代码如下：


all_imgs_path = glob.glob(r'F:\weather\*\*.jpg')

for var in all_imgs_path:
    print(var)

上图为运行结果部分显示

三、为图片制作标签，并划分训练集与测试集

1.利用自定义类Mydataset创建对象weather_dataset

代码如下：


weather_dataset = Mydataset(all_imgs_path)
print(len(weather_dataset))
print(weather_dataset[12:15])
wheather_datalodaer = torch.utils.data.DataLoader(weather_dataset, batch_size=5)
print(next(iter(wheather_datalodaer)))

上图为运行结果

2.为每张图片制作相应的标签

代码如下：

species = ['cloud','sun','rain']
species_to_id = dict((c, i) for i, c in enumerate(species))
print(species_to_id)
id_to_species = dict((v, k) for k, v in species_to_id.items())
print(id_to_species)
all_labels = []

for img in all_imgs_path:

    for i, c in enumerate(species):
        if c in img:
            all_labels.append(i)
print(all_labels)

上图为运行结果

3.完善Mydataset类，将图片数据转换成Tensor，并展示部分图片与标签对应关系

代码如下：


transform = transforms.Compose([
                transforms.Resize((96,96)),
                transforms.ToTensor()
])

class Mydatasetpro(data.Dataset):

    def __init__(self, img_paths, labels, transform):
        self.imgs = img_paths
        self.labels = labels
        self.transforms = transform

    def __getitem__(self, index):
        img = self.imgs[index]
        label = self.labels[index]
        pil_img = Image.open(img)
        data = self.transforms(pil_img)
        return data, label

    def __len__(self):
        return len(self.imgs)

BATCH_SIZE = 10
weather_dataset = Mydatasetpro(all_imgs_path, all_labels, transform)
wheather_datalodaer = data.DataLoader(
                            weather_dataset,
                            batch_size=BATCH_SIZE,
                            shuffle=True
)

imgs_batch, labels_batch = next(iter(wheather_datalodaer))
print(imgs_batch.shape)

plt.figure(figsize=(12, 8))
for i, (img, label) in enumerate(zip(imgs_batch[:6], labels_batch[:6])):
    img = img.permute(1, 2, 0).numpy()
    plt.subplot(2, 3, i+1)
    plt.title(id_to_species.get(label.item()))
    plt.imshow(img)
plt.show()

上图为运行结果

4.划分数据集和测试集

代码如下：


index = np.random.permutation(len(all_imgs_path))

all_imgs_path = np.array(all_imgs_path)[index]
all_labels = np.array(all_labels)[index]

s = int(len(all_imgs_path)*0.8)
print(s)

train_imgs = all_imgs_path[:s]
train_labels = all_labels[:s]
test_imgs = all_imgs_path[s:]
test_labels = all_imgs_path[s:]

train_ds = Mydatasetpro(train_imgs, train_labels, transform)
test_ds = Mydatasetpro(test_imgs, test_labels, transform)
train_dl = data.DataLoader(train_ds, batch_size=BATCH_SIZE, shuffle=True)
test_dl = data.DataLoader(test_ds, batch_size=BATCH_SIZE, shuffle=True)

至此我们把原数据集的80%作为训练集得到了：
train_ds 训练集数据
test_ds 测试集数据
train_dl 训练集标签
test_dl 测试集标签

总结

整体思路
1.将自己所找图片按照一定的规则命名后，放到文件夹中。
2.使用glob方法获取所有数据文件路径
3.创建DataSet类的子类Mydataset，用于后续通过路径读入数据，并易于后续相应处理操作
4.通过Transforms.Compose()方法，对图片数据进行统一处理，并转换成Tensor格式
5.创建Mydatasetpro类，调用相关方法，获得{‘图片名’:标签}和{标签：’图片名’}字典
6.统计索引数量，按照百分比，划分出训练集和测试集
最后得到：训练集数据、测试集数据、训练集标签、测试集标签

本文代码

import glob
import torch
from torch.utils import data
from PIL import Image
import numpy as np
from torchvision import transforms
import matplotlib.pyplot as plt

class Mydataset(data.Dataset):

    def __init__(self, root):
        self.imgs_path = root

    def __getitem__(self, index):
        img_path = self.imgs_path[index]
        return img_path

    def __len__(self):
        return len(self.imgs_path)

all_imgs_path = glob.glob(r'F:\weather\*\*.jpg')

for var in all_imgs_path:
    print(var)

weather_dataset = Mydataset(all_imgs_path)
print(len(weather_dataset))
print(weather_dataset[12:14])
wheather_datalodaer = torch.utils.data.DataLoader(weather_dataset, batch_size=3)
print(next(iter(wheather_datalodaer)))

species = ['cloud','sun','rain']
species_to_id = dict((c, i) for i, c in enumerate(species))
print(species_to_id)
id_to_species = dict((v, k) for k, v in species_to_id.items())
print(id_to_species)
all_labels = []

for img in all_imgs_path:

    for i, c in enumerate(species):
        if c in img:
            all_labels.append(i)
print(all_labels)

transform = transforms.Compose([
                transforms.Resize((96,96)),
                transforms.ToTensor()
])

class Mydatasetpro(data.Dataset):

    def __init__(self, img_paths, labels, transform):
        self.imgs = img_paths
        self.labels = labels
        self.transforms = transform

    def __getitem__(self, index):
        img = self.imgs[index]
        label = self.labels[index]
        pil_img = Image.open(img)
        data = self.transforms(pil_img)
        return data, label

    def __len__(self):
        return len(self.imgs)

BATCH_SIZE = 10
weather_dataset = Mydatasetpro(all_imgs_path, all_labels, transform)
wheather_datalodaer = data.DataLoader(
                            weather_dataset,
                            batch_size=BATCH_SIZE,
                            shuffle=True
)

imgs_batch, labels_batch = next(iter(wheather_datalodaer))
print(imgs_batch.shape)

plt.figure(figsize=(12, 8))
for i, (img, label) in enumerate(zip(imgs_batch[:6], labels_batch[:6])):
    img = img.permute(1, 2, 0).numpy()
    plt.subplot(2, 3, i+1)
    plt.title(id_to_species.get(label.item()))
    plt.imshow(img)
plt.show()

index = np.random.permutation(len(all_imgs_path))

all_imgs_path = np.array(all_imgs_path)[index]
all_labels = np.array(all_labels)[index]

s = int(len(all_imgs_path)*0.8)
print(s)

train_imgs = all_imgs_path[:s]
train_labels = all_labels[:s]
test_imgs = all_imgs_path[s:]
test_labels = all_labels[s:]

train_ds = Mydatasetpro(train_imgs, train_labels, transform)
test_ds = Mydatasetpro(test_imgs, test_labels, transform)
train_dl = data.DataLoader(train_ds, batch_size=BATCH_SIZE, shuffle=True)
test_dl = data.DataLoader(train_ds, batch_size=BATCH_SIZE, shuffle=True)

Original: https://blog.csdn.net/zwy_697198/article/details/123561769
Author: 张_哈哈
Title: 使用Pytorch框架自己制作做数据集进行图像分类（一）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/711037/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

AArch64编译安装特定GPU版本TensorFlow及Bazel

前排提示：如果使用的 cuDNN 版本高于 7，会无法编译安装带 CUDA 支持的 TensorFlow 1 版本。本文基于 Jetson TX2。 ALBERT 的 requi…

人工智能 2023年5月25日
00167
从YOLOv5源码loss.py详细介绍Yolov5的损失函数

深度学习笔记:从YOLOv5源码loss.py详细介绍Yolov5的损失函数前言 class ComputeLoss主要代码分析 * 1 __init__函数 2 build_t…

人工智能 2023年6月16日
0095
机器学习——逻辑回归算法

一、分类问题（Classification ）在分类问题中，当要预测的变量 𝑦 是离散的值，我们将学习一种叫做逻辑回归 (Logistic Regression) 的算法，这是目…

人工智能 2023年6月18日
0095
天天在做的数据可视化，才是企业数字化转型的关键

在疫情期间，数字化时代加速到来，大多数企业还没有完全准备好数字化转型，就已经被甩到了身后。随着数字经济成为社会经济中心中的一环，数据已经变成了事实上的社会组成元素。借助大量数据，…

人工智能 2023年6月11日
00147
基于Pytorch的cifar-10图像分类问题代码实现

之前在学习深度学习图片分类任务的时候，跟着老师的讲解实现了一个Cifair-10的图像分类任务。数据集地址：网盘地址需要解码。数据有50000张训练图片和10000张测试图片。下…

人工智能 2023年6月20日
0078
10快速入门Query函数使用的Pandas的查询示例

pandas.的query函数为我们提供了一种编写查询过滤条件更简单的方法，特别是在的查询条件很多的时候，在本文中整理了10个示例，掌握着10个实例你就可以轻松的使用query函数…

人工智能 2023年7月6日
0078
机器学习推荐算法之关联规则（Apriori）——支持度；置信度；提升度

目录 🍎走进关联规则 🍊什么是关联规则？ 🍒关联规则的分类 🍉关联规则的基本概念置信度的局限——错估某个关联规则的重要性提升度和零事务的关系先验原则实际案例代码实战频繁…

人工智能 2023年6月12日
00117
CSDN独家|全网首发|Pytorch深度学习·理论篇(2023版)目录

很高兴和大家在这里分享我的最新专栏 Pytorch深度学习·理论篇(2023版)，恭喜本博客浏览量达到两百万，CSDN内容合伙人，CSDN人工智能领域实力新星~ 0 Pytorch…

人工智能 2023年7月24日
0047
计算机视觉中的编码-解码器结构总结（持续更新）

文章目录 NLP领域的编码解码器结构机器学习中的编码器 * 自动编码器视觉领域中的编码解码器结构编码器-解码器结构：编码器原始输入信号转化为中间格式，然后解码器将中间格式转化…

人工智能 2023年6月24日
00188
机器学习-分类聚类预测系统

这是机器学习课程的一个课设,具体的课设要求如下: 1.熟悉机器学习的完整流程，包括：问题建模，获取数据，特征工程，模型训练，模型调优，线上运行；或者分为三大块：数据准备与预处理，模…

人工智能 2023年5月31日
0095
灰色预测模型

目录一、什么是灰色预测二、灰色预测建模流程图三、建模步骤四、代码实现（python）一、什么是灰色预测灰色系统是指系统数据有一些是未知，有一些是已知。白色系统是全都已知…

人工智能 2023年6月24日
0072
【5】目标检测之YOLO v2

这里写目录标题相较于YOLOv1的改进 * Batch Normalization 批标准化 High Resolution Classifier 高分辨率的分类器 Dimens…

人工智能 2023年7月10日
0046
关于Python库已安装，在pycharm中却显示“No module named ‘___ ‘ ”的解决措施

一、Python库的安装安装库的方式有两种，一种在pycharm的Python解释器中添加软件包。另一种则是广泛应用的PIP安装。 Win+R -> cmd -> &…

人工智能 2023年7月4日
0067
为什么网络安全缺口很大，而招聘却很少？

2020年我国网络空间安全人才数量缺口超过了140万，就业人数却只有10多万，缺口高达了93%。这里就有人会问了： 1、网络安全行业为什么这么缺人？ 2、明明人才那么稀缺，为什么招…

人工智能 2023年7月19日
0060
程序员最浪漫的表白方式，将情书写在她的照片里，Python简直太厉害啦~

人生苦短，我用Python 序言实现步骤 * – 1、准备工作 2、Pillow 介绍 3、实战演练序言这不光棍节快到了，表弟准备写一封情书给他的女神，想在光棍节…

人工智能 2023年6月26日
0081
多视图聚类（+incomplete multi view cluster)

1.A study of graph-based system for multi-view clustering 2.Consistency Meets Inconsistenc…

人工智能 2023年5月31日
0088

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

使用Pytorch框架自己制作做数据集进行图像分类（一）

文章目录

1.引入相关库

2.继承Dataset实现Mydataset子类

3.使用glob方法获取文件夹中所有图片路径

1.利用自定义类Mydataset创建对象weather_dataset

2.为每张图片制作相应的标签

3.完善Mydataset类，将图片数据转换成Tensor，并展示部分图片与标签对应关系

4.划分数据集和测试集

大家都在看