Pytorch框架训练时的数据预处理、数据集以及导入、加载数据

2023年7月23日上午12:34 • 人工智能 • 阅读 70

前言

目前刚刚接触深度学习方向，也在学习pytorch框架。本文是我在尝试相关网络的pytorch框架时遇到的一些问题以及认为有必要总结一下的内容。

此内容主要参考了以下博客：https://blog.csdn.net/m0_37867091/article/details/107150142

数据预处理

在网络开始训练之前，为了使训练更好的进行，我们需要对训练进行一些预处理操作。在pytorch中是由torchvision.transforms来操作的，torchvision.transforms中包含了一些常见的操作。以下是目前见到常用的几种：

transforms.Compose可以用来将多种操作集合到一起，打包了多个图片处理的方法，如：

transforms.Compose([
transforms.CenterCrop(10),
transforms.ToTensor(),
])

transforms.ToTensor() 将 shape为 (H, W, C)的 nump.ndarray或 img转为 shape为 (C, H, W)的 tensor，其将每一个数值归一化到 [0,1]，其归一化方法比较简单，直接除以255即可。

transforms.Normalize()其作用就是先将输入归一化到 (0,1)，再使用公式 "(x-mean)/std"，将每个元素分布到 (-1,1)。

torchvision是pytorch的一个图形库，它服务于PyTorch 深度学习框架的。其构成如下：
torchvision.datasets: 一些加载数据的函数及常用的数据集接口；
torchvision.models: 包含常用的模型结构（含预训练模型），例如AlexNet、VGG、ResNet等；
torchvision.transforms: 常用的图片变换，例如裁剪、旋转等；
torchvision.utils: 其他的一些有用的方法。

原文链接：https://blog.csdn.net/wangkaidehao/article/details/104520022/

数据集

各种网络模型的训练都离不开数据集的支持，当我们针对某个数据集时，往往是两种导入方法：1.pytorch内置的torchvision.datasets函数进行在线导入相关的数据集

2.导入个人制作的数据集

参考：https://github.com/WZMIAOMIAO/deep-learning-for-image-processing/blob/master/data_set/README.md

个人的数据集需要划分为训练集、测试集两部分，下面是对数据集进行分类的脚本：

import os
from shutil import copy, rmtree
import random

def mk_file(file_path: str):
    if os.path.exists(file_path):
        # 如果文件夹存在，则先删除原文件夹在重新创建
        rmtree(file_path)
    os.makedirs(file_path)

def main():
    # 保证随机可复现
    random.seed(0)

    # 将数据集中10%的数据划分到验证集中
    split_rate = 0.1

    # 指向你解压后的flower_photos文件夹
    cwd = os.getcwd()
    data_root = os.path.join(cwd, "flower_data")
    origin_flower_path = os.path.join(data_root, "flower_photos")
    assert os.path.exists(origin_flower_path), "path '{}' does not exist.".format(origin_flower_path)

    flower_class = [cla for cla in os.listdir(origin_flower_path)
                    if os.path.isdir(os.path.join(origin_flower_path, cla))]

    # 建立保存训练集的文件夹
    train_root = os.path.join(data_root, "train")
    mk_file(train_root)
    for cla in flower_class:
        # 建立每个类别对应的文件夹
        mk_file(os.path.join(train_root, cla))

    # 建立保存验证集的文件夹
    val_root = os.path.join(data_root, "val")
    mk_file(val_root)
    for cla in flower_class:
        # 建立每个类别对应的文件夹
        mk_file(os.path.join(val_root, cla))

    for cla in flower_class:
        cla_path = os.path.join(origin_flower_path, cla)
        images = os.listdir(cla_path)
        num = len(images)
        # 随机采样验证集的索引
        eval_index = random.sample(images, k=int(num*split_rate))
        for index, image in enumerate(images):
            if image in eval_index:
                # 将分配至验证集中的文件复制到相应目录
                image_path = os.path.join(cla_path, image)
                new_path = os.path.join(val_root, cla)
                copy(image_path, new_path)
            else:
                # 将分配至训练集中的文件复制到相应目录
                image_path = os.path.join(cla_path, image)
                new_path = os.path.join(train_root, cla)
                copy(image_path, new_path)
            print("\r[{}] processing [{}/{}]".format(cla, index+1, num), end="")  # processing bar
        print()

    print("processing done!")

if __name__ == '__main__':
    main()

其中文件夹的名称根据自己的数据集进行替换。

导入、加载数据

对于在 torchvision图形库中在线导入的数据集代码如下：

导入训练集
train_set = torchvision.datasets.CIFAR10(root=’./data’, # 数据集存放目录
train=True, # 表示是数据集中的训练集
download=True, # 第一次运行时为True，下载数据集，下载完成后改为False
transform=transform) # 预处理过程
加载训练集
train_loader = torch.utils.data.DataLoader(train_set, # 导入的训练集
batch_size=50, # 每批训练的样本数
shuffle=False, # 是否打乱训练集
num_workers=0) # num_workers在windows下设置为0

对于个人划分的数据集代码如下：

获取图像数据集的路径
data_root = os.path.abspath(os.path.join(os.getcwd(), “../..”)) # get data root path
image_path = data_root + “/data_set/flower_data/” # flower data_set path

导入训练集并进行预处理
train_dataset = datasets.ImageFolder(root=image_path + “/train”,
transform=data_transform[“train”])
train_num = len(train_dataset)

按batch_size分批次加载训练集
train_loader = torch.utils.data.DataLoader(train_dataset, # 导入的训练集
batch_size=32, # 每批训练的样本数
shuffle=True, # 是否打乱训练集
num_workers=0) # 使用线程数，在windows下设置为0

Original: https://blog.csdn.net/weixin_45929203/article/details/123276387
Author: 不要瞎搞
Title: Pytorch框架训练时的数据预处理、数据集以及导入、加载数据

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/709841/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python预测未来数据步骤_如何使用sklearnpython预测未来的数据帧？

您的代码使用此数据帧作为X来生成预测：df = df[[‘Adj. Close’, ‘HL_PCT’, ‘PCT_cha…

人工智能 2023年7月8日
0044
目标检测——标注图像（超详细步骤）

目录 1、目标 2、标注目标框生成XML文件（1）建立工作区（必须）（2）导入工作区（3）在图片中进行标注（4）完成 3、将XML文件转化为TXT文件 3.1将图像遍历输…

人工智能 2023年7月9日
00199
【个人笔记 – 目录】OpenCV4 C++ 快速入门 30讲

个人资料，仅供学习使用修改时间——2022年2月10日 09:51:53学习课程：OpenCV4 C++ 快速入门视频30讲视频老师：贾志刚笔者对每一节课都做了详细的笔记，在包含…

人工智能 2023年7月19日
0065
Pandas常见方法（3）-pandas分层索引构建、按层级对换和排序、按层级聚合

说明：本blog基于python3， pandas 1.3.5， numpy 1.22.0版本文章目录前言一、分层索引构建 * 1.1 Series数据结构 1.2 两层索引…

人工智能 2023年7月6日
0067
深度学习环境搭建：Anaconda+python3.8+Tensorflow-gpu2.6+pycharm安装记录

深度学习环境搭建2021年11月15日10 安装流程 1.Anaconda安装 2.CUDA和Cudnn的安装 * – + 2.1查看电脑所对应的CUDA版本（即已安装…

人工智能 2023年5月25日
00112
windows系统下pytorch安装教程

1.Anaconda安装首先，登陆Anaconda | Individual Edition网站，点击Download 进行下载。不过该网站是国外的服务器，下载速度会比较慢，可以…

人工智能 2023年6月24日
0054
SimplE：SimplE Embedding for Link Prediction in Knowledge Graphs+代码

文章目录 1 介绍 * 1.1 知识图谱 1.2 知识图谱补全方法 1.3知识图谱补全（Knowledge Graph Completion，KGC） 1.4 关系分类 2 模型 …

人工智能 2023年6月1日
0073
C#(winform)调用pytorch模型

项目是写一个辅助诊断系统软件，用winform写软件，调用pytorch和matlab的模型。这篇博客只包含调用pytorch模型的部分。 1.c++(libtorch)调用模型 …

人工智能 2023年7月22日
0060
基于SwinTransformer+UNet的遥感图像语义分割

目录摘要 1.Introduction 2.Related Work * 2.1.基于CNN的RS语义分割 2.2.自注意力机制 2.3.ViT 3.方法 * 3.1.网络结构 …

人工智能 2023年6月23日
0068
使用yolov5训练自动驾驶目标检测数据集BDD100K

文章目录 * – 一、什么是BDD100K – 二、数据预处理 – 三、环境配置 – 四、修改模型结构 – 五、迁移学习…

人工智能 2023年7月10日
0063
KNN算法详解

title: “KNN算法详解”date: 2022-01-01T11:20:23+08:00lastmod: 2022-01-01T13:20:23+08…

人工智能 2023年7月4日
0064
Tensorflow使用keras创建神经网络的方法

文章目录创建简单神经网络 * 直接使用keras.Model方法继承keras.Model方法采用keras.Sequential内建方法采用Sequential()外建方…

人工智能 2023年5月25日
0069
python 查看程序的GPU显存占用

显示GPU显存占用方法引言一、nvidia-smi 二、windows下的任务管理器三、pynvml库四、显存不够用又没钱怎么办引言主要针对显卡：nvidia初衷：想要…

人工智能 2023年6月26日
0076
9、MySQL——表与表之间的关系，多表查询、MySQL数据库的备份与恢复

目录一、表与表之间的关系 1、一对一 2、一对多(多对一) 3、多对多二、多表查询三、合并结果集 1、作用 2、合并结果集的两种方式四、连接查询 1、内连接 2、外连接（…

人工智能 2023年6月26日
0067
NLP-D6-李宏毅机器学习L3hw-L4self-attention-L5seq2seq(Transformer)

昨天的进度被一些意外的事情打乱了，而且搞得心烦意乱，但是没关系！！！留得青山在，不怕没柴烧，昨天第一次给同学讲解ML，发现了自己不牢固的知识，感觉很好！看了作业要求，感觉很干！！…

人工智能 2023年5月28日
0066
【集成学习】：Stacking原理以及Python代码实现

Stacking集成学习在各类机器学习竞赛当中得到了广泛的应用，尤其是在结构化的机器学习竞赛当中表现非常好。今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原…

人工智能 2023年6月24日
0085

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pytorch框架训练时的数据预处理、数据集以及导入、加载数据

数据预处理

数据集

导入、加载数据

大家都在看