深度学习制作自己的数据集—为数据集打上标签保存为txt文件，并进行划分和加载数据集

2023年8月1日上午11:00 • Python • 阅读 62

0 前言

1 为图片数据集打上标签并保存为txt文件

2 将txt文件中的图片标签数据集随机划分为训练集和测试集

3 加载txt文件中的图片标签数据集

0 前言

目前是被封控的第四天了，只能呆在宿舍不能出去，记得上次这样子还是一年前大四快毕业那时候了……

这几天在宿舍没有什么事干，实验也暂时做不了了，将部分数据处理完后，就把之前的这个内容做一下笔记吧，这也不是什么新的知识了，简单记录一下，方便以后可以查看。

1 为图片数据集打上标签并保存为txt文件

由于这里我做的是用深度学习回归预测，所以我的标签保存在（.csv）文件中，这时候需要将图片和标签一一对应起来，并且要分好文件夹，下面是我分好的文件夹（images保存的是图片，label.csv保存的是对应的标签，这里可以根据个人的数据集更改文件名称）：

深度学习制作自己的数据集—为数据集打上标签保存为txt文件，并进行划分和加载数据集

下面是为图片数据集打上标签并保存为txt文件的代码（文件的路劲需要根据自己文件所在位置进行更改）：

import os
import numpy as np
import pandas as pd

label = pd.read_csv('../dataset_1/label_1.csv')
label = np.array(label)
label = label.tolist()
target = ''
for i in range(len(label)):
    for j in range(len(label[i])):
        target += str(label[i][j]) + ' '
    print(target)
    target = ''
def generate(dir):
    files = os.listdir(dir) #os.listdir() &#x65B9;&#x6CD5;&#x7528;&#x4E8E;&#x8FD4;&#x56DE;&#x6307;&#x5B9A;&#x7684;&#x6587;&#x4EF6;&#x5939;&#x5305;&#x542B;&#x7684;&#x6587;&#x4EF6;&#x6216;&#x6587;&#x4EF6;&#x5939;&#x7684;&#x540D;&#x5B57;&#x7684;&#x5217;&#x8868;&#x3002;
    # files.sort()  #&#x5BF9;&#x6587;&#x4EF6;&#x6216;&#x6587;&#x4EF6;&#x5939;&#x8FDB;&#x884C;&#x6392;&#x5E8F;
    files.sort(key=lambda x: int(x.replace("frame", "").split('.')[0]))
    print('****************')
    print('input :', dir)
    print('start...')
    target = ''
    i = 0
    listText = open('H:/&#x4EE3;&#x7801;&#x7EC3;&#x4E60;/Deeplearning/data_txt_path/all_data_list_1.txt', 'a+')  #&#x521B;&#x5EFA;&#x5E76;&#x6253;&#x5F00;&#x4E00;&#x4E2A;txt&#x6587;&#x4EF6;&#xFF0C;a+&#x8868;&#x793A;&#x6253;&#x5F00;&#x4E00;&#x4E2A;&#x6587;&#x4EF6;&#x5E76;&#x8FFD;&#x52A0;&#x5185;&#x5BB9;
    listText.truncate(0)#&#x6E05;&#x7A7A;txt&#x6587;&#x4EF6;&#x91CC;&#x7684;&#x5185;&#x5BB9;
    for file in files:  #&#x904D;&#x5386;&#x6587;&#x4EF6;&#x5939;&#x4E2D;&#x7684;&#x6587;&#x4EF6;
        fileType = os.path.split(file) #os.path.split&#xFF08;&#xFF09;&#x8FD4;&#x56DE;&#x6587;&#x4EF6;&#x7684;&#x8DEF;&#x5F84;&#x548C;&#x6587;&#x4EF6;&#x540D;&#xFF0C;&#x3010;0&#x3011;&#x4E3A;&#x8DEF;&#x5F84;&#xFF0C;&#x3010;1&#x3011;&#x4E3A;&#x6587;&#x4EF6;&#x540D;
        if fileType[1] == '.txt':  #&#x82E5;&#x6587;&#x4EF6;&#x540D;&#x7684;&#x540E;&#x7F00;&#x4E3A;txt,&#x5219;&#x7EE7;&#x7EED;&#x904D;&#x5386;&#x5FAA;&#x73AF;&#xFF0C;&#x5426;&#x5219;&#x9000;&#x51FA;&#x5FAA;&#x73AF;
            continue
        name = outer_path + folder + '/' +file  #name &#x4E3A;&#x6587;&#x4EF6;&#x8DEF;&#x5F84;&#x548C;&#x6587;&#x4EF6;&#x540D;+&#x7A7A;&#x683C;+label+&#x6362;&#x884C;
        for j in range(len(label[i])):
            target += str(label[i][j]) + ' '
        name = name + ' ' + target + '\n'
        # print(name)
        # listText.write(name)  # &#x5728;&#x521B;&#x5EFA;&#x7684;txt&#x6587;&#x4EF6;&#x4E2D;&#x5199;&#x5165;name
        target = ''
        i += 1
        listText.write(name)  #&#x5728;&#x521B;&#x5EFA;&#x7684;txt&#x6587;&#x4EF6;&#x4E2D;&#x5199;&#x5165;name
    listText.close() #&#x5173;&#x95ED;txt&#x6587;&#x4EF6;
    print('down!')
    print('****************')

outer_path = 'H:/&#x4EE3;&#x7801;&#x7EC3;&#x4E60;/Deeplearning/dataset_1/'  # &#x8FD9;&#x91CC;&#x662F;&#x4F60;&#x7684;&#x56FE;&#x7247;&#x8DEF;&#x5F84;

if __name__ == '__main__':  #&#x4E3B;&#x51FD;&#x6570;
    folderlist = os.listdir(outer_path)# &#x5217;&#x4E3E;&#x6587;&#x4EF6;&#x5939;
    for folder in folderlist:  #&#x904D;&#x5386;&#x6587;&#x4EF6;&#x5939;&#x4E2D;&#x7684;&#x6587;&#x4EF6;&#x5939;(&#x82E5;engagement&#x6587;&#x4EF6;&#x5939;&#x4E2D;&#x5B58;&#x5728;txt&#x6216;py&#x6587;&#x4EF6;&#xFF0C;&#x5219;&#x540E;&#x9762;&#x4F1A;&#x62A5;&#x9519;&#xFF09;
        generate(os.path.join(outer_path, folder))#&#x8C03;&#x7528;generate&#x51FD;&#x6570;&#xFF0C;&#x51FD;&#x6570;&#x4E2D;&#x7684;&#x53C2;&#x6570;&#x4E3A;&#xFF1A;&#xFF08;&#x56FE;&#x7247;&#x8DEF;&#x5F84;+&#x6587;&#x4EF6;&#x5939;&#x540D;&#xFF0C;&#x6807;&#x7B7E;&#x53F7;&#xFF09;

代码运行后结果如下图：序号1为图片的路径，序号2为对应的标签，因为我一张图片对应3个标签，所以有后面3个值。

2 将txt文件中的图片标签数据集随机划分为训练集和测试集

完成第一个步骤后，需要将txt文件中的图片标签数据集随机划分为训练集和测试集，划分后生成训练集和测试集两个txt文件，可以根据自己的需求，更改训练集和测试集的比例。下面为划分数据集的代码（文件的路劲需要根据自己文件所在位置进行更改）：

import os
import random
&#x5212;&#x5206;&#x6BD4;&#x4F8B;&#xFF0C;&#x8BAD;&#x7EC3;&#x96C6; : &#x9A8C;&#x8BC1;&#x96C6; = 8 : 2
split_rate = 0.2

class SplitFiles():
    """&#x6309;&#x884C;&#x5206;&#x5272;&#x6587;&#x4EF6;"""

    def __init__(self, file_name):
        """&#x521D;&#x59CB;&#x5316;&#x8981;&#x5206;&#x5272;&#x7684;&#x6E90;&#x6587;&#x4EF6;&#x540D;&#x548C;&#x5206;&#x5272;&#x540E;&#x7684;&#x6587;&#x4EF6;&#x884C;&#x6570;"""
        self.file_name = file_name

    # def get_random(self):
    #     """&#x751F;&#x6210;&#x968F;&#x673A;&#x6570;&#x7EC4;&#xFF0C;&#x968F;&#x673A;&#x5212;&#x5206; &#xFF08;0&#xFF0C;190001&#xFF09;txt&#x6807;&#x7B7E;&#x884C;&#x6570;&#xFF0C; 7600&#x6D4B;&#x8BD5;&#x96C6;&#x6807;&#x7B7E;&#x884C;&#x6570;"""
    #     random_num = random.sample(range(0, 19001), 108)
    #
    #     return random_num

    def split_file(self):
        if self.file_name and os.path.exists(self.file_name):
            try:
                with open(self.file_name) as f:  # &#x4F7F;&#x7528;with&#x8BFB;&#x6587;&#x4EF6;
                    # temp_count = 1
                    file = f.readlines()
                    count = len(file)
                    eval_index = random.sample(file, k=int(count * split_rate))  # &#x4ECE;images&#x5217;&#x8868;&#x4E2D;&#x968F;&#x673A;&#x62BD;&#x53D6; k &#x4E2A;&#x56FE;&#x50CF;&#x540D;&#x79F0;
                    for index,image_path in enumerate(file):
                        if image_path in eval_index:
                            self.write_file('test', image_path)
                        else:
                            self.write_file('train', image_path)
                        # temp_count += 1

            except IOError as err:
                print(err)
        else:
            print("%s is not a validate file" % self.file_name)

    def get_part_file_name(self, part_name):
        """"&#x83B7;&#x53D6;&#x5206;&#x5272;&#x540E;&#x7684;&#x6587;&#x4EF6;&#x540D;&#x79F0;&#xFF1A;&#x5728;&#x6E90;&#x6587;&#x4EF6;&#x76F8;&#x540C;&#x76EE;&#x5F55;&#x4E0B;&#x5EFA;&#x7ACB;&#x4E34;&#x65F6;&#x6587;&#x4EF6;&#x5939;temp_part_file&#xFF0C;&#x7136;&#x540E;&#x5C06;&#x5206;&#x5272;&#x540E;&#x7684;&#x6587;&#x4EF6;&#x653E;&#x5230;&#x8BE5;&#x8DEF;&#x5F84;&#x4E0B;"""
        temp_path = os.path.dirname(self.file_name)  # &#x83B7;&#x53D6;&#x6587;&#x4EF6;&#x7684;&#x8DEF;&#x5F84;&#xFF08;&#x4E0D;&#x542B;&#x6587;&#x4EF6;&#x540D;&#xFF09;
        file_folder = temp_path
        if not os.path.exists(file_folder):  # &#x5982;&#x679C;&#x4E34;&#x65F6;&#x76EE;&#x5F55;&#x4E0D;&#x5B58;&#x5728;&#x5219;&#x521B;&#x5EFA;
            os.makedirs(file_folder)
        part_file_name = file_folder + "/" + str(part_name) + "_list_1.txt"
        return part_file_name

    def write_file(self, part_num, line):
        """&#x5C06;&#x6309;&#x884C;&#x5206;&#x5272;&#x540E;&#x7684;&#x5185;&#x5BB9;&#x5199;&#x5165;&#x76F8;&#x5E94;&#x7684;&#x5206;&#x5272;&#x6587;&#x4EF6;&#x4E2D;"""
        part_file_name = self.get_part_file_name(part_num)
        try:
            with open(part_file_name, "a") as part_file:
                part_file.writelines(line)
        except IOError as err:
            print(err)

if __name__ == "__main__":
    file = SplitFiles(r'H:/&#x4EE3;&#x7801;&#x7EC3;&#x4E60;/Deeplearning/data_txt_path/all_data_list_1.txt')
    file.split_file()

我这里将总的数据文件和划分好的数据集存在一个文件夹里，方便后面管理（本来是只有3个txt文件的，我弄了两个数据集，所以就有了6个文件）。

3 加载txt文件中的图片标签数据集

在完成步骤1和2后，最后是对数据进行加载，下面为加载数据的代码，后面读取数据调用这个类函数就可以：

import os
import numpy as np
import torch
from torchvision import transforms
from PIL import Image
from torch.utils.data import DataLoader
from torch.utils.data import Dataset
&#x6211;&#x4EEC;&#x8BFB;&#x53D6;&#x56FE;&#x7247;&#x7684;&#x6839;&#x76EE;&#x5F55;&#xFF0C; &#x5728;&#x6839;&#x76EE;&#x5F55;&#x4E0B;&#x6709;&#x6240;&#x6709;&#x56FE;&#x7247;&#x7684;txt&#x6587;&#x4EF6;&#xFF0C; &#x62FF;&#x5230;txt&#x6587;&#x4EF6;&#x540E;&#xFF0C; &#x5148;&#x8BFB;&#x53D6;txt&#x6587;&#x4EF6;&#xFF0C; &#x4E4B;&#x540E;&#x904D;&#x5386;txt&#x6587;&#x4EF6;&#x4E2D;&#x7684;&#x6BCF;&#x4E00;&#x884C;&#xFF0C; &#x9996;&#x5148;&#x53BB;&#x9664;&#x6389;&#x5C3E;&#x90E8;&#x7684;&#x6362;&#x884C;&#x7B26;&#xFF0C; &#x5728;&#x4EE5;&#x7A7A;&#x683C;&#x5207;&#x5206;&#xFF0C;&#x524D;&#x534A;&#x90E8;&#x5206;&#x662F;&#x56FE;&#x7247;&#x540D;&#x79F0;&#xFF0C; &#x540E;&#x534A;&#x90E8;&#x5206;&#x662F;&#x56FE;&#x7247;&#x6807;&#x7B7E;&#xFF0C; &#x5F53;&#x56FE;&#x7247;&#x540D;&#x79F0;&#x548C;&#x6839;&#x76EE;&#x5F55;&#x7ED3;&#x5408;&#xFF0C;&#x5C31;&#x5F97;&#x5230;&#x4E86;&#x6211;&#x4EEC;&#x7684;&#x56FE;&#x7247;&#x8DEF;&#x5F84;
class MyDataset(Dataset):
    def __init__(self, img_path, transform=None):
        super(MyDataset, self).__init__()
        self.root = img_path
        # self.txt_root = self.root + 'all_list.txt'
        f = open(self.root, 'r')
        data = f.readlines()

        imgs = []
        labels = []
        # label_1,label_2,label_3 = [],[],[]
        for line in data:
            line = line.rstrip()
            word = line.split()
            imgs.append(os.path.join(self.root, word[1],word[2],word[3],word[0]))
            # labels.append([float(word[1]),float(word[2]),float(word[3])])
            labels.append([word[1],word[2],word[3]])
            # label_1,label_2,label_3 = word[1],word[2],word[3]
            # labels.append([[label_1],[label_2],[label_3]])
        self.img = imgs
        self.label = labels
        self.transform = transform
        # print(self.img)
        # print(self.label)

    def __len__(self):
        return len(self.label)
        return len(self.img)

    def __getitem__(self, item):
        img = self.img[item]
        label = self.label[item]
        # print(img)
        img = Image.open(img).convert('RGB')

        # &#x6B64;&#x65F6;img&#x662F;PIL.Image&#x7C7B;&#x578B;   label&#x662F;str&#x7C7B;&#x578B;

        if transforms is not None:
            img = self.transform(img)
            # print(img.max())

        label = np.array(label).astype(np.float32)
        label = torch.from_numpy(label)
        return img, label

注意：上面/下图代码是我同时加载了三个标签，因为一张图片我是同时对应了三个标签，假如是一个图片对应一个标签，可在以下图片的函数中进行更改：

因为我的标签是浮点数，所以我在这里将其变为浮点数类型，假如是整形，可以在上面代码下图位置更改。

在执行完 步骤1的代码文件后，将图片数据集打上标签并保存为txt文件；在执行 步骤2的代码文件将txt文件中的图片标签数据集随机划分为训练集和测试集；最后编写 步骤3加载txt文件中的图片标签数据集代码，就可加载自己的数据集。下面是深度学习训练时，调用上面加载数据的类实现对数据的加载，也可根据自己的代码进行编写，可以参考一下下面的例子：

root_train = r'H:/&#x4EE3;&#x7801;&#x7EC3;&#x4E60;/Deeplearning/data_txt_path/train_list_1.txt'
root_test = r'H:/&#x4EE3;&#x7801;&#x7EC3;&#x4E60;/Deeplearning/data_txt_path/test_list_1.txt'

#&#x5C06;&#x56FE;&#x50CF;&#x7684;&#x50CF;&#x7D20;&#x503C;&#x5F52;&#x4E00;&#x5316;&#x5230;[-1,1]&#x4E4B;&#x95F4;
normalize = transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])

train_transform = transforms.Compose([
    transforms.Resize((224,224)),
    # transforms.RandomVerticalFlip(),
    transforms.ToTensor(),
    normalize])
val_transform = transforms.Compose([
    transforms.Resize((224,224)),
    # transforms.RandomVerticalFlip(),
    transforms.ToTensor(),
    normalize])

train_dataset = MyDataset(root_train,transform=train_transform)
val_dataset = MyDataset(root_test,transform=val_transform)

train_dataloader = DataLoader(dataset=train_dataset,batch_size=16,shuffle=True)
val_dataloader = DataLoader(dataset=val_dataset,batch_size=16,shuffle=True)

device = 'cuda' if torch.cuda.is_available() else 'cpu'
for batch, (x, y) in enumerate(data_loader):
    image, y= x.to(device), y.to(device)

参考来源：制作数据集（二）–为图片数据集打上标签并保存为txt文件_困坤的小菜鼠的博客-CSDN博客

python 划分数据集文件(txt标签文件按比例随机切分)_努力学习DePeng的博客-CSDN博客_python按比例随机切分数据

pytorch加载自己的图片数据集的两种方法__-周-_的博客-CSDN博客_pytorch读取图片数据集

Original: https://blog.csdn.net/weixin_42795788/article/details/128049574
Author: 暂未成功人士！
Title: 深度学习制作自己的数据集—为数据集打上标签保存为txt文件，并进行划分和加载数据集

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/728004/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

sklearn实现决策树，随机森林，逻辑回归，KNN，贝叶斯，SVM，以葡萄干数据集为例

数据集介绍本次使用的数据集为葡萄干数据集，来源于UCI中： https://archive.ics.uci.edu/ml/datasets/Raisin+Dataset 介绍为：…

Python 2023年9月15日
0046
[HCTF 2018]admin

[HCTF 2018]admin 进入页面可以看见左边有选项，发现一共有两个选项：根据常识，没注册肯定不能登录，因此我们随便注册一个账号：123456789，然后注册，跟着提示…

Python 2023年8月13日
0069
python pandas series items方法_Python pandas之series、DataFrame入门

Pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。Pandas…

Python 2023年8月22日
0052
跟我学Python图像处理丨图像分类原理与案例

摘要：本篇文章将分享图像分类原理，并介绍基于KNN、朴素贝叶斯算法的图像分类案例。一.图像分类图像分类（Image Classification）是对图像内容进行分类的问题，它…

Python 2023年10月30日
0032
数据分析中numpy中基本操作集(含全文章目录)

本博文源于python对numpy操作，内容主要涉及数组的创建、数组的索引与转换数组的排序、数组的组合、数组的统计函数。里面又包含了很多细则：比如如何选取数组中的值、如何求最大值…

Python 2023年8月30日
0044
超强 Python 数据可视化库，一文全解析

今天给大家分享一篇可视化干货，介绍的是功能强大的开源 Python 绘图库Plotly ，教你如何用超简单的（甚至只要一行！）代码，绘制出更棒的图表。我之前一直守着 matplo…

Python 2023年5月24日
0064
数据科学库考核-matplotlib、numpy、pandas

目录（一）第一考核点：编程题 1.创建一个长度为10的一维全为0的ndarray对象，然后让第5个元素等于1 2.创建一个元素为从10到49的ndarray对象，使用随机整数完成…

Python 2023年9月2日
0049
Numpy线性代数-numpy.matmul()

N u m P y NumPy N u m P y提供了线性代数函数库 linalg，该库包含了线性代数所需的所有功能，可以看看下面的说明。函数内容两数组的点积两向量的点积 …

Python 2023年8月27日
0046
NumPy遍历数组

NumPy 提供了一个 nditer 迭代器对象，它可以配合 for 循环完成对数组元素的遍历。下面看一组示例，使用 arange() 函数创建一个 3*4 数组，并使用 ndi…

Python 2023年8月24日
0034
MacOS下使用conda安装TensorFlow 并在pycharm中使用（亲测成功）

以下内容参考：一、下载tensorflow文件资源参考1 二、安装TensorFlow 注：文章里的要在python=3.8时使用/Users/dulei/Desktop/so…

Python 2023年9月8日
0042
[ AWS – SAA ] 解决方案架构师之设计弹性架构 – 选择可靠的弹性存储（如何选择 SSD vs. HDD）

本系列博文会围绕 AWS Well-Architected 和六大支柱…

Python 2023年11月7日
0060
如何用python排序并只输出前几个_python中DataFrame如何按列排序

小编介绍过python中series排序的两种方法，那作为pandas中另一个数据结构DataFrame又是如何排序的呢？DataFrame排序形式有很多，本文以按列排序的形式向大…

Python 2023年8月7日
0053
[Linux打怪升级之路]-重定向

前言作者：小蜗牛向前冲名言：我可以接受失败，但我不能接受放弃如果觉的博主的文章还不错的话，还请点赞，收藏，关注支持博主。如果发现有问题的地方欢迎❀大家在评论区指正。目录一、…

Python 2023年11月7日
0022
【Pygame实战】嗷大喵历险记之程序员吸猫指南：真的太上头了~

导语哈喽~大家好，我是木子，首先今天木子先给大家讲个小故事：在喵界有这样一只网红——混迹于二次元、表情包界，贱萌活泼，调皮机灵，白色的大圆脸，脖子上系了个铃铛，年龄不详，传…

Python 2023年9月21日
00215
【机器学习】李宏毅——自注意力机制(Self-attention)

前面我们所讲的模型，输入都是一个向量，但有没有可能在某些场景中输入是多个向量，即一个向量集合，并且这些向量的数目并不是固定的呢？这一类的场景包括文字识别、语音识别、图网络等等…

Python 2023年10月28日
0054
【opencv之python版】图像的读取、显示、保存、像素遍历以及结合matplotlib使用

文章目录 1. 图像的表示 2. 图像读取、显示与保存 3. 简单使用 * 3.1 读取图像大小 3.2 绘制基本图形 3.3 图像的元素遍历 4. 结合Matplotlib显示图…

Python 2023年9月3日
0047

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

深度学习制作自己的数据集—为数据集打上标签保存为txt文件，并进行划分和加载数据集

大家都在看