数据集划分、label生成及按label将图片分类到不同文件夹

2023年6月30日下午11:14 • 人工智能 • 阅读 99

1.数据集介绍
*
1.1 概念
1.2 数据集结构
2. 数据集划分及生成label
*
2.1 结构一
2.2 结构二
2.3 结构三
3. 数据集按label分类到不同文件夹

1.数据集介绍

1.1 概念

机器学习所用数据集一般分为训练集、验证集、测试集。

训练集：用于训练的样本集合,主要用来训练神经网络中的参数。
验证集：用于验证模型性能的样本集合.不同神经网络在训练集上训练结束后,通过验证集来比较判断各个模型的性能.这里的不同模型主要是指对应不同超参数的神经网络,也可以指完全不同结构的神经网络。
测试集：对于训练完成的神经网络,测试集用于检验最终选择最优的模型性能。

打个比方，从前有个本科生（机器学习）刚开始啥也不会，但是他想考上研究生，于是他就通过大量刷题（训练集）来学习新知识，刷的题都是带有答案（训练集label)的。每做一题对一下答案（label)，就这样不断地学习新知识，当他学习一轮之后，他想知道自己能考多少分，于是他给自己来了一个模拟考试（验证集），再对一下答案（验证集label），然后得知自己的得分（评估指标），发现自己得分不是很高，平时刷题表现好，一到模拟考试就表现不好（过拟合）。于是他调整自己的学习方式（调参），…就这样通过几轮复习之后他走上了考场开始考试（测试集），得分很高，终于考上了研究生。

1.2 数据集结构

常见的数据集结构

Dataset/

    train/
        class1/
            a1.jpg
            a2.jpg
            a3.jpg
            ...
        class2/
            b1.jpg
            b2.jpg
            b3.jpg
            ...
        class3/
            c1.jpg
            c2.jpg
            c3.jpg
            ...
    val/
    test/

Dataset/
    train/
        1.jpg
        2.jpg
        3.jpg
        ...
    val/
    test/

Dataset/
    1.jpg
    2.jpg
    3.jpg
    ...

数据集划分及生成label

2.1 结构一

如果是第一种结构的数据集，它已经根据训练、验证、测试和类别划分好了数据集，只需生成label即可。
根据二级目录（class）生成label，可写入csv文件或者txt文件（实际使用，用txt文件就好，csv自己写着玩玩的）。


import os
import os.path

def write_txt(content, filename, mode='w'):
    """保存txt数据
    :param content:需要保存的数据,type->list
    :param filename:文件名
"""
    with open(filename, mode) as f:
        for line in content:
            str_line = ""
            for col, data in enumerate(line):
                if not col == len(line) - 1:

                    str_line = str_line + str(data) + " "
                else:

                    str_line = str_line + str(data) + "\n"
            f.write(str_line)

def get_files_list(dir):
    '''
    实现遍历dir目录下,所有文件(包含子文件夹的文件)
    :param dir:指定文件夹目录
    :return:包含所有文件的列表->list
    '''

    files_list = []
    for parent, dirnames, filenames in os.walk(dir):
        for filename in filenames:
            print("parent is: " + parent)
            print("filename is: " + filename)
            print(os.path.join(parent, filename).replace('\\','/'))
            curr_file = parent.split(os.sep)[-1]

            if curr_file == "class1":
                labels = 0
            elif curr_file == "class1":
                labels = 1
            elif curr_file == "class1":
                labels = 2

            dir_path = parent.replace('\\', '/').split('/')[-2]

            curr_file = os.path.join(dir_path, curr_file)

            files_list.append([os.path.join(curr_file, filename).replace('\\','/'), labels])

            path = "%s" % os.path.join(curr_file, filename).replace('\\','/')
            label = "%d" % labels
            list = [path, label]
            data = pd.DataFrame([list])
            if dir == './Dataset/train':
                data.to_csv("./Dataset/train.csv", mode='a', header=False, index=False)
            elif dir == './Dataset/val':
                data.to_csv("./Dataset/val.csv", mode='a', header=False, index=False)

    return files_list

if __name__ == '__main__':

    import pandas as pd

    df = pd.DataFrame(columns=['path', 'label'])
    df.to_csv("./Dataset/train.csv", index=False)

    df2 = pd.DataFrame(columns=['path', 'label'])
    df2.to_csv("./Dataset/val.csv", index=False)

    train_dir = './Dataset/train'
    train_txt = './Dataset/train.txt'
    train_data = get_files_list(train_dir)
    write_txt(train_data, train_txt, mode='w')

    val_dir = './Dataset/val'
    val_txt = './Dataset/val.txt'
    val_data = get_files_list(val_dir)
    write_txt(val_data, val_txt, mode='w')

2.2 结构二

这种结构也划分好了数据集，但无法通过类名生成label了，数据集一般都会自带带有label的文件，直接葱里面提取文件名（路径）和label即可。

2.3 结构三

这种数据及所有图片都放在一个文件夹，一般也自带一个带有label的文件，训练集验证集测试集需要自己去划分。
下面举个栗子（ODIR-5k数据集，包含6398个图）对数据集进行划分和label生成：
6398张图片全放在第一个文件夹，full_df_csv是label数据

preprocessed_images文件夹

full_df_csv文件label部分(共8个不同的label)
数据集划分、label生成及按label将图片分类到不同文件夹

新建一个项目文件夹，将full_df_csv文件放进去

提取csv文件的图片文件名和label信息保存到txt文件

label_extraction.py


import pandas as pd

def csv_to_txt(csv_path, txt_path):

    data = pd.read_csv(csv_path, encoding='utf-8')
    with open(txt_path, 'w', encoding='utf-8') as f:
        for line in data.values:
            file_name = str(line[18])
            if str(line[16]) == "['N']":
                labels = 0
            elif str(line[16]) == "['D']":
                labels = 1
            elif str(line[16]) == "['G']":
                labels = 2
            elif str(line[16]) == "['C']":
                labels = 3
            elif str(line[16]) == "['A']":
                labels = 4
            elif str(line[16]) == "['H']":
                labels = 5
            elif str(line[16]) == "['M']":
                labels = 6
            elif str(line[16]) == "['O']":
                labels = 7
            labels = "%s" % labels
            f.write(file_name+ ' ' + labels + '\n')
if __name__ == '__main__':
    csv_to_txt('./full_df.csv', './label.txt')

生成label.txt

如果不需要那么多数据，只需要提取想要的label的图片（比如只要label为N和D的），可以这样设置：

def csv_to_txt(csv_path, txt_path):

    data = pd.read_csv(csv_path, encoding='utf-8')
    with open(txt_path, 'w', encoding='utf-8') as f:
        for line in data.values:
            file_name = str(line[18])
            if str(line[16]) == "['N']":
                labels = 0
            elif str(line[16]) == "['D']":
                labels = 1
            elif str(line[16]) == "['G']":
                labels = -1
            elif str(line[16]) == "['C']":
                labels = -1
            elif str(line[16]) == "['A']":
                labels = -1
            elif str(line[16]) == "['H']":
                labels = -1
            elif str(line[16]) == "['M']":
                labels = -1
            elif str(line[16]) == "['O']":
                labels = -1

            if labels >= 0:
                labels = "%s" % labels
                f.write(file_name+ ' ' + labels + '\n')
if __name__ == '__main__':
    csv_to_txt('./full_df.csv', './label.txt')

将label.txt打乱顺序并写入到新的txt文件

disrupt order.py


import random

def ReadFileDatas(original_filename):
      FileNameList = []
      file = open(original_filename, 'r+', encoding='utf-8')
      for line in file:
            FileNameList.append(line)
      print('数据集总量：', len(FileNameList))
      file.close()
      return FileNameList

def WriteDatasToFile(listInfo, new_filename):
      f = open(new_filename, mode='w', encoding='utf-8')
      for idx in range(len(listInfo)):
            str = listInfo[idx]
            f.write(str)
      f.close()
      print('写入 %s 文件成功.' % new_filename)

if __name__ == "__main__":

      listFileInfo = ReadFileDatas('./label.txt')
      random.shuffle(listFileInfo)
      WriteDatasToFile(listFileInfo,'./new_data.txt')

new_data.txt

随机划分数据集（train:val:test=7:2:1）

divide.py


L_train = []
L_val = []
L_test = []

def TrainValTestFile(new_filename):

      file_divide = open(new_filename, 'r', encoding='utf-8')
      lines = file_divide.readlines()
      i = 0
      j = len(lines)
      for line in lines:
            if i < (j *0.7):
                  i += 1
                  L_train.append(line)
            elif i < (j*0.9):
                  i += 1
                  L_val.append(line)
            elif i < j:
                  i += 1
                  L_test.append(line)
      print("总数据量：%d , 此时创建train, val, test数据集" % i)

      return L_train, L_val, L_test

def text_save(filename, data):
      f = open(filename, 'w', encoding='utf-8')
      for i in range(len(data)):
            f.write(data[i])
      f.close()
      print("保存数据集（路径）成功：%s" % filename)

if __name__ == "__main__":

      TrainValTestFile('./new_data.txt')

      text_save('./t_train.txt', L_train)
      text_save('./t_val.txt', L_val)
      text_save('./t_test.txt', L_test)

按7:2:1划分好后，t_train.txt有4475条数据，t_val.txt有1278条数据，t_test.txt有639条数据
其中：t_train.txt

4.接下来按t_train.txt、t_val.txt、t_test.txt里的图片名称，给preprocessed_images文件夹里的图片分别复制到对应的文件夹。
（1）先分别读取t_train.txt、t_val.txt、t_test.txt的图片名并保存到相应txt文件
readpath.py

def write_txt(content, filename, mode='w'):
    """保存txt数据
    :param content:需要保存的数据,type->list
    :param filename:文件名
"""
    with open(filename, mode) as f:
        for line in content:
            str_line = ""
            for col, data in enumerate(line):
                if not col == len(line) - 1:

                    str_line = str_line + str(data)
                else:

                    str_line = str_line + str(data) + "\n"
            f.write(str_line)

def get_data(txt_path):
    fh = open(txt_path, 'r', encoding='utf-8')
    lines = fh.readlines()
    data = []
    for line in lines:
        line = line.strip('\n')
        line = line.rstrip()
        words = line.split()
        imgs_path = words[0]
        print(imgs_path)
        data.append(imgs_path)
    return data

if __name__ == '__main__':

    data_train = get_data('./t_train.txt')
    write_txt(data_train, './img_path_train.txt', mode='w')

    data_val = get_data('./t_val.txt')
    write_txt(data_val, './img_path_val.txt', mode='w')

    data_test = get_data('./t_test.txt')
    write_txt(data_test, './img_path_test.txt', mode='w')

其中img_path_train.txt

（2）将前面生成的img_path_train.txt、img_path_val.txt、img_path_test.txt文件也一起放到preprocessed_images文件夹

（3）复制文件
copyfile.py

import shutil
import os
def copy(txt_pth,save_path):
    with open(txt_pth, 'r', encoding='utf-8') as fh:
        savepath = save_path
        lines = fh.readlines()
        for line in lines:
            img_name = line.replace("\n", "")
            srcpath = './' + img_name

            print(srcpath)
            shutil.copy(srcpath, savepath)

if __name__ == '__main__':

    label = ["train", "val", "test"]

    for i in label:
        os.mkdir(i)

    train_txt_path = './img_path_train.txt'
    train_save_path = './train'
    copy(train_txt_path, train_save_path)
    print("copy trainset successfully!")

    val_txt_path = './img_path_val.txt'
    val_save_path = './val'
    copy(val_txt_path, val_save_path)
    print("copy valset successfully!")

    test_txt_path = './img_path_test.txt'
    test_save_path = './test'
    copy(test_txt_path, test_save_path)
    print("copy testset successfully!")

将copyfile.py文件也放到preprocessed_images文件夹。

（4）在preprocessed_images目录打开命令行窗口，直接运行copyfile.py即可。会自动创建train、val、test文件夹，并将图片分别复制到相关文件夹。

之后就可以看到图片已经按文件名复制到相应文件夹了，
train效果：

（5）文件已经按训练集、验证集、测试集划分好了，接下来可以剪切放到Dataset目录
数据集划分、label生成及按label将图片分类到不同文件夹

我们可以给他们创建包含图片路径和label的txt文件
回到divide.py改一部分就行

import os
import random

L_train = []
L_val = []
L_test = []

def TrainValTestFile(new_filename):

      file_divide = open(new_filename, 'r', encoding='utf-8')
      lines = file_divide.readlines()
      i = 0
      j = len(lines)
      for line in lines:
            if i < (j *0.7):
                  i += 1
                  line = './Dataset/train/'+line
                  L_train.append(line)
            elif i < (j*0.9):
                  i += 1
                  line = './Dataset/val/' + line
                  L_val.append(line)
            elif i < j:
                  i += 1
                  line = './Dataset/test/' + line
                  L_test.append(line)
      print("总数据量：%d , 此时创建train, val, test数据集" % i)

      return L_train, L_val, L_test

def text_save(filename, data):
      f = open(filename, 'w', encoding='utf-8')

      for i in range(len(data)):
            f.write(data[i])
      f.close()
      print("保存数据集（路径）成功：%s" % filename)

if __name__ == "__main__":

      TrainValTestFile('new_data.txt')

      text_save('./train.txt', L_train)
      text_save('./val.txt', L_val)
      text_save('./test.txt', L_test)

只是在文件名前面加了路径，方便读取
train.txt

生成的train.txt、val.txt、test.txt放到Dataset文件夹、这样，Dataset就包括以下内容了
数据集划分、label生成及按label将图片分类到不同文件夹

一个数据集划分完成。

数据集按label分类到不同文件夹
获取图片名和label
新建一个项目，将带有label信息的full_df.csv文件放进去，生成带label的txt文件
label_extraction.py


import pandas as pd

def csv_to_txt(csv_path, txt_path):
    n = 0
    d = 0
    g = 0
    c = 0
    a = 0
    h = 0
    m = 0
    o = 0

    data = pd.read_csv(csv_path, encoding='utf-8')
    with open(txt_path, 'w', encoding='utf-8') as f:
        for line in data.values:
            file_name = str(line[18])
            if str(line[16]) == "['N']":
                labels = 0
                n = n +1
            elif str(line[16]) == "['D']":
                d = d + 1
                labels = 1

            elif str(line[16]) == "['G']":
                labels = 2
                g = g + 1
            elif str(line[16]) == "['C']":
                labels = 3
                c = c +1
            elif str(line[16]) == "['A']":
                labels = 4
                a = a + 1
            elif str(line[16]) == "['H']":
                labels = 5
                h = h + 1
                print("remove "+file_name)
            elif str(line[16]) == "['M']":
                labels = 6
                m = m + 1
                print("remove "+file_name)
            elif str(line[16]) == "['O']":
                labels = 7
                o = o + 1
                print("remove "+file_name)
            if labels >= 0:
                labels = "%s" % labels
                f.write(file_name+ ' ' + labels + '\n')
    print("N&C:%d"%n)
    print("D:%d" % d)
    print("G:%d" % g)
    print("C:%d" % c)
    print("A:%d" % a)
    print("H:%d" % h)
    print("M:%d" % m)
    print("O:%d" % o)
    sum = n+d+g+c+a+h+m+o
    print("sum = %d"%sum)
    return sum

if __name__ == '__main__':
    sum = csv_to_txt('./full_df.csv', './label.txt')

label.txt

按label名给图片分类到不同文件夹
copy.py


import shutil
import os

def classify_data(txt_path,labels):
    fh = open(txt_path, 'r', encoding='utf-8')
    lines = fh.readlines()

    for line in lines:
        line = line.strip('\n')
        line = line.rstrip()
        words = line.split()
        imgs_name = words[0]
        srcfile = './'+imgs_name
        imgs_label = int(words[1])

        print(srcfile)
        if imgs_label ==0:
            shutil.copy(srcfile, './'+labels[0])
        elif imgs_label ==1:
            shutil.copy(srcfile, './'+labels[1])
        elif imgs_label ==2:
            shutil.copy(srcfile, './'+labels[2])
        elif imgs_label ==3:
            shutil.copy(srcfile, './'+labels[3])
        elif imgs_label ==4:
            shutil.copy(srcfile, './'+labels[4])
        elif imgs_label ==5:
            shutil.copy(srcfile, './'+labels[5])
        elif imgs_label ==6:
            shutil.copy(srcfile, './'+labels[6])
        elif imgs_label ==7:
            shutil.copy(srcfile, './'+labels[7])
    print("Copy files Successfully!")

if __name__ == '__main__':

    label = ["Normal(N)", "DR(D)", "Glaucoma(G)", "Cataract(C)", "AMD(A)", "Hypertension(H)", "Myopia(M)", "Others(O)"]
    for i in label:
        os.mkdir(i)

    classify_data('./label.txt',label)

将label.txt文件和copy.py文件放进存放数据集的文件夹下面
打开命令行窗口，直接运行copy.py即可完成分类复制。

总结：以上都是以一个数据集为例的操作，不同的数据集会略有差异、其实都差不多稍微修改就好，这样可以制作自己想要的的数据集。

Original: https://blog.csdn.net/weixin_43760844/article/details/113944260
Author: 蠕动的爬虫
Title: 数据集划分、label生成及按label将图片分类到不同文件夹

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/662257/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

TransGCN：Coupling Transformation Assumptions with GCN for Link Prediction阅读笔记

*研究现状 TransE、TransD、TransR 基于平移的方法针对单个三元组进行训练 A Three-Way Model for Collective Learning o…

人工智能 2023年6月10日
0083
python进行敏感性分析（SALib库)

什么是敏感性分析敏感性分析（sensitivity analysis）是指从定量分析的角度研究有关因素发生某种变化对某一个或一组关键指标影响程度的一种不确定分析技术。每个输入的灵…

人工智能 2023年7月4日
0095
去噪扩散概率模型（DDPM）的简单理解

图1 DDPM 无条件控制生成的图像。这些不是真实的人、地方、动物或物体。 ; 前言扩散模型最近在图像生成领域取得了巨大的成功，类似 OpenAI 的 DALL-E 2，Goo…

人工智能 2023年6月22日
00110
语言模型变形金刚

词嵌入词嵌入方式 + 基于计数的词嵌入（count based）基于预测（prediction based）语言模型 N-gram 困惑度perplexity word2ve…

人工智能 2023年6月4日
00113
数字图像处理学习

数字图像处理学习一、数字图像基础（概念题、填空题）图像数字化数字图像：是将一幅画面在空间上分割成离散的点（或像元），各点（或像元）的灰度值经量化用离散的整数来表示，形成计算机…

人工智能 2023年6月20日
0060
关于qt上实现基于百度的语音识别

目录 1.熟悉大概框架 2.发送和接受数据处理流程：1.通过TCP协议向服务器发送id,secret,其中一个服务器会返回一个access_token（其有效期为1个月）2.再向…

人工智能 2023年5月27日
0073
华为云原生之数据仓库服务GaussDB(DWS)的深度使用与应用实践

一、GaussDB（DWS）简介 ① 什么是 GaussDB（DWS）？数据仓库服务 GaussDB(DWS) 是一种基于华为云基础架构和平台的在线数据处理数据库，提供即开即用、…

人工智能 2023年7月15日
00100
公益项目：一般人和聋哑人自然交流

和青岛大学的计教授有一番交流，聊起聋哑人怎么和一般人交流？聋哑人也有很好的思维，很好的点子，但因为只能在手语交流的范围内，显得有些孤独。父亲读大学的时候，因为中耳炎导致以后耳聋，…

人工智能 2023年5月28日
0072
论文阅读笔记：Masked Autoencoders Are Scalable Vision Learners

论文阅读笔记：Masked Autoencoders Are Scalable Vision Learners 摘要介绍实现 * MASKING MAE编码器 MAE解码器简…

人工智能 2023年6月17日
0044
4000字详细说明，推荐20个好用到爆的Pandas函数方法

今天分享几个不为人知的 pandas函数，大家可能平时看到的不多，但是使用起来倒是非常的方便，也能够帮助我们数据分析人员大幅度地提高工作效率，同时也希望大家看完之后能够有所收获 i…

人工智能 2023年7月8日
0054
openCV——梯度运算

梯度运算 import cv2 import numpy as np import matplotlib.pyplot as plt %matplotlib inline def …

人工智能 2023年7月10日
0081
2022李宏毅机器学习hw1–COVID-19 Cases Prediction

目录一. 开题说明：二. 梗概：三. 问题背景：四. 模型建立： 1. 数据下载 2. 导入必要的包 3. 定义函数 4. 定义类（Dataset以及DNN） 5. 特征选…

人工智能 2023年6月15日
0071
数据分析02——数据清洗及特征处理

查看数据 df.info df.isnull()来判断缺失值 df.isnull().sum()统计缺失值个数 df[[‘Age’,’Cabin’,’Embarked’]] 缺失值…

人工智能 2023年7月8日
0057
《Python程序设计与算法基础教程（第二版）》江红余青松课后选择题课后填空题答案

一、选择题 Python语言属于 C A.机器语言 B.汇编语言 C.高级语言 D.以上都不是在下列选项中，不属于Python特点的是 B C.可移植性 D.免费和开源 A.面向…

人工智能 2023年7月4日
00115
基于javaweb+mysql的在线商城购物商城水果蔬菜批发商城(前台、后台)

基于javaweb+mysql的在线商城购物商城水果蔬菜批发商城(前台、后台) 运行环境 Java≥8、MySQL≥5.7、Tomcat≥8 开发工具 eclipse/idea/m…

人工智能 2023年6月26日
0068
Python 计算机视觉（十）—— OpenCV 图像锐化及边缘检测

参考的一些文章以及论文我都会给大家分享出来 —— 链接就贴在原文，论文我上传到资源中去，大家可以免费下载学习，如果当天资源区找不到论文，那就等等，可能正在审核，审核完后就可以下载了…

人工智能 2023年5月26日
0071

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30