yolov5只训练数据集中的某几个类别

2023年6月16日下午11:05 • 人工智能 • 阅读 95

文章目录

前言
一、直接修改数据集标签
二、修改加载labels的代码
*
1.train
2.create_dataloader
3.LoadImagesAndLabels
4.cache_labels
5.verify_image_label
总结

前言

提示：在训练网络过程中，我们找到的公开数据集可能有很多分类，但是我们的检测任务又不需要那么多，或者说是对自己的训练集做一个取舍：

例如：一个训练集有猫和狗，但是我不想训练猫了，只想训练狗，所以就只加载狗的标签。

基本思路：只训练某几类标签的话，那就需要修改dataset中的labels，本文提供两种思路

一、直接修改数据集标签

通过直接修改数据集标签（*.txt）来删去某种类别的数据。

这种方法很直接，但是也意味着你多了一个整个数据集文件，虽然内存不大，但是感觉比较呆。

二、修改加载labels的代码

数据集labels在加载进dataloader过程中本身就有某些处理过程（如检验是否为空），我们可以在上面加些筛选条件就可以做到过滤效果。

1.train

在train.py文件下找到加载数据集的代码，如：


train_loader, dataset = create_dataloader(train_path, imgsz, batch_size // WORLD_SIZE, gs, single_cls,
                                          hyp=hyp, augment=True, cache=opt.cache, rect=opt.rect, rank=LOCAL_RANK,
                                          workers=workers, image_weights=opt.image_weights, quad=opt.quad,
                                          prefix=colorstr('train: '))

然后我们进入create_dataloader继续跟踪

2.create_dataloader

找到加载数据集LoadImagesAndLabels：

dataset = LoadImagesAndLabels(path, imgsz, batch_size,
                                      augment=augment,
                                      hyp=hyp,
                                      rect=rect,
                                      cache_images=cache,
                                      single_cls=single_cls,
                                      stride=int(stride),
                                      pad=pad,
                                      image_weights=image_weights,
                                      prefix=prefix)

3.LoadImagesAndLabels

其中，下面这一段代码是加载cache缓存文件，这里不细说，就把它简单看成数据集文件。如果cache已存在，就直接加载，不存在才创建（所以我们要在数据集的文件夹下 把cache文件删掉！把cache文件删掉！！把cache文件删掉！！！），我们需要进入创建部分cache_labels

try:
   cache, exists = np.load(cache_path, allow_pickle=True).item(), True
   assert cache['version'] == self.cache_version
   assert cache['hash'] == get_hash(self.label_files + self.img_files)
except:
    cache, exists = self.cache_labels(cache_path, prefix), False

4.cache_labels

这个部分就是处理数据集的信息统计（如是否为空等），其中一段遍历整个数据集的代码

pbar = tqdm(pool.imap(verify_image_label, zip(self.img_files, self.label_files, repeat(prefix))),
                        desc=desc, total=len(self.img_files))

这段代码含义大致就是将img_files, label_files, prefix打包丢进 verify_image_label函数中处理后返回

5.verify_image_label

这段函数就是我们的最终目标了，这里面有加载图片，标签的功能，还可以进行一定筛选，我们就从这里修改。找到加载labels的代码：

withopen(lb_file) as f:
    l = [x.split() for x in f.read().strip().splitlines() if len(x)]

这段代码就是将labels的内容加载进列表l中，如这里有个label文件

有类别6、7，通过代码加载进去就是
yolov5只训练数据集中的某几个类别

list L 中有两个list，代表两个目标，每个list第一位就是类别。这个时候效果就很明显了，如果我们不想要类别6，我们只需要修改成

withopen(lb_file) as f:
    l = [x.split() for x in f.read().strip().splitlines() if len(x) and x[0]!='6']

就行了，最后效果为

思路就是这样，还有些其他的修改方法根据自己的需要再操作，内核就是对list的处理而已，基本功。

总结

上面都是我在做项目过程中遇到的问题，而且在csdn上没找到详细的解答，于是自己动手解决并分享。

Original: https://blog.csdn.net/Starkiron/article/details/124763946
Author: Starkiron
Title: yolov5只训练数据集中的某几个类别

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/627147/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

使用Sklearn学习决策树

决策树文章目录决策树 * 概述 sklearn中的决策树 sklearn的基本建模流程分类树 – DecisionTreeClassifier 重要参数说明 + …

人工智能 2023年6月15日
0097
[论文][表情识别]Region Attention Networks for Pose and Occlusion Robust Facial Expression Recognition

论文基本情况发表时间及刊物/会议： 2019 TIP 问题背景遮挡和姿态变化是表情识别需要解决的两大难题，但是目前没有关于姿态变换和遮挡的表情识别数据集。论文创新点（1）在…

人工智能 2023年6月6日
0092
Python中求最大值和最小值max()函数、min()函数

【小白从小学Python、C、Java】【Python全国计算机等级考试】【Python数据分析考试必会题】 ● 标题与摘要 Python中求最大值和最小值 max()函数、m…

人工智能 2023年7月5日
0067
python Kmeans聚类 – CPU or GPU?

Kmeans聚类 – CPU or GPU 引言一、时间对比二、代码三、推荐博文引言 k均值聚类算法1，一种经典的聚类算法，被广泛应用于机器学习领域。本文主要对…

人工智能 2023年6月2日
0093
极限多标签分类-评价指标

References:http://manikvarma.org/downloads/XC/XMLRepository.htmlhttps://blog.csdn.net/minf…

人工智能 2023年7月3日
0076
数字图像处理——频域滤波基础

频域滤波基础 1、频域滤波与空域滤波的关系傅立叶变换可以将图像从空域变换到频域，而傅立叶反变换则可以将图像的频谱逆变换为空域图像。这样一来，我们可以利用空域图像与频域之间的对应关…

人工智能 2023年6月18日
0087
机器学习(十二)——感知器算法

感知器算法是一种可以直接得到线性判别函数的线性分类方法，它是基于样本线性可分的要求下使用的线性可分与线性不可分 ; 算法流程感知器作为人工神经网络中最基本的单元，有多个输入和一…

人工智能 2023年6月15日
0093
LSTM在多分类中出现的loss不下降问题（pytorch实现）

最近在使用LSTM做基于THUCNews数据集的文本分类。之前用LSTM模型做10种新闻种类的分类时可以正常收敛，说明应该不是写错代码的原因，但是当我把新闻种类扩大到14种类别时，…

人工智能 2023年6月30日
0089
卷积层中的激活函数是什么？为什么要使用激活函数

问题背景卷积神经网络（Convolutional Neural Network, CNN）是一种常用的深度学习算法，广泛应用于计算机视觉领域。在CNN中，卷积层是其中最关键的组成…

人工智能 2024年1月1日
0069
一个傻瓜式构建可视化 web的 Python 神器 — streamlit 教程

正常在学习一个新框架之前，肯定要先调研下这个框架究竟能做些什么事吧？但对于 streamlit 来说，请你相信我，这是一个你可以无脑去学习的框架，我之所以这么说，是因为我相信终…

人工智能 2023年7月15日
0078
基于视觉的移动平台运动目标检测

1.声明本文为自己的研究总结，主要根据各类文献总结而来，内容上可能有些不全面，不客观。这篇博文主要介绍的是基于 视觉的 &#x…

人工智能 2023年6月11日
0062
对目前物联网设备的漏洞挖掘技术的学习记录

物联网设备漏洞挖掘技术目前物联网设备的使用越来越普遍，而对应的漏洞攻击现象也越来越频繁，究其原因主要有两点：① 物联网设备开发过程中, 在设计上忽略了安全性的考虑;② 由于设备硬…

人工智能 2023年7月16日
0091
seaborn绘图

导入模块 import numpy as np import pandas as pd from matplotlib import pyplot as plt import se…

人工智能 2023年6月19日
0065
吴恩达机器学习课后作业

目录 01-linear regression * 线性回归预备知识单变量线性回归（一个特征值）单变量线性回归（多个特征值）单变量线性回归（正规方程） 01-linea…

人工智能 2023年7月6日
0076
[附源码]计算机毕业设计JAVAjsp幼儿园管理系统

[附源码]计算机毕业设计JAVAjsp幼儿园管理系统项目运行环境配置： Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX （Webstorm也行）+…

人工智能 2023年6月26日
0078
anaconda安装tensorflow

萌新入门之tensorflow安装 anaconda环境下安装tensorflow * 管理员运行Anaconda Prompt 安装keras 安装pandas 安装tensor…

人工智能 2023年5月23日
0070

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31