使用Yolov5进行目标检测并训练自己的VOC格式数据集

2023年7月11日下午11:50 • 人工智能 • 阅读 76

使用Yolo v5进行目标检测并训练自己的VOC格式数据集

一、前提准备
二、下载代码及配置环境
三、下载预训练模型
四、预测
五、训练
*
5.1、在data文件夹下新建make_txt.py
5.2、在data文件夹创建 voc_label.py 文件，代码如下：
5.3、修改配置文件mytrain.yaml
5.4、开始训练
使用tensorboard可视化结果
六、可能遇到的问题
*
问题1:CUDA out of memory

一、前提准备

源码下载
https://github.com/ultralytics/yolov5
YOLOv5 文档：
https://docs.ultralytics.com/
yolo v5原理:
深入浅出Yolo系列之Yolov5核心基础知识完整讲解
官方操作指南：
https://github.com/ultralytics/yolov5/blob/master/tutorial.ipynb

二、下载代码及配置环境

linux可以使用下面命令进行环境配置，当然如果是windows下，直接下载压缩包，解压即可。

git clone https://github.com/ultralytics/yolov5
cd yolov5
pip install -qr requirements.txt

其中 requirements.txt 中包含了必要的配置环境：
基本如下:

python>=3.6
torch>=1.7.0

如果你有英伟达的显卡，可以安装GPU版本的Pytorch，参考：
pytorch安装及卸载

测试环境是否配置成功：

import torch
from IPython.display import Image, clear_output

print(torch.__version__)
print(torch.cuda.is_available())
clear_output()
print(f"Setup complete. Using torch {torch.__version__} ({torch.cuda.get_device_properties(0).name if torch.cuda.is_available() else 'CPU'})")

三、下载预训练模型

到yolo官方github下载四个版本的模型，模型下载，

将模型下载到与detect.py同目录下。

; 四、预测

yolo v5官方检测类别

['person', 'bicycle', 'car', 'motorcycle', 'airplane', 'bus', 'train', 'truck',
'boat', 'traffic light', 'fire hydrant', 'stop sign', 'parking meter', 'bench',
'bird', 'cat', 'dog', 'horse', 'sheep', 'cow', 'elephant', 'bear', 'zebra','giraffe',
'backpack', 'umbrella', 'handbag', 'tie', 'suitcase', 'frisbee', 'skis', 'snowboard',
'sports ball', 'kite', 'baseball bat', 'baseball glove', 'skateboard', 'surfboard',
'tennis racket', 'bottle', 'wine glass', 'cup', 'fork', 'knife', 'spoon', 'bowl',
'banana', 'apple', 'sandwich', 'orange', 'broccoli','carrot', 'hot dog', 'pizza',
'donut', 'cake', 'chair', 'couch', 'potted plant', 'bed', 'dining table', 'toilet',
'tv', 'laptop', 'mouse', 'remote', 'keyboard', 'cell phone', 'microwave', 'oven',
'toaster', 'sink', 'refrigerator', 'book', 'clock', 'vase', 'scissors', 'teddy bear',
'hair drier', 'toothbrush']

摄像头实时检测

python detect.py --source 0 --weights weights/yolov5s.pt

检测单张图片

 python detect.py --source  file.jpg

检测本地视频

 python detect.py --source  file.mp4

其他检测

 python detect.py --source   path/
 python detect.py --source   path/*.jpg
 python detect.py --source   'https://youtu.be/NUsoVlDFqZg'
 python detect.py --source   'rtsp://example.com/media.mp4'

指定某个模型

python detect.py --weights yolov5s.pt
                           yolov5m.pt
                           yolov5l.pt
                           yolov5x.pt

五、训练

数据集准备
参考：https://blog.csdn.net/weixin_44145782/article/details/113983421

数据集可以放置到任意位置都行。但是要有一定的格式，即images下是图像，labels是yolo格式的标签

如果不按照上面要求，就会出现下面错误。
AssertionError: train: No labels in data\train.cache. Can not train without

; 5.1、在data文件夹下新建make_txt.py

注意修改xml文件存放地址

'''
*******************************************************************************
函数名称: ReadImage
描    述: yolov5训练，数据集的准备，从voc数据集xml文件，分为预测训练验证
作    者：狄云
编写时间：2022.01.19
*******************************************************************************/
'''

import os
import random
trainval_percent = 0.1
train_percent = 0.9

xmlfilepath = 'E:/1_Training_picture/15_luomu/train/luomuxml'

if not os.path.exists('ImageSets/'):
    os.makedirs('ImageSets/')

total_xml = os.listdir(xmlfilepath)
num = len(total_xml)
list = range(num)
tv = int(num * trainval_percent)
tr = int(tv * train_percent)
trainval = random.sample(list, tv)
train = random.sample(trainval, tr)
ftrainval = open('ImageSets/trainval.txt', 'w')
ftest = open('ImageSets/test.txt', 'w')
ftrain = open('ImageSets/train.txt', 'w')
fval = open('ImageSets/val.txt', 'w')

for i in list:
    name = total_xml[i][:-4] + '\n'
    if i in trainval:
        ftrainval.write(name)
        if i in train:
            ftest.write(name)
        else:
            fval.write(name)
    else:
        ftrain.write(name)
ftrainval.close()
ftrain.close()
fval.close()
ftest.close()

运行以上代码，可以得到的结果是，在ImageSets中有我们的数据集分类：

5.2、在data文件夹创建 voc_label.py 文件，代码如下：

需要注意的是，sets中改为你的sets的名字（make_txt生成的）
classes修改为你需要检测的类别

import xml.etree.ElementTree as ET
import pickle
import os
from os import listdir, getcwd
from os.path import join

sets = ['train', 'test','val']

Imgpath = 'E:/1_Training_picture/15_luomu/train/images'
xmlfilepath = 'E:/1_Training_picture/15_luomu/train/luomuxml/'
ImageSets_path='ImageSets/'
classes = ['w', 'wu', 'y', 's']

def convert(size, box):
    dw = 1. / size[0]
    dh = 1. / size[1]
    x = (box[0] + box[1]) / 2.0
    y = (box[2] + box[3]) / 2.0
    w = box[1] - box[0]
    h = box[3] - box[2]
    x = x * dw
    w = w * dw
    y = y * dh
    h = h * dh
    return (x, y, w, h)
def convert_annotation(image_id):
    in_file = open(xmlfilepath+'%s.xml' % (image_id))
    out_file = open('labels/%s.txt' % (image_id), 'w')
    tree = ET.parse(in_file)
    root = tree.getroot()
    size = root.find('size')
    w = int(size.find('width').text)
    h = int(size.find('height').text)
    for obj in root.iter('object'):
        difficult = obj.find('difficult').text
        cls = obj.find('name').text
        if cls not in classes or int(difficult) == 1:
            continue
        cls_id = classes.index(cls)
        xmlbox = obj.find('bndbox')
        b = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text),
             float(xmlbox.find('ymax').text))
        bb = convert((w, h), b)
        out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')
wd = getcwd()
print(wd)
for image_set in sets:
    if not os.path.exists('labels/'):
        os.makedirs('labels/')
    image_ids = open(ImageSets_path+'%s.txt' % (image_set)).read().strip().split()
    list_file = open('%s.txt' % (image_set), 'w')
    for image_id in image_ids:
        list_file.write(Imgpath+'/%s.jpg\n' % (image_id))
        convert_annotation(image_id)
    list_file.close()

运行以上代码后，可以发现生成了voc格式的标签文件labels（显示数据集的具体标注数据），并且在data文件下出现了train、val、test的txt文件，保存了图片的路径。（带有图片的路径）

将label复制到图像位置同级目录下即可。

至此，我们的数据集就全部做完啦！！！~~

5.3、修改配置文件mytrain.yaml

修改coco.yaml文件
这里的yaml和以往的cfg文件是差不多的，但需要配置一份属于自己数据集的yaml文件。
复制data目录下的coco.yaml，我这里命名为mytrain.yaml
主要修改三个地方：

train: ./data/train.txt
val: ./data/val.txt
test: ./data/test.txt

nc: 4

names: ['w', 'wu', 'y', 's']

修改train,val,test的路径为自己刚刚生成的路径
nc 里的数字代表数据集的类别，我这里有一类，所以修改为4
names 里为自己数据集标注的类名称

5.4、开始训练

python train.py --data data/mytrain.yaml --cfg models/yolov5x.yaml --weights weights/yolov5x.pt

数据读取成功

使用tensorboard可视化结果

在yolov5目录下(train.py同目录下)，使用：

tensorboard --logdir=./runs/train/exp6

然后把返回的url地址粘贴到浏览器中即可！
一般都是：http://localhost:6006/

我测试显示结果如下：

; 六、可能遇到的问题

问题1:CUDA out of memory

RuntimeError: CUDA out of memory. Tried to allocate 126.00 MiB (GPU 0; 6.00 GiB total capacity; 3.71 GiB already allocated; 52.99 MiB free; 3.99 GiB reserved in total by PyTorch)

修改batch-size.我从默认16改成了8

Original: https://blog.csdn.net/mao_hui_fei/article/details/119331147
Author: 翟羽嚄
Title: 使用Yolov5进行目标检测并训练自己的VOC格式数据集

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/686528/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

5.OpenCV图像拼接

一、前言图像拼接（Image Stitching）是一种利用实景图像组成全景空间的技术，它将多幅图像拼接成一幅大尺度图像或360°全景图，可视作场景重建的一种特殊情况，其中图像仅…

人工智能 2023年7月26日
0056
(二)使用Pandas进行数据分析 – 查询数据的几种方法

Pandas查询数据的几种方法 Pandas使用df.loc查询数据的方法 Attention！以上查询方法，既适用于行，也适用于列注意观察降维 DataFrame > …

人工智能 2023年7月7日
00107
企业内部网络安全四大威胁，如何应对？

如今，网络环境愈发复杂，企业数字化程度也越来越高，加上疫情肆虐，远程办公、异地办公的方式，安全边界肆意拓宽，攻击面倍速增大，使得企业内部安全面临更为复杂的环境。据业内安全专家实践…

人工智能 2023年6月28日
0058
零基础入门Jetson Nano——通过OpenCV调用CSI和USB摄像头

Jetson Nano学习——摄像头调用前言一、CSI摄像头的调用 * 1、安装v4l2-utils协助工具 2、查看摄像头挂载情况 3、查看挂载的摄像头详细参数情况 4、检测…

人工智能 2023年6月18日
00522
PyCharm缓存将C盘挤爆？一招帮你从根本上解决(超详细)

文章目录原创声明起因解决方法总结授权须知原创声明本文为 HinGwenWoong 原创，如果这篇文章对您有帮助，欢迎转载，转载请阅读文末的【授权须知】，感谢您对 Hi…

人工智能 2023年6月16日
0078
DenseNet——密集连接的卷积神经网络

论文题目：Densely Connected Convolutional Networks 论文地址：https://arxiv.org/pdf/1608.06993.pdf 发表…

人工智能 2023年7月13日
00167
tensorflow 安装GPU版本，CUDA与cuDNN版本对应关系，RTX3050Ti （notebook）

前言安装Tensorflow-gpu 与 keras的时候，一定先要注意版本的对应，不然很容易出错，在看的时候，建议先看完整篇文章再上手。一、环境+配置本机环境显卡：RTX…

人工智能 2023年5月23日
00116
Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection

论文地址：https://arxiv.org/abs/2006.04388论文代码：https://github.com/implus/GFocal一阶段检测器基本将目标检测定义为…

人工智能 2023年7月9日
0087
Pytorch_Geometric（PyG）使用DataLoader报错RuntimeError: Sizes of tensors must match except in dimension 0.

使用Pytorch_Geometric（PyG）时构建DataLoader，从DataLoader获取样本Batch时报错： RuntimeError: Sizes of tens…

人工智能 2023年6月17日
0097
打通tensorflow版Unet_v1代码

目录知识积累：代码调试：构建Unet网络： 1.Conv2D ModelCheckpoint model.fit() 代码 data.py unet.py 运行…

人工智能 2023年6月22日
00113
【Unity】脚本：UI界面实现基本按键操作物体移动

点击UI界面摁按钮，实现对应移动等功能 private void Update() { time = Time.time; if(time_go == 1) { this.tran…

人工智能 2023年6月4日
00106
全景视频拼接技术的知识掌握——相机标定、投影变换、特征提取与匹配、拼接融合，亮度与颜色均衡处理及拼接质量评价指标

在视频监控应用中，如何有效实现宽视场范围视频的完整获取，是视频监控系统的关键功能之一。本文针对多摄像头硬件平台，重点研究 360 度全景视频拼接_的实现 _技术。在保证高质量…

人工智能 2023年5月26日
00105
python数据分析和处理3

代码 import matplotlib.pyplot as plt import numpy as np Plot circle or radius 3 an = np.lins…

人工智能 2023年7月18日
0045
5.7 tensorflow2实现主成分分析(PCA) ——python实战(下篇)

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月17日
0046
Pandas

一·Pands的数据结构分析 Pandas的两个主要的数据结构：Senes和DataFrame (一)1·Series是一个类似一维数组的对象，它能够保存任何类型的数据，主要由一组…

人工智能 2023年6月11日
00176
应用回归分析（第五版）例2.1的Python实现

例2.1假定一保险公司希望确定居民住宅区火灾造成的损失数额与该住户到最近的消费站的距离之间的相关关系，以便准确地定出保险金额。表列出了15起火灾事故的损失及火灾发生地与最近的消防站…

人工智能 2023年6月18日
0093

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31