SSD（pytorch）自建数据集训练及测试

2023年7月23日上午7:37 • 人工智能 • 阅读 89

一、数据集准备

SSD代码：GitHub – amdegroot/ssd.pytorch: A PyTorch Implementation of Single Shot MultiBox Detector

采用的VOC格式的数据集，在data文件夹下新建文件夹VOCdevkit/VOC2007，数据集放在该路径下。数据集包括Annotations（放xml文件）、ImageSets、JPEGImages（放图片），ImageSets下又Main，包含test.txt、train.txt、val.txt、trainval.txt，用于划分数据集。

yolo格式数据集转VOC格式的代码如下：

24行：更改类别名，顺序要按yolo标注的顺序写

67、101行：更改图片格式

107行：更改图片的路径

216、218、220行：更改文件夹路径地址

-*- coding: utf-8 -*-

import os
import xml.etree.ElementTree as ET
from xml.dom.minidom import Document
import cv2

'''
import xml
xml.dom.minidom.Document().writexml()
def writexml(self,
             writer: Any,
             indent: str = "",
             addindent: str = "",
             newl: str = "",
             encoding: Any = None) -> None
'''

class YOLO2VOCConvert:
    def __init__(self, txts_path, xmls_path, imgs_path):
        self.txts_path = txts_path   # 标注的yolo格式标签文件路径
        self.xmls_path = xmls_path   # 转化为voc格式标签之后保存路径
        self.imgs_path = imgs_path   # 读取读片的路径各图片名字，存储到xml标签文件中
        self.classes = ['pedestrian', 'cyclist', 'car', 'large vehicle']

    # 从所有的txt文件中提取出所有的类别， yolo格式的标签格式类别为数字 0,1,...

    # writer为True时，把提取的类别保存到'./Annotations/classes.txt'文件中
    def search_all_classes(self, writer=False):
        # 读取每一个txt标签文件，取出每个目标的标注信息
        all_names = set()
        txts = os.listdir(self.txts_path)
        # 使用列表生成式过滤出只有后缀名为txt的标签文件
        txts = [txt for txt in txts if txt.split('.')[-1] == 'txt']
        print(len(txts), txts)
        # 11 ['0002030.txt', '0002031.txt', ... '0002039.txt', '0002040.txt']
        for txt in txts:
            txt_file = os.path.join(self.txts_path, txt)
            with open(txt_file, 'r') as f:
                objects = f.readlines()
                for object in objects:
                    object = object.strip().split(' ')
                    print(object)  # ['2', '0.506667', '0.553333', '0.490667', '0.658667']
                    all_names.add(int(object[0]))
            # print(objects)  # ['2 0.506667 0.553333 0.490667 0.658667\n', '0 0.496000 0.285333 0.133333 0.096000\n', '8 0.501333 0.412000 0.074667 0.237333\n']

        print("所有的类别标签：", all_names, "共标注数据集：%d张" % len(txts))

        return list(all_names)

    def yolo2voc(self):
        # 创建一个保存xml标签文件的文件夹
        if not os.path.exists(self.xmls_path):
            os.mkdir(self.xmls_path)

        # 把上面的两个循环改写成为一个循环：
        imgs = os.listdir(self.imgs_path)
        txts = os.listdir(self.txts_path)
        txts = [txt for txt in txts if not txt.split('.')[0] == "classes"]  # 过滤掉classes.txt文件
        print(txts)
        # 注意，这里保持图片的数量和标签txt文件数量相等，且要保证名字是一一对应的   (后面改进，通过判断txt文件名是否在imgs中即可)
        if len(imgs) == len(txts):   # 注意：./Annotation_txt 不要把classes.txt文件放进去
            map_imgs_txts = [(img, txt) for img, txt in zip(imgs, txts)]
            txts = [txt for txt in txts if txt.split('.')[-1] == 'txt']
            print(len(txts), txts)
            for img_name, txt_name in map_imgs_txts:
                # 读取图片的尺度信息
                img_name=txt_name.split('.')[0] + '.jpg'
                print("读取图片：", img_name)
                img = cv2.imread(os.path.join(self.imgs_path, img_name))
                height_img, width_img, depth_img = img.shape
                print(height_img, width_img, depth_img)   # h 就是多少行（对应图片的高度）， w就是多少列（对应图片的宽度）

                # 获取标注文件txt中的标注信息
                all_objects = []
                txt_file = os.path.join(self.txts_path, txt_name)
                with open(txt_file, 'r') as f:
                    objects = f.readlines()
                    for object in objects:
                        object = object.strip().split(' ')
                        all_objects.append(object)
                        print(object)  # ['2', '0.506667', '0.553333', '0.490667', '0.658667']

                # 创建xml标签文件中的标签
                xmlBuilder = Document()
                # 创建annotation标签，也是根标签
                annotation = xmlBuilder.createElement("annotation")

                # 给标签annotation添加一个子标签
                xmlBuilder.appendChild(annotation)

                # 创建子标签folder
                folder = xmlBuilder.createElement("folder")
                # 给子标签folder中存入内容，folder标签中的内容是存放图片的文件夹，例如：JPEGImages
                folderContent = xmlBuilder.createTextNode(self.imgs_path.split('/')[-1])  # 标签内存
                folder.appendChild(folderContent)  # 把内容存入标签
                annotation.appendChild(folder)   # 把存好内容的folder标签放到 annotation根标签下

                # 创建子标签filename
                filename = xmlBuilder.createElement("filename")
                # 给子标签filename中存入内容，filename标签中的内容是图片的名字，例如：000250.jpg
                filenameContent = xmlBuilder.createTextNode(txt_name.split('.')[0] + '.jpg')  # 标签内容
                filename.appendChild(filenameContent)
                annotation.appendChild(filename)

                #path
                path = xmlBuilder.createElement("path")
                pathContent = xmlBuilder.createTextNode('/home/seucar/Sunyx/ssd.pytorch-master/data/VOCdevkit/VOC2007/JPEGImages/'+txt_name.split('.')[0] + '.jpg')
                path.appendChild(pathContent)
                annotation.appendChild(path)

                #source
                source=xmlBuilder.createElement("source")
                database = xmlBuilder.createElement("database")
                databaseContent = xmlBuilder.createTextNode('Unknown')
                database.appendChild(databaseContent)
                source.appendChild(database)
                annotation.appendChild(source)

                # 把图片的shape存入xml标签中
                size = xmlBuilder.createElement("size")
                # 给size标签创建子标签width
                width = xmlBuilder.createElement("width")  # size子标签width
                widthContent = xmlBuilder.createTextNode(str(width_img))
                width.appendChild(widthContent)
                size.appendChild(width)   # 把width添加为size的子标签
                # 给size标签创建子标签height
                height = xmlBuilder.createElement("height")  # size子标签height
                heightContent = xmlBuilder.createTextNode(str(height_img))  # xml标签中存入的内容都是字符串
                height.appendChild(heightContent)
                size.appendChild(height)  # 把width添加为size的子标签
                # 给size标签创建子标签depth
                depth = xmlBuilder.createElement("depth")  # size子标签width
                depthContent = xmlBuilder.createTextNode(str(depth_img))
                depth.appendChild(depthContent)
                size.appendChild(depth)  # 把width添加为size的子标签
                annotation.appendChild(size)   # 把size添加为annotation的子标签

                #segmented
                segmented=xmlBuilder.createElement("segmented")
                segmentedContent = xmlBuilder.createTextNode('0')
                segmented.appendChild(segmentedContent)
                annotation.appendChild(segmented)

                # 每一个object中存储的都是['2', '0.506667', '0.553333', '0.490667', '0.658667']一个标注目标
                for object_info in all_objects:
                    # 开始创建标注目标的label信息的标签
                    object = xmlBuilder.createElement("object")  # 创建object标签
                    # 创建label类别标签
                    # 创建name标签
                    imgName = xmlBuilder.createElement("name")  # 创建name标签
                    imgNameContent = xmlBuilder.createTextNode(self.classes[int(object_info[0])])
                    imgName.appendChild(imgNameContent)
                    object.appendChild(imgName)  # 把name添加为object的子标签

                    # 创建pose标签
                    pose = xmlBuilder.createElement("pose")
                    poseContent = xmlBuilder.createTextNode("Unspecified")
                    pose.appendChild(poseContent)
                    object.appendChild(pose)  # 把pose添加为object的标签

                    # 创建truncated标签
                    truncated = xmlBuilder.createElement("truncated")
                    truncatedContent = xmlBuilder.createTextNode("0")
                    truncated.appendChild(truncatedContent)
                    object.appendChild(truncated)

                    # 创建difficult标签
                    difficult = xmlBuilder.createElement("difficult")
                    difficultContent = xmlBuilder.createTextNode("0")
                    difficult.appendChild(difficultContent)
                    object.appendChild(difficult)

                    # 先转换一下坐标
                    # (objx_center, objy_center, obj_width, obj_height)->(xmin，ymin, xmax,ymax)
                    x_center = float(object_info[1])*width_img + 1
                    y_center = float(object_info[2])*height_img + 1
                    xminVal = int(x_center - 0.5*float(object_info[3])*width_img)   # object_info列表中的元素都是字符串类型
                    yminVal = int(y_center - 0.5*float(object_info[4])*height_img)
                    xmaxVal = int(x_center + 0.5*float(object_info[3])*width_img)
                    ymaxVal = int(y_center + 0.5*float(object_info[4])*height_img)

                    # 创建bndbox标签(三级标签)
                    bndbox = xmlBuilder.createElement("bndbox")
                    # 在bndbox标签下再创建四个子标签(xmin，ymin, xmax,ymax) 即标注物体的坐标和宽高信息
                    # 在voc格式中，标注信息：左上角坐标（xmin, ymin） （xmax, ymax）右下角坐标
                    # 1、创建xmin标签
                    xmin = xmlBuilder.createElement("xmin")  # 创建xmin标签（四级标签）
                    xminContent = xmlBuilder.createTextNode(str(xminVal))
                    xmin.appendChild(xminContent)
                    bndbox.appendChild(xmin)
                    # 2、创建ymin标签
                    ymin = xmlBuilder.createElement("ymin")  # 创建ymin标签（四级标签）
                    yminContent = xmlBuilder.createTextNode(str(yminVal))
                    ymin.appendChild(yminContent)
                    bndbox.appendChild(ymin)
                    # 3、创建xmax标签
                    xmax = xmlBuilder.createElement("xmax")  # 创建xmax标签（四级标签）
                    xmaxContent = xmlBuilder.createTextNode(str(xmaxVal))
                    xmax.appendChild(xmaxContent)
                    bndbox.appendChild(xmax)
                    # 4、创建ymax标签
                    ymax = xmlBuilder.createElement("ymax")  # 创建ymax标签（四级标签）
                    ymaxContent = xmlBuilder.createTextNode(str(ymaxVal))
                    ymax.appendChild(ymaxContent)
                    bndbox.appendChild(ymax)

                    object.appendChild(bndbox)
                    annotation.appendChild(object)  # 把object添加为annotation的子标签
                f = open(os.path.join(self.xmls_path, txt_name.split('.')[0]+'.xml'), 'w')
                xmlBuilder.writexml(f, indent='\t', newl='\n', addindent='\t', encoding='utf-8')
                f.close()

if __name__ == '__main__':
    # 把yolo的txt标签文件转化为voc格式的xml标签文件
    # yolo格式txt标签文件相对路径
    txts_path1 = './labels'
    # 转化为voc格式xml标签文件存储的相对路径
    xmls_path1 = './Annotations'
    # 存放图片的相对路径
    imgs_path1 = './JPEGImages'

    yolo2voc_obj1 = YOLO2VOCConvert(txts_path1, xmls_path1, imgs_path1)
    labels = yolo2voc_obj1.search_all_classes()
    print('labels: ', labels)
    yolo2voc_obj1.yolo2voc()

二、训练

新建文件夹weights，下载预训练权重VGG16_reducedfc_pth。链接：https://pan.baidu.com/s/1c0K1oNly5FUJjTetTQgf_A
提取码：9cfh

data/conifg.py修改voc里的num_classes和max_iter，类别为自己的类别数+1（背景），最大迭代次数可以适当减小。

data/VOC0712.py修改VOC_CLASSES

ssd.py中修改32行num_classes以及改变pull_item函数如下（解决img, boxes, labels = self.transform(img, target[:, :4], target[:, 4])这行报错，target可能为空）：

train.py将.data[0]全部替换为.item()，以及如下：

可能还有别的地方需要修改，但我忘了具体位置了，但根据报错直接搜都能解决，就不一一列举了

三、评价

eval.py的do_python_eval函数做如下修改，可以输出Recall、Precision和mAP（f1也有计算但我没输出，有需要可以自己加）。注意修改recs和precs初始时的类别数（不用加背景）

def do_python_eval(output_dir='output', use_07=True):
    cachedir = os.path.join(devkit_path, 'annotations_cache')
    aps = []
    recs = np.zeros((4, 500000)) #4 represent number of classes
    precs = np.zeros((4, 500000)) #4 represent number of classes
    # The PASCAL VOC metric changed in 2010
    use_07_metric = use_07
    print('VOC07 metric? ' + ('Yes' if use_07_metric else 'No'))
    if not os.path.isdir(output_dir):
        os.mkdir(output_dir)
    print('1')
    for i, cls in enumerate(labelmap):
        filename = get_voc_results_file_template(set_type, cls)
        rec, prec, ap = voc_eval(
           filename, annopath, imgsetpath.format(set_type), cls, cachedir,
           ovthresh=0.1, use_07_metric=use_07_metric)
        aps += [ap]
        #recs += [rec.mean(0)]
        #precs += [prec.max(0)]
        #print(rec.shape)

        rec=rec.reshape(len(rec))
        prec=prec.reshape(len(prec))
        r=np.pad(rec,(0,500000-len(rec)),'constant',constant_values=(0,0))
        p=np.pad(prec,(0,500000-len(prec)),'constant',constant_values=(0,0))
        recs[i] = r
        precs[i] = p
        '''pl.plot(rec, prec, lw=2,
                    label='{} (AP = {:.4f})'
                          ''.format(cls, ap))'''
        print('AP for {} = {:.4f}'.format(cls, ap))
        with open(os.path.join(output_dir, cls + '_pr.pkl'), 'wb') as f:
            pickle.dump({'rec': rec, 'prec': prec, 'ap': ap}, f)
    eps=1e-16
    f1 = 2 * precs * recs / (precs + recs + eps)
    i = f1.mean(0).argmax()
    precs, recs, f1 = precs[:, i], recs[:, i], f1[:, i]
    '''pl.xlabel('Recall')
    pl.ylabel('Precision')
    plt.grid(True)
    pl.ylim([0.0, 1.05])
    pl.xlim([0.0, 1.0])
    pl.title('Precision-Recall')
    pl.legend(loc="upper left")
    plt.show()'''
    print('Mean AP = {:.4f}'.format(np.mean(aps)))
    print('recall:',recs)
    print('Precision:',precs)
    print('recall:',format(np.mean(recs)))
    print('Precision:',format(np.mean(precs)))
    print('~~~~~~~~')
    print('Results:')
    for ap in aps:
        print('{:.3f}'.format(ap))
    print('{:.3f}'.format(np.mean(aps)))
    print('~~~~~~~~')
    print('')
    print('--------------------------------------------------------------')
    print('Results computed with the **unofficial** Python eval code.')
    print('Results should be very close to the official MATLAB eval code.')
    print('--------------------------------------------------------------')

Original: https://blog.csdn.net/OrigamiSun/article/details/124715265
Author: OrigamiSun
Title: SSD（pytorch）自建数据集训练及测试

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/710270/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

论文笔记：Sequence-to-Sequence Knowledge Graph Completion and QuestionAnswering

Sequence-to-Sequence Knowledge Graph Completion and Question 备注：ACL 2022 Main Conference链接…

人工智能 2023年5月27日
00102
End-to-end Structure-Aware Convolutional Networks for Knowledge Base Completion

研究问题将图网络作为编码器，将Conv-TransE作为解码器，应用于知识图谱补全任务背景动机 ConvE模型在做卷积之前对embedding实施了reshape操作，并且没有…

人工智能 2023年6月1日
0080
Tensorflow神经网络模型训练之Fashion Mnist

人工智能 2023年5月26日
0075
【PyTorch】深度学习实践之RNN高级篇—实现分类

本文目录 1. RNN分类器 2. 分类器实现 * 准备数据准备模型双向RNN/LSTM/GRU * forword过程名字转换tensor 训练过程测试过程 3. 完整代…

人工智能 2023年6月30日
0098
书写数字识别（C++ 、 KNN 、openCV）

目录前言什么是KNN？ opencv中的类 mat类： point类： size类：生成训练图片生成XML文件测试前言前段时间在工作中用到一些图像处理的内容，功能不算…

人工智能 2023年7月12日
0070
深度剖析Pyechars Graph关系图谱

前言网上看了好多Graph，基本都是引用官网公示文档。路漫漫其修远兮，吾将上下而求索，花了近一周时间，总结一下自己对Pyechars Graph的理解，深度还原Pyechars …

人工智能 2023年6月1日
0074
VGG16识别MNIST数据集(Pytorch实战)

文章目录 1.导入相关库 2.获取数据集 * 数据集简单介绍 3.创建VGG16模型 * 简单查看一下网络结构 4.开启训练 * 训练结果训练损失和测试损失关系图训练精度和测试…

人工智能 2023年7月22日
0060
推荐一个开源还在维护的标注工具（支持图像、文本、视频、医疗图像）

鹏城实验室开发的标注系统，完全开源，地址：OpenIOSSG/PLabel: 半自动标注系统是基于BS架构，纯Web页面操作，集成视频抽帧，目标检测、视频跟踪、ReID分类等算法，…

人工智能 2023年7月10日
00124
Pandas数据分析22——pandas时间序列

参考书目：《深入浅出Pandas：利用Python进行数据处理与分析》 pandas的索引可以用时间来替代，然后基于时间序列数据会有很多用法，了解一下。时间对象有：还是先导入包…

人工智能 2023年7月7日
0056
matlab神经网络工具箱

matlab拥有着很多实用的工科计算工具，其中就包含了神经网络工具箱。利用matlab，可以很容易地搭建一个实用的神经网络。 nnstart 输入后，会出现窗体，点击对应的窗体即可…

人工智能 2023年6月15日
0092
OD-Model【6】：YOLOv2

系列文章目录 YOLO目标检测系列（一）：OD-Model【5】：YOLOv1YOLO目标检测系列（二）：OD-Model【6】：YOLOv2YOLO目标检测系列（三）：OD-Mo…

人工智能 2023年7月10日
0065
常见的评估回归算法性能的指标包括均方误差（MSE）、均方根误差（RMSE）、平均绝对误差（MAE）、R方系数等

介绍在回归问题中，我们常常需要评估不同的回归算法的性能。评估指标可以帮助我们判断回归模型的拟合程度以及预测的准确性。本文将详细介绍常见的回归算法性能指标，包括均方误差（MSE）、…

人工智能 2023年12月31日
00102
2023最新SSM计算机毕业设计选题大全（附源码+LW）之java房源网4c6sv

好的选题直接决定了毕业设计好坏，甚至决定了能否毕业。今天，我们就来聊一聊毕设该怎么选题。这里分三个选题标准。第一，参考所在学校往年选题类型和难度可以向学长学姐了解往年的选题类…

人工智能 2023年6月28日
0081
分位数回归原理_SPSS案例实践：分位数回归

SPSS 26.0 新增了一个统计方法，分位数回归。它和我们此前经常讨论的OLS线性回归，主要区别在于可以更加细致的观察因变量Y的不同分布下回归系数的变化。比如年龄对收入的影响，…

人工智能 2023年6月18日
00121
【数字图像处理课程设计】期中、期末综合考试题目整理总结（共四个图像处理算法应用题）

目录一、下面两幅图像中有几处不同，编程把它们找出来、并在图中突出显示（关键步骤不能调用内置函数）。 1.算法原理 2.解题步骤 3.程序代码 4.处理结果二、下图含有干扰条纹（…

人工智能 2023年6月18日
0065
Python 机器学习实战 —— 无监督学习（上）

前言在上篇《Python 机器学习实战 —— 监督学习;》介绍了支持向量机、k近邻、朴素贝叶斯分类、决策树、决策树集成等多种模型，这篇文章将为大家介绍一下无监督学习的使用。无…

人工智能 2023年6月4日
0094

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

SSD（pytorch）自建数据集训练及测试

大家都在看