Pytorch：yolov1系列（1）读取VOC2012数据集的目标检测标注

2023年7月11日下午9:28 • 人工智能 • 阅读 61

图像分类学的差不多了，最近开始学一下目标检测，记录一下学习的过程。首先打算复现一下YOLO系列的算法，先从简单的yolo v1开始。
yolov1论文地址：https://arxiv.org/pdf/1506.02640.pdf

网络结构：

yolo是一个一阶段的端到端的算法，检测速度会比RCNN系列快很多，网络是一个24层的卷积层，最后的输出是一个7 _7_30的tensor，这是原文中作者设定的，讲一张图片划分为7 _7的grid，也就是待检测目标的中心点，也就是锚框。每个锚框预测两个bounding box。所以输出是7_7 _30的tensor，7_7就是锚框数量，30是20+5+5，其中20维是object的类别对应的概率，因为是用的是VOC2012数据集，5是每一个Bounding box的输出，包含（class，centre x，centre y，height，width）。yolo中作者是把目标检测当做一个多维度输出的回归问题。

; VOC 2012

这个数据集基本上是目标检测，语义分割学习和研究绕不开的数据集。下载地址：https://pjreddie.com/projects/pascal-voc-dataset-mirror/
下载解压后数据集长这样：

其中labels是我后面生成的，实际上并没有，其中目标检测对应的标注存在Annotations下面，以半结构化的XML格式存放的，长这样：

<annotation>
    <folder>VOC2012folder>
    <filename>2007_000027.jpgfilename>
    <source>
        <database>The VOC2007 Databasedatabase>
        <annotation>PASCAL VOC2007annotation>
        <image>flickrimage>
    source>
    <size>
        <width>486width>
        <height>500height>
        <depth>3depth>
    size>
    <segmented>0segmented>
    <object>
        <name>personname>
        <pose>Unspecifiedpose>
        <truncated>0truncated>
        <difficult>0difficult>
        <bndbox>
            <xmin>174xmin>
            <ymin>101ymin>
            <xmax>349xmax>
            <ymax>351ymax>
        bndbox>
        <part>
            <name>headname>
            <bndbox>
                <xmin>169xmin>
                <ymin>104ymin>
                <xmax>209xmax>
                <ymax>146ymax>
            bndbox>
        part>
        <part>
            <name>handname>
            <bndbox>
                <xmin>278xmin>
                <ymin>210ymin>
                <xmax>297xmax>
                <ymax>233ymax>
            bndbox>
        part>
        <part>
            <name>footname>
            <bndbox>
                <xmin>273xmin>
                <ymin>333ymin>
                <xmax>297xmax>
                <ymax>354ymax>
            bndbox>
        part>
        <part>
            <name>footname>
            <bndbox>
                <xmin>319xmin>
                <ymin>307ymin>
                <xmax>340xmax>
                <ymax>326ymax>
            bndbox>
        part>
    object>
annotation>

标注是相当精细的，把人的手脚头等位置都标注了出来，使用的是左上坐标以及右下坐标的方式来表达bounding box，在预处理中，我们先将图片对应的标注读取出来放到txt文件中，也就是上面的labels文件夹下，方便训练的时候读取。

代码

坐标转换

我们需要将Bounding box的表示从左上右下坐标的表示法转换成中心坐标和高宽的方式。

python
def corner_to_centre(size, box):
    """将bbox的表示形式从左上右下的点转换为中心点以及宽高的方式"""

    dw = 1.0 / size[0]
    dh = 1.0 / size[1]
    x = (box[0] + box[1]) / 2.0
    y = (box[2] + box[3]) / 2.0
    h = box[3] - box[2]
    w = box[1] - box[0]

    x = x * dw
    w = w * dw
    y = y * dh
    h = h * dh

    return (x, y, w, h)

将label从xml文件转到txt文件中

def convert_annotation_to_txt(image_id):
    """把图像image_id的xml标注文件转换为目标检测需要的label文件（txt）
    其中包含有多行，每行表示一个object，包含类别信息，以及bbox的中心坐标以及
    宽和高，并将四个物理量归一化
"""
    inflie = open(dataset_path + "/%s" % (image_id))
    image_id = image_id.split('.')[0]
    out_file = open('VOC2012/labels/%s.txt' % image_id, 'w')
    tree = ET.parse(inflie)
    root = tree.getroot()
    size = root.find('size')
    w = int(size.find('width').text)
    h = int(size.find('height').text)

    for obj in root.iter('object'):
        difficult = obj.find('difficult').text
        cls = obj.find('name').text
        if cls not in CLASSES or int(difficult) == 1:
            continue
        cls_id = CLASSES.index(cls)
        xmlbox = obj.find('bndbox')
        points = (float(xmlbox.find('xmin').text),
                  float(xmlbox.find('xmax').text),
                  float(xmlbox.find('ymin').text),
                  float(xmlbox.find('ymax').text),
                  )
        res = corner_to_centre((w, h), points)
        print(res)
        out_file.write(str(cls_id) + " " + " ".join([str(a) for a in res]) + '\n')

遍历文件

def make_label_txt():
    """在 labels文件夹下创建image_id.txt，对应每个image_id.xml提取出的bbox信息"""
    filenames = os.listdir(dataset_path)
    print(filenames)
    for filename in filenames:
        print(filename)
        convert_annotation_to_txt(filename)

make_label_txt()

经过上面的处理之后，就把图像的标注写到对应的txt文件中了，文件可能有多行，因为没张图片包含的object数目不固定。

7 0.508 0.505464480874317 0.98 0.4262295081967213
7 0.903 0.5819672131147541 0.122 0.07103825136612021
7 0.736 0.5614754098360656 0.17200000000000001 0.09562841530054644

每行的第一个数目表示物体类别的索引，2，3表示中心坐标，4，5表示高宽值，四个值一起表示bounding box的位置，值都做了归一化处理。
可视化显示label的转换看是否能还原回去。


import os
import shlex

import cv2
CLASSES = ['person', 'bird', 'cat', 'cow', 'dog', 'horse', 'sheep',
           'aeroplane', 'bicycle', 'boat', 'bus', 'car', 'motorbike', 'train',
           'bottle', 'chair', 'dining table', 'potted plant', 'sofa', 'tvmonitor']

data_path = r'VOC2012/JPEGImages'
def show_labels_img(imgname):
    """imgname是图象下标"""
    img = cv2.imread(data_path + '/' + imgname + '.jpg')
    h, w = img.shape[:2]
    print(w,h)
    print(w,h)
    label = []
    with open('VOC2012/labels/' + imgname + '.txt','r') as f:
        for label in f:
            label = label.split(' ')
            label = [float(x.strip()) for x in label]
            pt1 = (int(label[1] * w - label[3] * w / 2), int(label[2] * h - label[4] * h / 2))
            pt2 = (int(label[1] * w + label[3] * w / 2), int(label[2] * h + label[4] * h / 2))
            cv2.putText(img, CLASSES[int(label[0])], pt1, cv2.FONT_HERSHEY_SIMPLEX, 0.5, (0, 0, 255))
            cv2.rectangle(img, pt1, pt2, (0, 0, 255, 2))

    cv2.imshow('img', img)
    cv2.waitKey(0)

show_labels_img('2007_000033')

Original: https://blog.csdn.net/lwf1881/article/details/121597330
Author: spectrelwf
Title: Pytorch：yolov1系列（1）读取VOC2012数据集的目标检测标注

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/686322/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Springboot 那年我双手插兜，手写一个excel导出

前言其实就是利用了csv 和txt 文件转换。不多说，开始玩代码。正文本篇内容： ① 了解根本生成excel内容的CSV文件玩法 ② 手动拼接文本演示 ③ 项目内实战写法…

人工智能 2023年7月31日
0052
torch和torchvision对应版本（最新版，含有torchvision 0.13.0版本）

… image:: https://pepy.tech/badge/torchvision:target: https://pepy.tech/project/torc…

人工智能 2023年6月16日
00120
matlab：鼠标循环点击器

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
0049
添加字幕（ARCTIME法）

有两种制作字幕文件的形式： 1、为已有语音的视频添加字幕建议使用专业的语音识别软件将语音转换成文字，或者使用专业的字幕软件，如字幕通 Yee Caption 等，一键将语音转换成…

人工智能 2023年5月25日
0073
KNN——水果分类

文章目录一、数据集处理 * – 1、下载数据集 2、统一数据集格式 3、加载数据集二、分离训练集、验证集三、定义KNN模型 * – 1、计算欧式距离 …

人工智能 2023年7月1日
0076
脑电EEG常用的特征

最近学习有关脑电的一些基础知识，基于深度学习对脑电信号进行分类时，首先需要对脑电信号进行预处理（滤波等），这时一般不能将其作为数据进行学习，更常见的是提取脑电信号的特征，然后再用深…

人工智能 2023年6月15日
0088
pytorch 实现人脸检测与识别

pytorch + opencv 实现人脸检测与识别准备工作人脸检测 * opencv实现人脸检测卷积神经网络 CNN 实现人脸检测 – 数据导入 CNN模型训练…

人工智能 2023年6月17日
0075
Nvidia MX150安装Tensorflow-GPU版，Pycharm使用Keras

使用环境：Windows 10 Professional + Pycharm 需要使用：Tensorflow+keras 顺序安装：CUDA→CUDNN→Tensorflow 特别…

人工智能 2023年5月23日
00103
几种深度学习可视化方法（针对层级化特征表示）的辨析

几种深度学习层级化特征学习可视化图的辨析 Hierarchical RepresentationsVisualization 深度学习（deep learning，DL）的强大得益…

人工智能 2023年7月13日
0054
使用redis-shake工具迁移云Redis数据（二十一）

文章目录 * – 1.在ECS服务器中部署相同版本的Redis – 2.安装redis-shake工具 – 3.redis-shake配置文件 …

人工智能 2023年7月29日
0054
融合知识图谱和用户行为信息的个性化推荐算法研究

来源：《计算机科学与应用》，作者程静文等关键词: 推荐系统；知识图谱；深度神经网络摘要：摘要:针对传统协同过滤存在的稀疏性和冷启动问题，通常使用深度神经网络(DNN)构建…

人工智能 2023年6月1日
00111
nms和P，R，map原理及在Yolov5代码中的解析

将非极大值抑制（nms）和map放在一块进行讲解分析，因为其都是通过IOU和置信度（score）来计算，但两者方式不一样，容易产生干扰，NMS通过IOU来过滤掉候选框，而map通过…

人工智能 2023年7月9日
00109
PyTorch提供了哪些优化器（Optimizer）和损失函数（Los

优化器（Optimizer）和损失函数（Loss）介绍优化器（Optimizer）在深度学习中，优化器用于更新模型参数以最小化损失函数。PyTorch提供了多种优化器，其中常用…

人工智能 2024年1月3日
0042
JAVA中如何实现代码优化（技巧讲解）

前言：今天叶秋学长跟大家谈谈优化这个话题，那么我们一起聊聊Java中如何实现代码优化这个问题，学长这里有几个实用的小技巧分享给大家，希望会对你们有所帮助。博主传送门：叶秋学长推…

人工智能 2023年5月30日
0068
【如何在anaconda虚拟环境中安装多个版本的CUDA,cudnn,pytorch,torchvision,torchaudio及进行环境配置手把手教学】

如何在anaconda虚拟环境中安装多个版本的CUDA,cudnn,pytorch,torchvision,torchaudio及进行环境配置手把手教学 0，操作代码汇总 1，查看…

人工智能 2023年6月15日
00116
图像去雾算法–暗通道先验去雾算法

图像去雾：在雾天拍摄的图像容易受雾或霾的影响，导致图片细节模糊、对比度低以至于丢失图像重要信息，为解决此类问题图像去雾算法应运而生。图像去雾算法是以满足特定场景需求、突出图片细节…

人工智能 2023年5月26日
0078

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Pytorch：yolov1系列（1）读取VOC2012数据集的目标检测标注

坐标转换

将label从xml文件转到txt文件中

遍历文件

大家都在看