coco数据集解析及读取方法

2023年8月2日下午4:40 • Python • 阅读 79

1.coco数据集格式

MC COCO2017年主要包含以下四个任务：目标检测与分割、图像描述、人体关键点检测，如下所示：

annotations: &#x5BF9;&#x5E94;&#x6807;&#x6CE8;&#x6587;&#x4EF6;&#x5939;
    &#x251C;&#x2500;&#x2500; instances_train2017.json       : &#x5BF9;&#x5E94;&#x76EE;&#x6807;&#x68C0;&#x6D4B;&#x3001;&#x5206;&#x5272;&#x4EFB;&#x52A1;&#x7684;&#x8BAD;&#x7EC3;&#x96C6;&#x6807;&#x6CE8;&#x6587;&#x4EF6;
    &#x251C;&#x2500;&#x2500; instances_val2017.json         : &#x5BF9;&#x5E94;&#x76EE;&#x6807;&#x68C0;&#x6D4B;&#x3001;&#x5206;&#x5272;&#x4EFB;&#x52A1;&#x7684;&#x9A8C;&#x8BC1;&#x96C6;&#x6807;&#x6CE8;&#x6587;&#x4EF6;
    &#x251C;&#x2500;&#x2500; captions_train2017.json            : &#x5BF9;&#x5E94;&#x56FE;&#x50CF;&#x63CF;&#x8FF0;&#x7684;&#x8BAD;&#x7EC3;&#x96C6;&#x6807;&#x6CE8;&#x6587;&#x4EF6;
    &#x251C;&#x2500;&#x2500; captions_val2017.json          : &#x5BF9;&#x5E94;&#x56FE;&#x50CF;&#x63CF;&#x8FF0;&#x7684;&#x9A8C;&#x8BC1;&#x96C6;&#x6807;&#x6CE8;&#x6587;&#x4EF6;
    &#x251C;&#x2500;&#x2500; person_keypoints_train2017.json    : &#x5BF9;&#x5E94;&#x4EBA;&#x4F53;&#x5173;&#x952E;&#x70B9;&#x68C0;&#x6D4B;&#x7684;&#x8BAD;&#x7EC3;&#x96C6;&#x6807;&#x6CE8;&#x6587;&#x4EF6;
    &#x2514;&#x2500;&#x2500; person_keypoints_val2017.json  : &#x5BF9;&#x5E94;&#x4EBA;&#x4F53;&#x5173;&#x952E;&#x70B9;&#x68C0;&#x6D4B;&#x7684;&#x9A8C;&#x8BC1;&#x96C6;&#x6807;&#x6CE8;&#x6587;&#x4EF6;&#x5939;

Object segmentation           : &#x76EE;&#x6807;&#x7EA7;&#x5206;&#x5272;
Recognition in context        : &#x56FE;&#x50CF;&#x60C5;&#x666F;&#x8BC6;&#x522B;
Superpixel stuff segmentation : &#x8D85;&#x50CF;&#x7D20;&#x5206;&#x5272;
330K images (>200K labeled)   : &#x8D85;&#x8FC7;33&#x4E07;&#x5F20;&#x56FE;&#x50CF;&#xFF0C;&#x6807;&#x6CE8;&#x8FC7;&#x7684;&#x56FE;&#x50CF;&#x8D85;&#x8FC7;20&#x4E07;&#x5F20;
1.5 million object instances  : 150&#x4E07;&#x4E2A;&#x5BF9;&#x8C61;&#x5B9E;&#x4F8B;
80 object categories          : 80&#x4E2A;&#x76EE;&#x6807;&#x7C7B;&#x522B;
91 stuff categories           : 91&#x4E2A;&#x6750;&#x6599;&#x7C7B;&#x522B;
5 captions per image          : &#x6BCF;&#x5F20;&#x56FE;&#x50CF;&#x6709;5&#x6BB5;&#x60C5;&#x666F;&#x63CF;&#x8FF0;
250,000 people with keypoints : &#x5BF9;25&#x4E07;&#x4E2A;&#x4EBA;&#x8FDB;&#x884C;&#x4E86;&#x5173;&#x952E;&#x70B9;&#x6807;&#x6CE8;

""" &#x6CE8;&#x610F; """
COCO&#x6570;&#x636E;&#x96C6;&#x683C;&#x5F0F;&#x4E2D;&#xFF0C;bbox &#x7684;&#x4FDD;&#x5B58;&#x683C;&#x5F0F;&#x4E3A; [x, y, w, h]
&#x5982;&#x679C;&#x9700;&#x8981;&#x8F6C;&#x6362;&#x4E3A;[x1,y1,x2,y2]&#xFF0C;&#x53EF;&#x4EE5;&#x901A;&#x8FC7;&#x5982;&#x4E0B;&#x8FDB;&#x884C;&#x8F6C;&#x6362;
bbox = [x1, y1, x1 + w - 1, y1 + h - 1]

JSON文件的基本格式，以实例分割为例，主要有五个部分：info、licenses、images、annotations、categories

info记录关于数据集的一些基本信息

2.licenses是数据集遵循的一些许可

3.images是数据集中包含的图像，长度等于图像的数量

4.annotations字段是包含多个annotation实例的一个数组，annotation类型本身又包含了一系列的字段，如这个目标的category id和segmentation mask。segmentation格式取决于这个实例是一个单个的对象（即iscrowd=0，将使用polygons格式）还是一组对象（即iscrowd=1，将使用RLE格式）。

注意，单个的对象（iscrowd=0)可能需要多个polygon来表示，比如这个对象在图像中被挡住了。而iscrowd=1时（将标注一组对象，比如一群人）的segmentation使用的就是RLE格式。每个对象（不管是iscrowd=0还是iscrowd=1）都会有一个矩形框bbox ，矩形框左上角的坐标和矩形框的长宽会以数组的形式提供，数组第一个元素就是左上角的横坐标值。

area是area of encoded masks，是标注区域的面积。如果是矩形框，那就是高乘宽；如果是polygon或者RLE，那就复杂点。

最后，annotation结构中的categories字段存储的是当前对象所属的category的id，以及所属的supercategory的name。

polygon格式比较简单，这些数按照相邻的顺序两两组成一个点的xy坐标，如果有n个数（必定是偶数），那么就是n/2个点坐标。

polygon与mask之间的转换

import cv2

def mask2polygon(mask):
    contours, hierarchy = cv2.findContours((mask).astype(np.uint8), cv2.RETR_TREE,cv2.CHAIN_APPROX_SIMPLE)
    # mask_new, contours, hierarchy = cv2.findContours((mask).astype(np.uint8), cv2.RETR_TREE,cv2.CHAIN_APPROX_SIMPLE)
    segmentation = []
    for contour in contours:
        contour_list = contour.flatten().tolist()
        if len(contour_list) > 4:# and cv2.contourArea(contour)>10000
            segmentation.append(contour_list)
    return segmentation

def polygons_to_mask(img_shape, polygons):
    mask = np.zeros(img_shape, dtype=np.uint8)
    polygons = np.asarray(polygons, np.int32) # &#x8FD9;&#x91CC;&#x5FC5;&#x987B;&#x662F;int32&#xFF0C;&#x5176;&#x4ED6;&#x7C7B;&#x578B;&#x4F7F;&#x7528;fillPoly&#x4F1A;&#x62A5;&#x9519;
    shape=polygons.shape
    polygons=polygons.reshape(shape[0],-1,2)
    cv2.fillPoly(mask, polygons,color=1) # &#x975E;int32 &#x4F1A;&#x62A5;&#x9519;
    return mask

COCO数据集的RLE都是uncompressed RLE格式（与之相对的是compact RLE）。 RLE所占字节的大小和边界上的像素数量是正相关的。RLE格式带来的好处就是当基于RLE去计算目标区域的面积以及两个目标之间的unoin和intersection时会非常有效率。上面的segmentation中的counts数组和size数组共同组成了这幅图片中的分割 mask。其中size是这幅图片的宽高，然后在这幅图像中，每一个像素点要么在被分割（标注）的目标区域中，要么在背景中。很明显这是一个bool量：如果该像素在目标区域中为true那么在背景中就是False；如果该像素在目标区域中为1那么在背景中就是0。对于一个240×320的图片来说，一共有76800个像素点，根据每一个像素点在不在目标区域中，我们就有了76800个bit，比如像：00000111100111110…；但是这样写很明显浪费空间， 于是coco数组中用1的起始位置和length组成

RLE与mask之间的转换：

def mask2rle(img):
    '''
    img: numpy array, 1 - mask, 0 - background
    Returns run length as string formated
    '''
    pixels= img.T.flatten()
    pixels = np.concatenate([[0], pixels, [0]])
    runs = np.where(pixels[1:] != pixels[:-1])[0] + 1
    runs[1::2] -= runs[::2]
    return ' '.join(str(x) for x in runs)

def rle2mask(rle, input_shape):
    width, height = input_shape[:2]

    mask= np.zeros( width*height ).astype(np.uint8)

    array = np.asarray([int(x) for x in rle.split()])
    starts = array[0::2]
    lengths = array[1::2]

    current_position = 0
    for index, start in enumerate(starts):
        mask[int(start):int(start+lengths[index])] = 1
        current_position += lengths[index]
    return mask.reshape(height, width).T

计算mask的bbox

def bounding_box(img):
    # return max and min of a mask to draw bounding box
    rows = np.any(img, axis=1)
    cols = np.any(img, axis=0)
    rmin, rmax = np.where(rows)[0][[0, -1]]
    cmin, cmax = np.where(cols)[0][[0, -1]]

    return rmin, rmax, cmin, cmax

categories是一个包含多个category实例的数组，而category结构体描述如下：

参考：

COCO数据集的标注格式 – 知乎

【笔记】JSON ：COCO API 读取 COCO数据集

COCO数据集格式解析_ViatorSun的博客-CSDN博客_coco数据集格式

Original: https://blog.csdn.net/qq_52053775/article/details/126196060
Author: 樱花的浪漫
Title: coco数据集解析及读取方法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/731079/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

在PE文件中简单注入代码，实现在启动前弹窗

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 弹尽粮绝，会员救园：…

Python 2023年10月19日
0044
全网最全面的pytest测试框架进阶-conftest文件重写采集和运行测试用例的hook函数

【文章末尾有…….】使用pytest不仅仅局限于进行单元测试，作为底层模块可扩展性强，有必要理解其运行机制，便于进行二次开发扩展，通过文档的学习很容易理解…

Python 2023年9月11日
0045
2022了你还不会『低代码』？数据科学也能玩转Low-Code啦！ ⛵

💡 作者：韩信子@ShowMeAI📘 数据分析实战系列：https://www.showmeai.tech/tutorials/40📘 机器学习实战系列：https://www.s…

Python 2023年10月28日
0055
头歌-信息安全技术-用Python实现自己的区块链、支持以太坊的云笔记服务器端开发、编写并测试用于保存云笔记的智能合约、支持以太坊的云笔记小程序开发基础

头歌-信息安全技术-用Python实现自己的区块链、支持以太坊的云笔记服务器端开发、编写并测试用于保存云笔记的智能合约、支持以太坊的云笔记小程序开发基础一、用Python实现自己…

Python 2023年9月27日
0038
c# 模拟第三方程序按钮的单击

using System;using System.Collections.Generic;using System.ComponentModel;using System.Dat…

Python 2023年10月8日
0032
es date_histogram强制补零

es补零 GET /cars/transactions/_search { "size" : 0, "aggs": { "sale…

Python 2023年6月12日
0052
最全ubuntu-Anaconda换源问题/恢复默认源，一篇就够

万恶的换源操作，acaconda突然下载变慢了，以为是源的问题，一不小心就把源换了，后来，排查发现是网速没跟上，而各种换源方式都尝试了一波，发现源依旧报各种错误，如：总之，优先建…

Python 2023年9月7日
0090
Python入门系列（七）开发常说的“累”与“对象”

类与对象 Python是一种面向对象的编程语言。要创建类，请使用关键字class class MyClass: x = 5 创建一个名为p1的对象，并打印x的值 p1 = MyC…

Python 2023年10月23日
0038
scrapy个人循序渐进

创建项目第一个小demo 在Linux环境(虚拟机)下使用Docker配置NoSQL 获取请求中的数据不遵守robots协议 scrapy整合Playwright 线程池规则…

Python 2023年10月4日
0067
盘点10个冷门Python库，原来Python还能实现这些功能？

目录 👉 1 PrettyErrors 👉 2 Rich 👉 3 Dear PyGui 👉 4 HummingBird 👉 5 HiPlot 👉 6 Norfair 👉 7 Geo…

Python 2023年10月8日
0078
python scrapy爬虫遇见301_scrapy爬虫返回302，301，解决方法

def demo(): headers = {‘Accept’:’xxxx’, ‘Accept-Encoding&#82…

Python 2023年10月4日
0038
使用matplotlib进行简易的数据分析

现要分析一个地区的降雪数据，数据整理完毕，如下所示： snow_area代表地区的降雪面积total_output代表地区的降雪总量per_hectare代表地区每公顷的降水量 s…

Python 2023年9月2日
0053
同时安装py2和py3-安装多版本python

遇到问题和需求我的电脑环境：先安装py2再安装py3，平时我工作中是使用python2，如何保证两个版本共存且让代码来选择要使用的版本。遇到问题在cmd中输入python，进…

Python 2023年6月12日
00100
100个python算法超详细讲解：绘制余弦曲线

完整版下载超详细Python算法案例讲解100例.zip-Python文档类资源-CSDN下载 1．问题描述绘制一条0～360°（2π）的余弦函数cos(x)曲线。2．问题分析要绘…

Python 2023年9月6日
0056
pygame简单游戏飞机大战

import pygame import random import math from pygame.constants import TIMER_RESOLUTION pyga…

Python 2023年9月19日
0034
pytest：hooks

pytest运行的整个过程中, 充满了各种Hook函数覆写Hook函数虽然无法改变pytest的执行流程, 但可以实现用户自定义行为比如collection阶段, 可以不局限于…

Python 2023年9月12日
0038

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

coco数据集解析及读取方法

大家都在看