COCO数据集格式解析

2023年6月16日下午2:43 • 人工智能 • 阅读 126

COCO数据集是我们经常使用的一个数据集，并且 COCO数据集格式也很受大家欢迎，但不同于 VOC数据格式，COCO是将所有的标注数据存放在一个json文件中，使得查看的时候云里雾里，最近也在用COCO数据集做实例分割，顺道整理下，为自己扫清一些盲区，如有解释不清的地方，欢迎留言

官网地址: https://cocodataset.org/
标注文件的格式说明: https://cocodataset.org/#format-data

MC COCO2017年主要包含以下四个任务：目标检测与分割、图像描述、人体关键点检测，如下所示：

annotations: 对应标注文件夹
    ├── instances_train2017.json        : 对应目标检测、分割任务的
    ├── instances_val2017.json          : 对应目标检测、分割任务的验证集标注文件
    ├── captions_train2017.json         : 对应图像描述的训练集标注文件
    ├── captions_val2017.json           : 对应图像描述的验证集标注文件
    ├── person_keypoints_train2017.json : 对应人体关键点检测的训练集标注文件
    └── person_keypoints_val2017.json   : 对应人体关键点检测的验证集标注文件夹

Object segmentation           : 目标级分割
Recognition in context        : 图像情景识别
Superpixel stuff segmentation : 超像素分割
330K images (>200K labeled)   : 超过33万张图像，标注过的图像超过20万张
1.5 million object instances  : 150万个对象实例
80 object categories          : 80个目标类别
91 stuff categories           : 91个材料类别
5 captions per image          : 每张图像有5段情景描述
250,000 people with keypoints : 对25万个人进行了关键点标注

""" 注意 """
COCO数据集格式中，bbox 的保存格式为 [x, y, w, h]
如果需要转换为[x1,y1,x2,y2]，可以通过如下进行转换
bbox = [x1, y1, x1 + w - 1, y1 + h - 1]

JSON文件的基本格式，以实例分割为例，主要有五个部分：info、licenses、images、annotations、categories

info记录关于数据集的一些基本信息

"info":{
    "description":"This is stable 1.0 version of the 2014 MS COCO dataset.",
    "url":"http:\/\/mscoco.org",
    "version":"1.0",
    "year":2017,
    "contributor":"Microsoft COCO group",
    "date_created":"2017-01-27 09:11:52.357475"
}

licenses是数据集遵循的一些许可

"licenses":{
    "url":"http:\/\/creativecommons.org\/licenses\/by-nc-sa\/2.0\/",
    "id":1,
    "name":"Attribution-NonCommercial-ShareAlike License"
}

images是数据集中包含的图像，长度等于图像的数量

"images":{
    "coco_url": "",
    "date_captured": "",
    "file_name": "000001.jpg",
    "flickr_url": "",
    "id": 1,
    "license": 0,
    "width": 416,
    "height": 416
}

annotations是数据集中包含的实例掩膜，数量等于bounding box的数量。segmentation格式取决于这个实例是一个单个的对象（即iscrowd=0，将使用polygons格式，以多边形顶点表示）还是一组对象（即iscrowd=1，将使用RLE格式，mask编码）

"annotations":{
    "id": int,
    "image_id": int,
    "category_id": int,
    "segmentation": RLE or [polygon],
    "area": float,
    "bbox": [x,y,width,height],
    "iscrowd": 0 or 1
}

"annotations":{
    "segmentation": [[510.66,423.01,511.72,420.03,510.45......]],
    "area": 702.1057499999998,
    "iscrowd": 0,
    "image_id": 289343,
    "bbox": [473.07,395.93,38.65,28.67],
    "category_id": 18,
    "id": 1768
}

categories是数据集中的类别信息

"categories":{
    "id": int,
    "name": str,
    "supercategory": str,
}

解析其中的类别ID、图像ID：

coco = COCO(annotation_file.json)
catIds = coco.getCatIds()
imgIds = coco.getImgIds()

mask 读取模式

对于灰度模式，直接使用cv2.imwrite()函数进行保存即可，只不过读取时，需要按照灰度图的方式读取|（用OpenCV或者PIL格式均可以）：


label = cv2.imread(label_path, 0)

label = np.asarray(Image.open(label_path), dtype=np.int32)

调色板模式，mask保存方式如下：

def save_colored_mask(mask, save_path):
    lbl_pil = Image.fromarray(mask.astype(np.uint8), mode="P")
    colormap = imgviz.label_colormap()
    lbl_pil.putpalette(colormap.flatten())
    lbl_pil.save(save_path)

需要先将array格式的mask转为PIL.Image格式，然后，使用imgviz中的Label colormap给mask添加调色板，最后保存PIL.Image格式的图像即可。读取时，则需要同样使用PIL.Image格式来读取，然后转为array，而不可以使用OpenCV进行读取：


label = np.asarray(Image.open(label_path), dtype=np.int32)

label = cv2.imread(label_path, 0)

mask 可视化

将 mask 与原图叠加可视化的方式有两种，可通过OpenCV的加权叠加也可以采用Pillow的 blend方法


image = cv2.imread('2007_000033.jpg')
mask = cv2.imread('2007_000033.png')
mask_img = cv2.addWeighted(image, 0.5, mask, 0.7, 0.9)
cv2.imwrite("vis.jpg", mask_img)

image = Image.open('2007_000033.jpg')
mask = Image.open('2007_000033.png')
mask_img = Image.blend(image.convert('RGBA'), mask.convert('RGBA'), 0.7)
mask_img.save("vis2.png")

参考：

Original: https://blog.csdn.net/ViatorSun/article/details/124562686
Author: ViatorSun
Title: COCO数据集格式解析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/624798/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

RNNs, LSTMs, GRUs学习以及Batch Size对模型影响的讨论

这是一辆搬运车以及一些小小的总结。最近重新过了一遍RNNs和LSTMs的内容。看到了一些写的很好的博客，我想是作为Baby Steps很好的资源，把它们放在这里，和大家分享。这…

人工智能 2023年5月28日
00129
js运动雏形及其相关问题和运动框架

js运动雏形 Document #box{ width: 100px; height: 100px; background: #f00; position: absolute; l…

人工智能 2023年6月27日
00134
天池下的瑞金医院MMC人工智能辅助构建知识图谱

浅谈知识图谱——天池下的瑞金医院MMC人工智能辅助构建知识图谱前言数据说明问题网络模型和效果展示代码 * 实体的定义和处理句子的切分和处理代码…

人工智能 2023年6月1日
00118
决策树的Python实现

决策树决策树是一种树形结构，包括决策结点(内部结点)、分支和叶节点三部分。其中，决策结点代表某个测试，通常对应于待分类对象的某个属性，在该属性上的不同测试结果对应一个分支。每个…

人工智能 2023年6月15日
0087
【CV】第 11 章：自动编码器和图像处理

🔎大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流🔎📝个人主页－Sonhhxg_柒的博客_CSDN博客📃🎁欢迎各位→点赞👍 + 收藏⭐️ +…

人工智能 2023年7月28日
0097
tensorflow的详细安装（包含jupyter notebook）

安装Anaconda 在官网https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/下载Anaconda自己用就选Just ME…

人工智能 2023年5月23日
0087
flink实践-电商用户行为数据分析-第1章、项目介绍

1、电商的用户行为电商平台中的用户行为频繁且较复杂，系统上线运行一段时间后，可以收集到大量的用户行为数据，进而利用大数据技术进行深入挖掘和分析，得到感兴趣的商业指标并增强对风险的…

人工智能 2023年7月16日
00109
还原填充错误的缺失数据

还原填充错误的缺失数据手动方法 map() 函数映射自动方法 for循环 + replace() 替换说明手动方法 map() 函数映射 map(func) import …

人工智能 2023年7月7日
0090
目标检测–评价指标

目标检测–评价指标 1. 评价指标 * 1.1 交并比（IoU） 1.2 准确率/精确度/召回率/F1指标 1.3 AP和mAP 1.4 模型检测速度（FPS） 2. …

人工智能 2023年7月12日
00101
【机器学习】回归决策树

回归决策树 1. 原理概述 2. 算法描述 3. 简单实例 * 3.1 实例计算过程 3.2 回归决策树和线性回归对比 4. 小结原理概述上篇文章已经讲到，关于数据类型，我们…

人工智能 2023年6月17日
0087
PyTorch基础-自定义数据集和数据加载器（2）

处理数据样本的代码可能会变得混乱且难以维护；理想情况下，我们想要数据集代码与模型训练代码解耦，以获得更好的可读性和模块化。PyTorch 域库提供了许多预加载的数据（例如 Fas…

人工智能 2023年7月13日
0093
深度学习 pytorch手写数字识别 MNIST数据集解析+详细注释

1 模型构建 2 训练 train.py 3 测试 eval.py 4 工程文件、数据集、源码下载文件结构 ①存放训练之后导出的模型； ②存放数据集； ; 1 模型构建神经网络…

人工智能 2023年6月27日
0094
Ubuntu 装卸Opencv

ubuntu中卸载opencv的方法：1、打开ubuntu；2、找到当初安装opencv的build目录，进入该build目录执行卸载操作；3、通过rm命令清理/usr中所有ope…

人工智能 2023年6月18日
0068
ChatGPT和InstructGPT 对比，ChatGPT将改变世界，影响力不亚于2007年新一代iPhone智能手机的发布

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
0073
因怀疑对话系统变成人而被带薪休假，我亲自看了看。

引言今天被一个谷歌的对话系统LaMDA的新闻吸引到了，这个新闻大致是讲，谷歌研究员通过提交自己和AI的对话记录，试图让上司明白AI已经初具人格（即有人的意识）而被带薪休假。我关注…

人工智能 2023年5月28日
0092
数字图像处理 matlab 基本操作实验一的部分内容

数字图像处理的相关基本操作操作 1. 导入图像 I = imread(‘football.jpg’); % 用imread读取磁盘文件/该文件软件自带 2. 显示图像并设置标题 …

人工智能 2023年6月20日
00139

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

COCO数据集格式解析

mask 读取模式

mask 可视化

参考：

大家都在看