COCO数据集格式、mask两种存储格式、官方包API详解

2023年5月26日上午11:34 • 人工智能 • 阅读 74

文章目录

前言
COCO数据集格式
*
总体组织结构
image对象的主要属性：
annotation对象的属性主要：
pycocotools包中的COCO对象及API
*
COCO对象的属性
COCO对象的方法
API源码分析
*
mask保存的格式
mask不同的保存格式如何进行可视化
showAnns函数源码剖析

前言

在前面的文章中我们介绍了如何使用COCO提供的官方API来进行coco格式数据集的可视化，下面我们主要来讲 COCO数据集格式和 官方API实现。

COCO数据集格式

coco数据集格式充分利用了面向对象的思路：整个标注文件是一个 json对象，这个大的json对象包含几个主要的filed： "info"， "licenses"， "categories"， "images"， "annotations"。每个filed都是一个数组，里面包含所有的 image对象和 annotation对象。在coco格式中，每一张图片是一个json对象，每一个标注也是一个json对象，所有的对象都用一个 唯一的id进行标识。注意，image对象和annotation对象的id是 分开来标识的。

总体组织结构

如图所示：

; `image对象` 的主要属性：

id：image对象的id
file_name: 图片的文件名
width: 图片的宽
height: 图片的高

`annotation对象` 的属性主要：

id: 标注的id
image_id: 标注所属图片的id
category_id：此标注所属的类别
iscrown：是否紧凑，默认为0
area：标注的面积
bbox：标注的框，左上角x坐标，左上角y坐标，框的宽，框的高
segmentation：掩码的标记，有两种格式：多边形格式和RLE格式
width: 标注所属图片的宽
height: 标注所属图片的高

; pycocotools包中的COCO对象及API

为了方便可视化COCO格式的对象，官方为我们能提供了 pycocotools这个工具包，下面我们来介绍一下这个包下的 COCO类.

使用前通过 from pycocotools.coco import COCO语句进行导入。

COCO对象的属性

self.dataset: 所加载的json文件
self.anns：字典类型，保存所有的annotation对象，key是annotation的id，value是标注对象
self.cats：字典类型，保存所有的catgory对象，key是catgory的id，value是类别对象
self.imgs：字典类型，保存所有的image对象，key是image的id，value是图片对象
self.imgToAnns：字典类型，保存所有的image到anno的对应关系，key是图片的id，value是数组对象，保存标注对象， 图片与标注是一对多的关系
self.catToImgs：字典类型，保存所有的cat到image的对应关系，key是类别的id，value是数组对象，保存图片对象， 类别与图片是一对多的关系

COCO对象的方法

所有的方法如下图所示：

getAnnoIds：根据图片id或者类id来得到相应的标注id
getCatIds: 得到类别id
getImgIds: 根据类别id得到图片id
loadAnns: 根据标注Id得到标注对象
loadImgs: 根据图片ID得到图片对象
showAnnos: 可视化掩码
loadRes: 根据预测结果生成对应的COCO对象

总之，有了上面的这些方法，我们在 img, anno, catgory 之间形成了一个闭环，三者可以互相转换，如下图：

; API源码分析

下面我们主要分析一下 showAnns函数，看一下官方API是如何显示掩码的.

mask保存的格式

再分析源代码之前，我们首先想一下应该如何表示一个mask。mask就是一个不规则的分割结果，那么这个不规则的形状在计算机中应该如何保存呢？

主要有两种格式： 多边形表示法， RLE压缩表示法

多边形表示法就是将 mask边缘的坐标保存下来，类似于图一，COCO数据集中的mask就是以这种形式表示的；RLE是将mask所在的区域进行 二值化后，压缩保存，类似于图二，预测结果中的mask就是以这种格式保存的。

图一

图二

; mask不同的保存格式如何进行可视化

首先来说 多边形表示法如何转化为二值掩膜。

对于多边形表示法，我们的思路是

1、先初始化一张和原图大小相等的mask，令所有的初值为零
2、取出annos中多边形边缘点的坐标
3、调用 cv2.fillPoly()函数进行多边形填充

代码如下：

if 'segmentation' in ann:

   if type(ann['segmentation']) == list:
       polys = []

       for seg in ann['segmentation']:
           poly = np.array(seg, dtype=np.int32).reshape((int(len(seg) / 2), 2))
           polys.append(poly)

       cv2.fillPoly(mask, polys, 1)

再来说 RLE格式如何转换为二值掩膜。

对于RLE格式的转化，我们可以直接借助官方的API maskUtils.decode(rle)函数实现，得到的对象直接就是我们想要的二值掩膜。

代码如下：


else:
    if type(ann['segmentation']['counts']) == list:
        for seg in ann['segmentation']:
            poly = np.array(seg).reshape((int(len(seg) / 2), 2))

    else:
        rle = [ann['segmentation']]
    m = maskUtils.decode(rle)

    m = m[:, :, 0].reshape((m.shape[0], m.shape[1]))

完整的代码如下，这个函数可以根据image_id和category_id生成对应的二值掩膜：

def get_mask(coco: COCO, image_id, category_id):
"""
    根据coco对象，image_id和cat_id生成掩膜
    :param coco:
    :param image_id:
    :param category_id:
    :return:
"""
    image = coco.loadImgs(image_id)
    image = image[0]
    w, h = image["width"], image["height"]

    mask = np.zeros((h, w), dtype="uint8")

    anno_ids = coco.getAnnIds(imgIds=image_id, catIds=category_id, iscrowd=None)
    if len(anno_ids) == 0:
        return mask

    annos = coco.loadAnns(anno_ids)
    for ann in annos:
        if 'segmentation' in ann:

            if type(ann['segmentation']) == list:
                polys = []

                for seg in ann['segmentation']:
                    poly = np.array(seg, dtype=np.int32).reshape((int(len(seg) / 2), 2))
                    polys.append(poly)

                cv2.fillPoly(mask, polys, 1)

            else:
                if type(ann['segmentation']['counts']) == list:
                    for seg in ann['segmentation']:
                        poly = np.array(seg).reshape((int(len(seg) / 2), 2))

                else:
                    rle = [ann['segmentation']]
                m = maskUtils.decode(rle)

                m = m[:, :, 0].reshape((m.shape[0], m.shape[1]))
                idx = np.nonzero(m)
                mask[idx[0], idx[1]] = 1
    return mask

`showAnns` 函数源码剖析

好了，有了前面知识的铺垫，我们可以来看官方源码了。这里我把注释直接写进了代码中，同学们一定要耐心看完，这样才能有所收获~

def showAnns(self, anns, draw_bbox=False):
"""
    Display the specified annotations.

    :param anns (array of object): annotations to display
    :return: None
"""

    if len(anns) == 0:
        return 0

    if 'segmentation' in anns[0] or 'keypoints' in anns[0]:
        datasetType = 'instances'
    elif 'caption' in anns[0]:
        datasetType = 'captions'
    else:
        raise Exception('datasetType not supported')

    if datasetType == 'instances':

        import matplotlib.pyplot as plt
        from matplotlib.collections import PatchCollection
        from matplotlib.patches import Polygon

        ax = plt.gca()
        ax.set_autoscale_on(False)
        polygons = []
        color = []
        for ann in anns:
            c = (np.random.random((1, 3))*0.6+0.4).tolist()[0]

            if 'segmentation' in ann:

                if type(ann['segmentation']) == list:

                    for seg in ann['segmentation']:

                        poly = np.array(seg).reshape((int(len(seg)/2), 2))

                        polygons.append(Polygon(poly))
                        color.append(c)

                else:

                    t = self.imgs[ann['image_id']]

                    if type(ann['segmentation']['counts']) == list:
                        rle = maskUtils.frPyObjects([ann['segmentation']], t['height'], t['width'])
                    else:
                        rle = [ann['segmentation']]

                    m = maskUtils.decode(rle)
                    img = np.ones( (m.shape[0], m.shape[1], 3) )
                    if ann['iscrowd'] == 1:
                        color_mask = np.array([2.0,166.0,101.0])/255
                    if ann['iscrowd'] == 0:
                        color_mask = np.random.random((1, 3)).tolist()[0]
                    for i in range(3):
                        img[:,:,i] = color_mask[i]

                    ax.imshow(np.dstack( (img, m*0.5) ))
            if 'keypoints' in ann and type(ann['keypoints']) == list:

                sks = np.array(self.loadCats(ann['category_id'])[0]['skeleton'])-1
                kp = np.array(ann['keypoints'])
                x = kp[0::3]
                y = kp[1::3]
                v = kp[2::3]
                for sk in sks:
                    if np.all(v[sk]>0):
                        plt.plot(x[sk],y[sk], linewidth=3, color=c)
                plt.plot(x[v>0], y[v>0],'o',markersize=8, markerfacecolor=c, markeredgecolor='k',markeredgewidth=2)
                plt.plot(x[v>1], y[v>1],'o',markersize=8, markerfacecolor=c, markeredgecolor=c, markeredgewidth=2)

            if draw_bbox:
                [bbox_x, bbox_y, bbox_w, bbox_h] = ann['bbox']
                poly = [[bbox_x, bbox_y], [bbox_x, bbox_y+bbox_h], [bbox_x+bbox_w, bbox_y+bbox_h], [bbox_x+bbox_w, bbox_y]]
                np_poly = np.array(poly).reshape((4,2))
                polygons.append(Polygon(np_poly))
                color.append(c)

        p = PatchCollection(polygons, facecolor=color, linewidths=0, alpha=0.4)

        ax.add_collection(p)

        p = PatchCollection(polygons, facecolor='none', edgecolors=color, linewidths=2)
        ax.add_collection(p)

    elif datasetType == 'captions':
        for ann in anns:
            print(ann['caption'])

Original: https://blog.csdn.net/qq_43705697/article/details/122339511
Author: 遇到坎就得迈过去
Title: COCO数据集格式、mask两种存储格式、官方包API详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/519271/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python读取txt文件为dataframe_python批量读取txt文件为DataFrame的方法

我们有时候会批量处理同一个文件夹下的文件，并且希望读取到一个文件里面便于我们计算操作。比方我有下图一系列的txt文件，我该如何把它们写入一个txt文件中并且读取为DataFrame…

人工智能 2023年7月8日
0098
利用python合并csv文件

1.用concat方法合并csv 2.glob模块批量合并csv 1.用concat方法合并csv 将两个相同的csv文件进行数据合并，通过pandas的read_csv和to_c…

人工智能 2023年7月8日
0073
pytorch之detach()函数理解

https://blog.csdn.net/qq_27825451/article/details/95498211 https://blog.csdn.net/weixin_33…

人工智能 2023年7月21日
0078
CANN-AICPU算子开发

1.算子算子是一个函数空间到函数空间上的映射O：X->X；广义的讲，对任何函数进行某一项操作都可以认为是一个算子。在Caffe中，算子对应层中的计算逻辑，例如：卷积层中的卷…

人工智能 2023年5月25日
0097
项目中遇到的错误

项目中遇到的错误 swagger2 和 swagger3 swagger 文档的注解 springboot 版本问题 SQL 关键字异常 Apifox 的使用集中版本管理 swa…

人工智能 2023年7月30日
0074
卷积层和全连接层之间的关系

1 卷积层和全连接层的概念 https://towardsdatascience.com/convolutional-neural-network-17fb77e76c05 2 卷…

人工智能 2023年6月6日
0099
数字孪生城市三维地图从零开发指南（上）

简介最近，ESMap 推出了数字孪生城市版的三维地图 SDK，对比之前的室内三图场景，城市三维地图场景更大，要解决的问题更多，后面我们会专门介绍城市地图引擎的架构。本文将针对如何…

人工智能 2023年6月4日
0092
我的考研简史

封面图by：Disco Diffusionprompts：A beautiful painting of a long detour in forest 回头看，自感走过的弯路多的…

人工智能 2023年6月4日
0079
OpenCV-图像对比度

作者：翟天保Steven版权声明：著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处实现原理图像对比度指的是一幅图像中明暗区域最亮的白和最暗的黑之间不同亮度层级…

人工智能 2023年6月22日
0095
机器学习实战——分类及性能测量完整案例（建议收藏慢慢品）

文章目录 1. 获取数据 2. 训练二元分类器 3. 性能测量 * 3.1 交叉验证测量准确率 3.2 混淆矩阵 3.3 精度和召回率 3.4 F 1 F_1 F 1 分数 3….

人工智能 2023年7月2日
0082
Mask Rcnn代码与原理相结合解析

1：前言文章目录 * – 1：前言 – 2：图片的预处理 – 3：整体流程概述 – 4：搭建特征提取网络 – 4：an…

人工智能 2023年5月23日
0090
链表的带环问题

链表带环问题一，判断链表是否带环二，求入环结点 * 1，链表相交问题 2，法一 3，法二带环问题，是链表众多问题中一类经典的问题，下面我们就来深度剖析一下链表的带环问题。一…

人工智能 2023年6月29日
0072
pandas–groupby相关操作

pandas——groupby操作实验目的熟练掌握pandas中的groupby操作实验原理groupby(by=None, axis=0, level=None, as_in…

人工智能 2023年7月6日
0061
类名的构建规则_使用protege5.0构建本体

好的，关于 SCSS 封装 Flex 的问题，可以提供如下的解决方案：首先，在 SCSS 中定义一个 Mixin，用于生成 Flexbox 的样式： scss @mixin fl…

人工智能 2023年6月10日
0097
AI常用框架和工具丨2. 数据分析处理库Pandas

数据分析处理库Pandas，AI常用框架和工具之一。理论知识结合代码实例，希望对您有所帮助。文章目录 * – 环境说明 – 一、Pandas简介 &#82…

人工智能 2023年7月17日
0065
【cartographer_ros】六：发布和订阅路标landmark信息

上一节介绍了陀螺仪Imu传感数据的订阅和发布。本节会介绍路标Landmark数据的发布和订阅。Landmark在cartographer中作为定位的修正补充，避免定位丢失。这里…

人工智能 2023年6月4日
00104

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31