视频语义分割基准数据集与评估方法

2023年6月11日上午9:06 • 数据库 • 阅读 80

概述

本文来源于《A Benchmark Dataset and Evaluation Methodology for Video Object Segmentation》，论文主要介绍了一种作者团队提供的针对视频语义分割算法进行评估的基准数据并提供了三种指标用于评估算法效果的优劣。本文主要是个人在阅读该论文的的一些所得，但由于论文内容所致，本文阅读起来更像一篇说明文档，提供与此，仅供参考。

DAVIS由50个高质量，全高清的视频序列组，包含有多个视频目标分割挑战，如遮挡，运动模糊和外观变化。每一个视频都是稠密标注， 像素级别的精度和逐帧的真值分割（将前景对象与背景区域精确像素分离）。同时提出了三种互补的度量标准（区域相似性、轮廓准确性以及时间连贯性）来对当时几种最新的的分割方法进行综合分析。

数据集说明

根据以往的数据集经验，整个数据集重点关注四个关键方面，来创建一个平衡全面的数据集。

1. 数据的数量和质量

首先，一个好的数据集要有足量的数据，这是确保内容的 多样性并提供一组均匀分布的挑战的前提。并且拥有足量的数据对于避免过度拟合和延迟性能起到至关重要的作用，同时这在一定程度上也保证数据集具有更长的使用寿命。

另一方面，数据的质量也非常重要，数据集的质量需能反映 现有技术的水平。

基于上边两个因素，构建了 DAVIS数据集，DAVIS构成包括5 0个序列总 共3455标注帧， 视频帧率为24fps，分辨率为1080p。

同时由于当前 计算复杂度是视频处理的一个重要瓶颈。因此，为了减少计算的复杂程度，DAVIS中的视频序列采用较短的时间长度（2-4秒），但是它涵盖了大部分在长视频序列中找到的挑战。

2. 实验验证

对于视频中的每一帧，提供了像素级别的精度，以二进制掩码的方式 手工创建分割结果。

每个DAVIS数据集细分成分成训练集和测试集两个部分。但在评估的时候，不使用分区,而是考虑整个数据集，因为大多数的评估方法不需要训练，并且由于计算复杂度，网格搜索最优参数的估计是不可行的。

3. 对象存在

每个序列都应包含至少一个要与背景区域分开的目标前景对象。

选择不使用多个具有明显运动的不同对象，以便能够公平地将对 单个对象进行操作的分段方法与对多个对象进行联合分段的方法进行比较。
此外，每个序列只有一个对象，这将消除通过全自动方法执行的检测的歧义（因为检测的目标只有一个）。

4. 无约束视频挑战

为了能够对算法的性能进行更深入的分析和理解，识别可能影响算法性能的关键因素和环境是至关重要的。因此定义一个 扩展的视频属性集合，用于代表特殊情况， 如快速运动，遮挡和杂乱背景这些典型的视频分割挑战。

具体属性及其含义如下表所示：

ID Description 描述 BC Background Clutter. The back- and foreground regions around the object boundaries have similar colors (

over histograms). 复杂的背景。在目标边界附近的背景前景区域有相似的颜色。 DEF Deformation. Object undergoes complex, non-rigid deformations. 形变。目标存在复杂的非刚性的形变。 MB Motion Blur. Object has fuzzy boundaries due to fast motion. 运动模糊。由于快速的运动，目标边界模糊。 FM Fast-Motion. The average, per-frame object motion, computed as centroids Euclidean distance, is larger than

= 20 pixels. 快速运动。目标平均的帧间运动距离大于20像素，距离定义为质心的欧几里得距离。 LR Low Resolution. The ratio between the average object bounding-box area and the image area is smaller than tlr = 0.1. 低分辨率（小目标）。平均目标边框区域与图像区域的比值小于tlr = 0.1。 OCC Occlusion. Object becomes partially or fully occluded. 遮挡。目标部分或全部被遮挡。 OV Out-of-view. Object is partially clipped by the image boundaries. 视野之外。目标被图像边框裁剪了部分，即只有部分目标处于视野中。 SV Scale-Variation. The area ratio among any pair of boundingboxes enclosing the target object is smaller than

= 0.5. 尺度变化。存在一对包围目标对象的边界框（两帧），他们的面积比小于0.5。 AC Appearance Change. Noticeable appearance variation, due to illumination changes and relative camera-object rotation. 外观变化。由光照变化和相对的相机-目标旋转导致的显著外观变化。 EA Edge Ambiguity. Unreliable edge detection. The average groundtruth edge probability (using [11]) is smaller than

= 0.5. 边沿模糊。不可靠的边沿检测。平均真值边界的概率小于0.5. CS Camera-Shake. Footage displays non-negligible vibrations. 相机抖动。画面显示不可忽略的振动。 HO Heterogeneus Object. Object regions have distinct colors. 颜色不均匀的目标。目标区域有不同的颜色。 IO Interacting Objects. The target object is an ensemble of multiple, spatially-connected objects (e.g. mother with stroller). 交互的对象。目标对象是多个空间连接的对象(例如母亲和婴儿车)的集合。 DB Dynamic Background. Background regions move or deform. 动态背景。背景区域移动或者形变。 SC Shape Complexity. The object has complex boundaries such as thin parts and holes. 复杂形状。目标有复杂的边界，比如很细的部分或者洞。

这些属性并不具备排他性，因此一个视频序列可以 被标注多个属性。他们在数据集中的分布展示在下图左中，图右显示他们两两之间的依赖关系。

实验验证

在有监督的评估框架中，给定一个特定帧上的标记数据 G和一个输出的分割结果M，所有的评估指标都是主要为了解决一个问题：即G和M之间的拟合程度或者说是相似的程度。

因此论文中给了三种评价指标，区域相似性、轮廓准确性以及时间连贯性

1. 区域相似度（Region Similarity (\mathcal{J}) ）

为了测量基于区域的分割相似度，即识别错误像素的数量，此处使用使用Jaccard索引!(\mathcal{J})。

Jaccard索引定义如下：

[\mathcal{J} = \frac{M\cap G}{M\cup G} ]

其中(M)为 输出的分割结果，(G) 为 真值掩膜（也就是图像的标记结果）。

2. 轮廓准确性（Contour Accuracy (\mathcal{F}) )）

从基于轮廓的角度来看，可以将M解释为一组限定掩模空间范围的闭合轮廓c(M)。因此可说出通过一个 二分匹配来比较c(M)和c(G)边缘点的精确度Pc和召回率Rc。进而定义了一个(F-score)来衡量轮廓的整体准确性，其具体定义如下：

[\mathcal{F} = \frac{2P_{c}R_{e}}{P_{c}+R_e} ]

3. 时间稳定性（Temporal stability (\mathcal{T}) ）

结果的时域稳定性是视频对象分割中的一个相关重要的方面，由于对象形状的演化是识别和抖动的一个重要线索，不稳定的边界在视频编辑应用中是不可接受的。

因此，论文引入了一种时间稳定性测量方法来惩罚这种不期望的效果。关键的问题是区分物体的可接受的运动和不需要的不稳定性和抖动。

因此估计了在一帧掩码转换到下一帧所需的变形。简单来说， 如果转换是平滑和精确的，结果可以认为是稳定的。

在形式上，我们将帧t的掩膜(\mathcal{T})转换为代表其轮廓的多边形。(\mathcal{T})然后，我们使用形状上下文描(SCD)[3]述符描述每个点(\mathcal{T})。接下来，我们将匹配设置为动态时间扭曲(DTW)[39]问题，是我们寻找和(\mathcal{T}) (\mathcal{T})之间的匹配，它最小化了匹配点之间的SCD距离，同时保持了点在形状中出现的顺序。

每匹配点的平均成本作为时间稳定性(\mathcal{T})的度量。直观上，匹配将补偿运动和小的变形，但它不会补偿曲线的振荡和误差，这是我们想要测量的。遮挡和非常强的变形会被误解为轮廓不稳定，因此在没有这种影响的情况下计算序列子集的测量值。

指标相关性

结果统计图如下：

从结果统计图中可以看出(\mathcal{T})和(\mathcal{J})之间有明显的线性相关。(\mathcal{F})和(\mathcal{T})之间则没有。

指标差异性

在左边，结果受到J的惩罚，因为就像素数量而言，未成功识别的区域头和脚很大，而对于边界度量F，漏掉的百分比更低。在右侧，整个车身都被识别出来了，因此IoU是比较大的，但是对应的边界高度不准，因而(F)比较小。

简单来说，左图结果(\mathcal{T})低但(\mathcal{J})高，右图(\mathcal{J})高但低(\mathcal{F})。

结论

运行时间效率和内存要求是几种视频分割算法的可用性的主要瓶颈。在我们的实验中，我们观察到花费大量时间对图像进行预处理以提取边界保留区域，对象建议和运动估计。鼓励未来的研究仔细考虑那些可能会损害其工作实用性的组件。高效的算法将能够利用此数据集提供的全高清视频和精确的分割蒙版。利用高分辨率可能无法在区域相似性方面产生更好的结果，但是改善复杂物体轮廓和微小物体区域的分割至关重要。

Original: https://www.cnblogs.com/goWithHappy/p/dataset-for-video-segmentation.html
Author: vcjmhg
Title: 视频语义分割基准数据集与评估方法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/599544/

转载文章受原作者版权保护。转载请注明原作者出处！

数据库

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

day04-2发送文件

多用户即时通讯系统04 4.编码实现03 4.6功能实现-发送文件功能实现 4.6.1思路分析客户端（发送者）：先把文件a.jpg读取到客户端的字节数组把文件对应的字节数组封…

数据库 2023年6月11日
0077
常用的Linux命令

获取linux服务器所有java进程及名称 pidof java|xargs pwdx pidof：用于查找指定名称的进程的进程号id号-s 一次只显示一个进程号-c 只显示运行在…

数据库 2023年6月14日
0079
spring的自动注入

Spring自动注入 spring的ioc 在刚开始学习spring的时候肯定都知道spring的两个特点:ioc,aop,控制反转和切面编程,这篇就只说说ioc ioc是什么:在…

数据库 2023年6月16日
0086
数据库的常用命令

1. 数据操作类语句： SELECT:从数据库表&#x4E2D…

数据库 2023年5月24日
00104
django-Celery分布式队列简单使用

介绍： Celery 是一个简单、灵活且可靠的，处理大量消息的分布式系统，并且提供维护这样一个系统的必需工具。它是一个专注于实时处理的任务队列，同时也支持任务调度。 worker…

数据库 2023年6月6日
0098
Spring Bean的作用域

Spring Bean的作用域或者说范围主要有五种：作用描述 singleton 在spring IoC容器仅存在一个Bean实例，Bean以单例方式存在，bean作用域范围的…

数据库 2023年6月16日
0061
Java代码如何创建GUID字符串呢？

随机字符串是我们日常开发中，经常使用的一种字符串，那么下文将讲述具有代表性的字符串GUID GUID字符串是全球唯一标识，是我们经常使用的一种唯一标识如：分布式系统中使用其作为表…

数据库 2023年6月11日
0089
mybatis order by concat用法

由于项目中用到了一个关联查询，关联的表中都有id字段，在排序时，使用${id}，获取值时，一直报 Column ‘id’ in order clause i…

数据库 2023年6月11日
0079
如何制作验证码

推导步骤1：在img标签的src属性里放上验证码的请求路径 补充1.img的src属&amp…

数据库 2023年6月14日
0086
分析了2020年3万多条的微博热搜，我看到了什么

前言 2020年是艰难的一年，但即使再难，也都过去了。分析一下2020年的新闻热搜，可以大致了解网民都在关注什么。微博热搜以娱乐为主，头条的热搜更偏向民生与时事。今天，我们先分…

数据库 2023年6月16日
0097
HTTP状态码1XX深入理解

前段时间看了《御赐小仵作》，里面有很多细节很有心。看了一些评论都是：终于在剧里能够看到真正在搞事业、发了工资第一时间还钱的正常人了。我印象比较深的是王府才能吃上的葡萄。觉得非常合理…

数据库 2023年6月6日
0099
mac(m1)配置my.cnf

今天开始学习了数据库，在安装MySQL之后启动一直报错，然后在网上找了很多解决方法，最后用以下方法解决对于习惯了windows的小伙伴来说，直接去安装目录里边修改my.ini就可…

数据库 2023年5月24日
00101
mybatis collection解析以及和association的区别

1.collection标签说到mybatis的collection标签，我们肯定不陌生，可以通过它解决一对多的映射问题，举个例子一个用户对应多个系统权限，通过对用户表和权限表的…

数据库 2023年6月16日
0086
Nginx基础入门篇(3)—返回状态码详解

一般常见返回状态码 200 – 服务器成功返&a…

数据库 2023年6月14日
00178
文件输入/输出流

文件输入/输出流程序运行期间，大部分数据都被存储在内存中，当程序结束或被关闭时，存储在内存中的数据将会消失。如果要永久保存数据，那么最好的办法就是把数据保存到磁盘的文件中…

数据库 2023年6月16日
00122
MySQL中的触发器

1.定义：触发器和存储过程相似，都是嵌入到 MySQL 中的一段程序。触发器是由事件来触发某个操作。当数据库执行这些事件时，就会激活触发器来执行相应的操作。这些事件称为触发条件，…

数据库 2023年6月16日
00112

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31