视频实例分割paper（一）《Video Instance Segmentation》

2023年5月26日下午4:41 • 人工智能 • 阅读 85

【主要贡献】

1.视频实例分割第一次被正式定义和探索

2.创建了第一个大规模视频实例分割数据集 2.9k视频 40个目标类别

3.提出一种新的视频实例分割算法MaskTrack R-CNN，在Mask R-CNN引入一个新的分支，同时检测，分割和跟踪视频中的实例。

4.实时，两阶段

【Introduction】

图像实例分割同时检测和分割图像中的对象实例。视频实例分割同时检测、分割和跟踪视频中的对象实例。

视频实例分割paper（一）《Video Instance Segmentation》

与VIS相关的任务定义区别Image Instance Segmentation

将像素分组为不同的语义类，还将它们分组为不同的对象实例。

通常采用两阶段模式，首先使用区域建议网络RPN生成对象建议，然后使用聚集的ROI特征预测对象的边界框和masks。

图像级处理

视频实例分割需在每一帧中分割对象实例，还需确定跨帧对象的对应关系。

VOT(Video Object Tracking)

DBT(Detection by Tracking):同时进行检测和跟踪。

DFT(Detection-Free Tracking):在第一帧给定初始边界框，无需检测器进行追踪。

只进行检测，不进行分割VOD(Video Object Detection)检测视频中的对象，目标身份信息用来提升检测算法的鲁棒性，但评估指标仅限于每帧检测。
没有分割和追踪

VSS(Video Semantic Segmentation)

在每一帧进行语义分割，采用光流等时间信息来提高语义分割模型的准确性或效率。不需要跨帧显式匹配对象实例。VOS(Video Object Segmentation)

半监督：使用一个mask跟踪和分割一个给定对象，提取视觉相似性，运动线索和时间一致性，以识别视频中的同一对象。

无监督：不需要给第一帧mask，不需要区分实例，只需要分割出单个目标即可

没有考虑实例信息

【YouTube-VIS】

利用现有的YouTube VOS大型视频对象分割数据集，建立的数据集YouTube-VIS中有 40 个常见类别标签作为类别集。然后从40个类中抽取大约2.9k个样本，目标包括人动物车辆有4883个独立视频实例和 131k 高质量masks，可以用于视频实例分割，视频语义分割，视频对象检测。

【Video Instance Segmentation】

定义：

定义一个类别预定义标签集 set C={1，，，K}，K为类别数量，给定一个T帧的视频，假设有属于C的N个对象，对于每一个对象i，令

表示其类别标签，令

表示其二进制分割masks，p∈[1, T]，q∈[p, T]，表示开始和结束时间，假设视频实例算法产生H个实例假设，对于每一个假设 j，它需要有一个预测的类别标签

和一个confidence score

，以及一系列的masks 视频实例分割paper（一）《Video Instance Segmentation》

，confidence score 将用于评估指标。

评估方法：

平均准确度AP，AP定义为精准召回曲线下的面积，自信度得分用于绘制曲线。AP是多个IOU阈值上的平均值，遵循COCO评估，在50%到95%使用10个IOU阈值，步长为5%。

平均召回率AR，定义为给定每个视频一定数量的分割实例的最大召回率。IOU的计算不同于图像实例分割，因为每个实例都包含一系列masks，要计算一个ground truth实例

和一个假设实例

之间的IOU。

可以考虑为在 T帧的视频中，对每一帧的ground truth和假设实例的交集求和和并集求和。达到如成功检测到对象masks，但未能跨帧跟踪对象，将获得一个较低的IOU 的效果。

【MaskTrack R-CNN】

基于Mask R-CNN构建，除了最初用于对象分类，边界框回归和masks生成三个分支外，添加第四个分支与外部内存一起，以跨帧跟踪对象实例。

跟踪分支主要利用外观相似性，提出了一种简单有效的方法，将其语义一致性和空间相关性等其他线索相结合，以大幅提高跟踪精度。

网络整体分为两个阶段，第一阶段为在每帧生成一组对象边界框。第二阶段为添加一个并行的分支Tracking head，其为两个全连接层，为每个候选框指定一个实例标签。

假设已经有N个实例在之前的帧被定义，新实例将分配新的标识。可比作多类分类问题，有N+1个类，N个已识别的实例，一个新的实例，由数字0表示。将标签分配给候选框的概率，定义为

和

分别表示跟踪分支从当前帧的候选框的ROI Align提取的特征和保存在外部存储器的从前的帧中N个被定义的实例的特征，两个全连接层的加入使得Roi提取的特征映射投影到新特征中。交叉熵损失

用来约束跟踪分支，

是 ground truth 实例标签。

当一个新的候选框被分配一个实例标签时，动态地更新外部内存。如果候选框属于现有实例，将使用新的特征更新存储在内存中的实例特征，新的特征代表实例的最新状态。如果为候选对象分配了标签0，我们会将候选对象的特征插入内存，并将已识别实例的数量 +1。

使用从训练视频中随机抽样的一对帧。其中一个帧被随机选取为参考帧，而另一个帧被选取为查询帧。在参考帧上，不生成任何候选框，只提取特征从它的ground truth实例区域和保存它们到外部内存中。在查询帧上，第一阶段生成候选框，然后只将 positive 候选框与内存中的实例标签匹配。positive 候选框是指与任何ground truth对象框至少有70%IoU重叠的框。整个网络都经过了端到端的培训，四个分支的损失加在一起

对于一个新的候选框 i，让

分别表示边界框预测，类别标签和置信度，数据来自网络的bounding box branch 和 the classification branch，对于一个被识别的实例带有标签n，让

和

表示边界框预测和与内存中保存的特征关联的类别标签。然后分配给标签n到候选框i一个分数为

仅在测试阶段使用，对网络训练没有帮助。还有其他可能的方法来整合这些线索，例如，将所有线索作为输入，训练一个端到端的网络，这将作为一个有趣的未来研究。

在给定一个新的测试视频时，外部内存设置为空，识别的实例数设置为0。方法以在线方式顺序处理每一帧。在每一帧，网络首先生成一组实例假设。非最大值抑制（NMS）（50%重叠阈值）用于减少假设。然后，剩余的假设与来自之前的帧的已确定的实例根据等式 3 进行匹配，方法可以匹配多个假设从一个单独的帧到一个实例标签，只保留一个在假设中得分最高的假设，同时丢弃其他假设。

处理所有帧后，方法生成一组实例假设集，每个假设包含一个唯一的实例标签，以及一系列二进制masks、类别标签和检测置信度。使用平均检测置信度作为整个序列的置信度得分，并使用类别标签的多数投票作为实例的最终类别标签。

【Main Results】

方法对比结果

样本结果

（a），（b），（c）和（d）表示正确的预测，而（e）和（f）表示错误情况。a 中预测在前两帧中给出了错误的结果，其中熊被预测为”鹿”和”海豹”。视频级别预测通过所有帧的多数投票来纠正这些错误。在视频 c 中，冲浪板在多帧中被海浪遮挡，算法能够在冲浪板消失和再次出现后跟踪冲浪板。在视频 d 中，展示了一个新对象在中间进入视频的情况，算法能够将第二帧中的鹿检测为新对象，并将其添加到外部存储器中。在视频 e 中，在不同的姿势中有着完全不同的外观，并且算法无法识别相同的对象并认为它们是两个不同的对象。在视频 f 中，多条类似的鱼在四处游动，并相互遮挡。算法在第二帧和第三帧中将两条鱼分成一组，并在稍后与对象身份混淆。

【Ablation Study】

不同因素使用结果

可视化这三个因素的影响，还对一个特定样本逐个添加这三个因素来生成预测，前三种变体无法很好地跟踪”绿色”摩托车的身份，而带有四种不同提示的变体能够在整个视频中跟踪它。

边界框IoU和类别一致性对方法的性能最为重要。

Original: https://blog.csdn.net/linlinsss/article/details/124083428
Author: linlinsss
Title: 视频实例分割paper（一）《Video Instance Segmentation》

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/520572/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection 论文笔记

原文链接：https://arxiv.org/pdf/2203.08195.pdf 1.引言目前的方法主要基于两种融合方式：早期融合（融合数据）和中期融合（融合特征）。但是，由…

人工智能 2023年7月10日
0076
python|安装skimage库报错：required to install pyproject.toml-based projects

一、安装报错问题使用pip安装，先用命令：pip install skimage ，安装失败，然后参考发现skimage库的命令是：pip install scikit-imag…

人工智能 2023年7月6日
00384
【论文精读】NeRF详解

最近阅读了开启三维重建新纪元的经典文章《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis…

人工智能 2023年7月6日
0087
YoloV3 先验框

YoloV3 先验框本文主要是记录在学习YoloV3模型先验框作用和生成文本参考睿智的目标检测10——先验框详解及其代码实现，这篇博客其实写的非常详细，我在此处就不再展开，仅仅…

人工智能 2023年5月31日
0083
python使用opencv（cv2）的undistortPoints()/undistort()函数对像素坐标/图像去畸变

1 cv2的安装 python下的opencv叫cv2，但是安装cv2并不是直接 pip install cv2，而是： pip install opencv-python 安装完…

人工智能 2023年5月26日
0082
2021 年年度最佳开源软件

Svelte https://svelte.dev/ Svelte 是一种全新的构建用户界面的方法。传统框架如 React 和 Vue 在浏览器中需要做大量的工作，而 Svelte…

人工智能 2023年7月29日
0065
多元分类之手写数字识别

本文需要预先引入ML包:直接使用NuGet程序包管理添加引入还需要提前准备预处理好的灰度图片,读取各像素点灰度值后进行标记(本次采用8*8图片):其中第SN列是序号（不参与运算）…

人工智能 2023年7月1日
0096
数据分析之缺失值填充（重点讲解多重插值法Miceforest）

数据分析之缺失值填充（重点讲解多重插值法Miceforest）数据分析的第一步——数据预处理，不可缺失的一步。为了得到更好的结果，选择合适的数据处理方法是非常重要的！数据预处理之…

人工智能 2023年7月6日
00112
Attention机制介绍

因为要写作业，我都不记得老师上课有讲attention，作业十分艰难的写完了，但是还不知道attention是个啥，在此，准备看一篇文章，搞懂这是个啥。原文地址解释 she is…

人工智能 2023年5月30日
0088
livox_lidar_camera_calibration学习–标定外参验证

将点云投影到图片上 roslaunch camera_lidar_calibration projectCloud.launch 1.加载对应的图片和bag文件，相机内参和畸变系数…

人工智能 2023年5月28日
0076
本科生学深度学习，搭建环境，再不入坑就晚了

1、目的 2、心理准备 3、IDE的选择 4、AI框架的选择 5、安装环境 6、总结最近没怎么写游戏了，一直在写python，是因为我对深度学习感兴趣，想学习一下，同时也觉得AI…

人工智能 2023年7月23日
0067
python中的分位数回归（初探）

分位数回归参考文献 Python statsmodels 介绍 – 树懒学堂 (shulanxt.com) Quantile Regression – I…

人工智能 2023年6月17日
0078
条件随机场（CRF）的详细解释

条件随机场(CRF)由Lafferty等人于2001年提出，结合了最大熵模型和隐马尔可夫模型的特点，是一种无向图模型，常用于标注或分析序列资料，如自然语言文字或是生物序列。近年来在…

人工智能 2023年5月27日
0082
数字孪生十大问题有哪些？通俗解释指的是什么？

数字孪生（Digital Twins）之火热，已经成为了一个不争的事实。数字孪生的概念，起源于制造业，现在已广泛应用到了智慧城市、智慧交通、智慧农业、智慧医疗、智能家居等行业。数字…

人工智能 2023年7月30日
0037
【实战篇】是时候彻底弄懂BERT模型了(收藏)

引言本文是【理论篇】是时候彻底弄懂BERT模型了的姊妹篇。在本文中，我们通过🤗的 transformers库来实战使用预训练的BERT模型。我们主要会实战文本分类中的情绪识别任…

人工智能 2023年6月16日
0087
VS生成exe软件和软件内部页面带图标

1.软件使内部页面带图标 QApplication a(argc, argv); a.setWindowIcon(QIcon(QCoreApplication::applicati…

人工智能 2023年6月28日
0054

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

视频实例分割paper（一）《Video Instance Segmentation》

大家都在看