Improving Few-Shot Part Segmentation using Coarse Supervision学习笔记

2023年7月10日上午4:53 • 人工智能 • 阅读 68

摘要

鉴于部件分割中训练网络详细标注的开销巨大瓶颈问题，论文提出一个可利用诸如图像背景Mask、关键点位置信息等易获得的粗粒度标签信息的框架，借此优化部件分割模型。框架面临的第一个挑战是粗粒度标记来自不同的任务并且具有不同的标记类型，很难直接映射到部首标记。为此，我们提出联合训练部首分割模型和粗粒度标记类型，深度学习他们之间的依赖关系，从而可以利用现有的粗粒度信息。为了评估方法的优劣，我们在加州理工大学UCSD鸟类和OID飞机数据集上开发了一个基准。实验证明我们的方法优于基于多任务学习、半监督学习和竞争性方法的基线，这些方法依赖于手动设计的利用稀疏监督的损失函数。

1、背景介绍

用于标记部件的精确模型有许多应用。它们可以帮助完成精细的识别任务，如估计动物的形状和大小、物种识别，并支持图像编辑和动画等图形应用。一个显著的瓶颈是收集可用于监督网络训练的标注信息成本巨大。然而，许多情况下数据集得到替代标签，例如对象边界框、图形背景遮罩或关键点相对容易，这些替代标签可以考虑作为监督的来源。但这些标签的细节和结构往往不同，例如，边界框和遮罩比部件标签粗糙，而关键点则过于稀疏。因此，它们不能轻易地”翻译”成零件标签，用以直接监督学习。

论文提出一个可利用数据集自带的诸如图像背景Mask、关键点位置信息等粗粒度标签信息来进行训练部首分割的框架模型。框架基本原理如图1所示。

Improving Few-Shot Part Segmentation using Coarse Supervision学习笔记

将部件标签视为隐变量，在贝叶斯设置中联合学习部件分割模型和标签样式之间的未知依赖关系（详见3部分）。通过深度神经网络来建模粗标记和部件分割之间的关系，这样粗略标签就可以进行监督训练神经网络。一个技术挑战是，贝叶斯推理需要对高维潜在分布进行抽样，这通常是难以解决的。我们通过做出某些条件独立性假设来解决这个问题，并开发了一个用于学习的摊销推理程序。我们的方法允许使用现成的图像分割网络和标准的反向传播机器进行训练。

总结论文贡献包括：1）一个使用现有数据集的各种粗监督标记学习部件分割模型的框架；2）一种有效的摊销推断方式，比主要的粗监督方法（例如PointSup[4]）慢大约3倍，并且更准确；3）从CUB和OID飞机数据集上的几个标记示例评估零件分割的两个基准；4）对各种设计选择进行系统评估，包括初始化对迁移学习的作用，以及各种形式的粗糙标签的相对好处。

2、相关工作

2.1弱监督图像分割

以前的工作使用分类标签、边界框或图像中稀疏位置（如点或线）的监督。

Zhou等人[33]使用图像级的类别标注监督信息，通过探索类别响应峰值使分类网络能够很好地提取实例分割mask,文[1, 34]使用以前的图像分类模型生成伪ground truth 标签。Khoreva等人[15]将边界框用作弱监督。他们在给定的边界框内使用经典方法（如GrabCut[22]）生成伪ground truth，并使用它来训练分割模型。Hsu等人[13]先使用边界框紧度，然后训练一个Mask-RCNN[10]，使用紧密边界框中的水平和垂直贴片作为正信号，外部贴片作为负信号。Box-Inst[25]使用投影损失，强制边界框内的水平线和垂直线预测至少一个前景像素，以及亲和力损失，强制具有相似颜色的像素具有相同的标签。Laradji等人[17]介绍了一种基于提议的实例分割方法，该方法使用每个实例一个点作为监督。Cheng等人[4]使用每个实例随机抽样的多个点以及边界框作为监督来训练Mask-RCNN模型。ScribbleSup[18]使用一个图形模型，将信息从scribbles(涂鸦)传播到未标记的像素，以学习网络参数。另一个工作流程[3,35]同时训练两个模型，并从一个模型到另一个模型进行交叉监督。Naha等人[19]使用关键点指导来预测未知类别的部件分割标签，但在评估期间需要关键点输入。

所有这些方法都设计了特定于一种监督的算法，标注样式与所需的部件标签有清晰的映射。 比较而言，我们的方法处理各种标签样式，并有机会使用现有数据集来学习部件分割标签。

2.2无监督学习

以前的一些工作使用自我监督来进行学习分割。

SCOPS[14]使用几何集中（同一对象部分的区域在空间上集中）、等变（强制部件分割与几何变换对齐）和语义一致性（在不同的实例上）。Wang等人[30]还使用等变约束来细化类激活映射，从而形成最终的分割映射。另一种方法[20]使用像素级对比学习来学习下游任务（如分割）的特征表示。Yang等人[32]使用分层GAN为图像生成背景层和前景层，鉴别器在叠加图像上预测。PiCIE[5]对同一图像的不同视图强制执行光度变换不变性和几何变换等变性。

这些方法可用于初始化网络，以提高小样本学习的性能，并且是对我们方法的补充。例如，本文比较了自监督学习相对于随机初始化网络和ImageNet预训练网络的优势。（没太明白，应该是在这两个方法中借鉴了上面的方法）。

2.3 多任务学习

通过跨任务共享模型的部分内容，从不同的监督来源中获益。

对于图像分割，先前的工作[6]提出了多任务级联网络，其中三个网络分别预测实例、掩码和分类对象。Heuer等人[12]将目标检测、语义分割和人体姿势估计等任务结合起来，但在分割方面没有比单一任务网络更好的表现——我们在实验中也观察到了这一趋势。Standley等人[24]表明，在多任务设置中组合一些任务会降低性能，而在其他情况下，性能会得到提升。为了设计一个能够处理不同任务的多任务网络，一些方法[8,9]将任务分组，使它们能够很好地一起执行。其他工作，如[16,26]使用关键点和边界框信息来预测实例分割，但使用多阶段框架。Mask RCNN[10]将一个Mask segmentation head添加到Faster-RCNN[21]中，以预测边界框和实例分割。

与一般的多任务方法不同，我们的方法利用分层标签结构来指导学习，并始终优于它们。

3、标签样式的联合模型

对于图像x表示y∈ S是部件分割标签，即每个部件的像素级标签，y1∈ S1，y2∈ S2，yn∈ Sn表示与各种标签样式相对应的粗略标签例如，y1可能表示一组关键点的坐标，y2可能表示figure-ground mask。如果Sa可以从Sb得到或推导出，我们称标签Sa比Sb粗糙。例如，图形背景遮罩可以从对象的部件标签导出，或者边界框可以从图形背景遮罩导出。 我们的目标是：给定一小组带有部件标签的图像集合y∈ S、还有一大组带有粗糙标签yk的图像∈ Sk，学习得到一个部件分割模型p(y|x)。

所有粗略标签都可以从部件分割标签中导出的假设导致图像和标签有以下联合概率分布(如图1)：

假设似乎是强大的，但我们发现它就是如此（所有粗略标签都可以从部件分割标签中导出，就是我们认为的那样）。例如，给定部件分割标签，一个卷积网络可以准确地预测关键点的位置达到精度>92 PCK（Percentage of Correct Keypoints定义为正确估计出关键点的比例），这与给定图像的关键点的预测精度一样好。不管怎样，

的形式仍然很复杂，因为它涉及到对各个部分的范围和位置的推理。分布情况也可能是未知的，尤其是现有数据集中一组不同的标签和标注指南相结合时。例如，用于关键点标注的部件名称和用于分割任务的部件名称之间可能没有直接对应关系。相比之下，对于给定部件标签的地物背景遮罩或边界框，该形式简单且具有确定性。

3.1用于学习的可变EM

假设图像x包含粗略的标签

。我们将估计参数θ使得数据的对数似然最大化：

给定

上的隐变量y分布q(y)：

是q分布的熵。

EM算法在以下两种情况下交替使用：

E步骤：在给定参数的情况下，最大化y上的F(q,θ) wrt 分布？：

M step：给定分布q(y)，最大化F(q,θ) wrt参数：

请注意，在上面我们推导了单个示例 X 的EM算法，但总体方法需要估计每个训练示例的隐变量

的分布以及所有训练示例的参数。然而，在此处高维分布上为每个训练样本X优化

通常是困难的。在”hard EM”中，分布 Improving Few-Shot Part Segmentation using Coarse Supervision学习笔记

被后验分布模式所取代，但当概率用深度网络表示时，估计这一点也可能具有挑战性。在下一节中，我们将介绍一个摊销推断过程，在该过程中，我们使用一个以所有观测变量为条件的独立网络来估计

。

3.2关键点和图形地面遮罩的粗略监督

Original: https://blog.csdn.net/wuling129/article/details/124322672
Author: wuling129
Title: Improving Few-Shot Part Segmentation using Coarse Supervision学习笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/682123/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

论文笔记007-《Neighborhood Matching Network for Entity Alignment》

1. 简介题目：《 Neighborhood Matching Network for Entity Alignment》来源：ACL-2020链接：论文链接代码：Code和Da…

人工智能 2023年6月10日
0092
R语言导入、读取CSV数据实战：R原生read_csv、readr包、data.table

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月16日
0060
深度学习环境搭建：Pytorch与CUDA的安装

回答1： Ubuntu 18.04 需要以下步骤： 1. 和cuDNN：是NVIDIA提供的用于GPU加速的并行计算平台，cuDNN是NVIDIA提供的用于的GPU加速库。可以…

人工智能 2023年7月5日
0094
yolov5 python API（供其他程序调用）

你的yolov5🚀是否只局限于detect.py？如果其他程序要调用yolov5，就需要制作一个detect.py的python API。python无处不对象，制作detect …

人工智能 2023年7月6日
00108
【学习笔记】神经网络的基本原理

; 概念描述神经网络是一种重要的机器学习算法，可以用于分类、聚类等多种任务。与其他传统算法不同，神经网络回归得到的模型是一个黑盒子，没有显式的公式或代数表达，但是凭借其复杂的结构…

人工智能 2023年6月15日
0087
【机器学习】KNN算法实战项目三：金融贷款策略分类

KNN算法实战项目三：金融贷款策略分类 3 金融贷款策略中的KNN分类 * 3.1 模块导入与数据加载 3.2 数据EDA – 3.2.1 数据预处理 3.2.2 数据…

人工智能 2023年7月2日
00115
电商淘宝用户行为分析

一、项目介绍本次实战的数据是来自阿里巴巴提供的一个淘宝用户行为数据集，用于隐式反馈推荐问题的研究。数据下载：https://tianchi.aliyun.com/dataset/…

人工智能 2023年6月11日
0077
【Python数据分析】利用Python将多个EXCEL表格合并为一个EXCEL表格

如何将EXCEL的多个表格合并成一个表格呢？比如每月销售额是一个单独的表格，我想把它们合并成一个表格，今天就与大家分享如何利用Python数据分析3分钟搞定，不管你要合并多少个文件…

人工智能 2023年6月19日
0082
【精华】OpenCV常见报错信息及解决方法汇总

>>> pip install opencv-python Collecting opencv-python Downloading opencv_python-…

人工智能 2023年6月19日
00104
Selenium怎么上传文件，比你想的方式还多

在软件测试行业呆了几年，收集了很多【教程】和【面试题】，现在分享给有需要的人，评论区回复或者直接私我：jiubing1 Selenium 封装了现成的文件上传操作。但是随着现代前端…

人工智能 2023年7月6日
0089
Python — 图像处理—PIL库的使用

PIL库的使用要点：PIL库是一个具有强大图像处理能力的第三方库，不仅包含了丰富的像素、色彩操作功能，还可以用于图像归档和批量处理。 1.PIL库概述 PIL（Python Im…

人工智能 2023年6月17日
00104
2021-11-13

但基于python的项目，尤其是目前流行的智能应用项目，存在一个很大的问题，就是向后兼容性差。具体表现为，同一个项目源码，在其它机器上经常无法正常运行。这是因为：为此，基于pyt…

人工智能 2023年5月25日
0076
AttributeError: cannot assign module before Module.__init__() call

诸神缄默不语-个人CSDN博文目录运行环境，报错信息和查找到的错误内容：Linux系统Python 3.8（使用anaconda管理的虚拟环境）PyTorch 1.11+cuda…

人工智能 2023年6月23日
0090
多元线性回归超详细详解(一步一步手推公式)

上一篇我们详细的讲解了一元一次线性回归算法，今天我们接着上一篇，为大家讲解多元线性回归是怎么一回事。何为多元？当我们的输入x只有一维属性时，我们称之为一元。就像我们判断人胖瘦，只…

人工智能 2023年6月15日
00109
图片、视频超分模型RealBasicVSR安装使用|机器学习

目录前言安装 1、虚拟环境创建 2、安装pytorch 3、安装openmim 4、安装mmcv-full 5、安装mmedit 6、安装scipy 7、模型下载使用图片超…

人工智能 2023年7月23日
0095
NLP之文本情感分析(word2vec)

1. NLP任务的基本流程 ; 1.1 文本预处理文本清理：去除文本中无效的字符，比如网址、图片地址，无效的字符、空白、乱码等。标准化：主要是将不同的「形式」统一化。比如英文大…

人工智能 2023年5月28日
0088

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31