干货！基于语义关系推理的小样本目标检测

2023年7月10日下午5:45 • 人工智能 • 阅读 52

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

本文探究了利用语义关系和视觉信息，并将显式的关系推理引入到新型物体检测的学习中。所提出基于语义关系推理的小样本目标检测器——SRR-FSD，对新目标的可训练样本数量具有鲁棒性和稳定性。实验表明，不论提供较多或较少的显式或隐式可训练样本，SRR-FSD都能获得具有竞争力的性能，且在训练样本很少的时候性能尤为突出。

诸宸辰：卡内基梅隆大学博士，主要研究方向为计算机视觉中的目标检测与场景理解，研究成果发表在CVPR、ECCV、ICCV等会议，也已转化为专利，并被部署到企业级AI应用中，谷歌学术引用2000余次。

背景

目标检测作为计算机视觉的热门任务已经有了许多很成熟的算法，但将目标检测应用于现实世界中仍然有很大的挑战。一大挑战来源于实际检测中没有约束条件而导致的尺度差异、拍摄角度差异以及遮挡问题；另一大挑战是数据的长尾分布问题，即常见类别的数据比例较大，而特殊类别的数据比例非常微小，那基于长尾分布特点的数据集训练得到的模型就会善于预测一些常见类，对于罕见类别的检测能力不足。本文主要针对目标检测在实际应用中常遇到的长尾分布问题进行研究。

问题描述：

假设有常见类（base class）的数据和稀有类（novel class）的数据，并且这两个数据没有交集，本文的目标是设计一个目标检测器使得在能够正确检测出novel class时也没有忘记base class的检测知识。

小样本学习的方法主要包括迁移学习、基于测量的学习、元学习。一般目标检测会选择一个预训练模型作为backbone，而这个预训练模型一般是在ImageNet上进行训练的。在ImageNet中包含许多novel class，所以预训练模型已经学习了novel class的知识，这对于小样本任务来说是不合理的。

本文通过实验发现，仅仅依赖视觉信息的目标检测对样本标注的依赖性很大，无论是显式还是隐式的标注变化对检测表现的影响都很大，因此本文考虑在视觉信息的基础上融入其他模态的信息，以提高目标检测的鲁棒性。

方法

人类往往可以通过极少的案例来学习新的概念。我们可以考虑一下人类是如何进行目标检测的呢？首先人类通过视觉系统提取抽象的概念，并且把这个概念和已有的知识体系结合发展成新的概念。

知识体系是建立在概念的相互关系上的，因此我们认为不管视觉信息有多少，base class和novel class之间的语义关系是恒定的。比如下图中，我们要检测的novel class是自行车，base class是摩托车和人，那我们可以考虑的语义关系是自行车和摩托车较为相似，人可以骑摩托车也可以骑自行车，自行车上可以携带瓶子。通过这些语义关系，就更容易学习到自行车的概念。

本文的目标就是将语义关系融入到目标检测中，如此就要解决两个问题：如何表示语义概念？如何进行语义关系的推理？

（1）如何表示语义概念？

在自然语言处理领域，已经有研究者实现将单词转化为一维向量——word2vec，如下图所示，语义关系相近的单词在空间位置上也离得比较近。

将语义概念使用数字化表示之后，可以实现语义空间的投影，具体是使用大量的base class学习一个初始的投影，然后使用少量的novel class对投影进行微调。

（2）如何进行语义关系的推理？

我们使用一个知识图谱G来表示语义关系推理的过程，将G定义为一个NxN的矩阵，N是所有类别的数量，表示将所有类别之间的语义概念联系在一起。

知识图谱既可以是静态的也可以是动态的。对于静态的知识图谱，我们使用基于启发式的定义来实现，比如从wordnet定义的知识图谱中采样感兴趣的类别，或者计算两个类别在一张图中同时出现的概率来定义知识图谱。

对于动态的知识图谱我们可以采用self-attention来实现，如下图所示。

训练策略分为两个阶段，一阶段是在base class上进行训练，训练过程与传统目标检测器一致；二阶段是使用各类别采样均衡的样本结合base class和novel class进行分类和检测的调优。

下图是本文提出基于语义关系推理的小样本目标检测模型的总体框架，上述二阶段我们注意到分类和检出的输出共享一个特征向量，本文发现这样的共享会导致相互干扰，因此提出了Decoupled fine-tuning来解耦这个共享的过程，使得每个子任务（分类/检测）都有独立的全连接层。

实验

数据集以及评价指标：

消融实验：

本文选择仅使用视觉信息的Fast R-CNN作为baseline，SSP表示语义空间投影，RR表示关系推理，其中实验使用的是动态知识图谱，因为动态知识图谱的效果要好一些，DF表示decoupled fine‐tuning。

通过下图的实验结果看出，在baseline的基础上分别以此加入SSP、RR、DF等方法，使得检测准确率都在相应上升。

对比SOTA的实验结果：

总结

传统的目标检测方法通常仅使用视觉信息进行特征提取并对图片进行检测和分类，本文使用自然语言处理中的word2vec技术将单词转换为向量，将语义关系推理加入到小样本的目标检测，以解决实际目标检测应用的长尾分布问题。

今日视频推荐

整理：爱国

审核：诸宸辰

AI TIME欢迎AI领域学者投稿，期待大家剖析学科历史发展和前沿技术。针对热门话题，我们将邀请专家一起论道。同时，我们也长期招募优质的撰稿人，顶级的平台需要顶级的你！

请将简历等信息发至yun.he@aminer.cn！

微信联系:AITIME_HY

AI TIME是清华大学计算机系一群关注人工智能发展，并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索，加强思想碰撞，打造一个知识分享的聚集地。

更多资讯请扫码关注

我知道你在看哟

点击” 阅读原文“查看精彩回放

Original: https://blog.csdn.net/AITIME_HY/article/details/121112953
Author: AITIME论道
Title: 干货！基于语义关系推理的小样本目标检测

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/683276/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pandas 筛选数据的 8 个神操作

日常用 Python做数据分析最常用到的就是查询筛选了，按各种条件、各种维度以及组合挑出我们想要的数据，以方便我们分析挖掘。今天我给大家总结了日常查询和筛选常用的种骚操作，供各位…

人工智能 2023年7月5日
0060
kaldi新手入门及语音识别的流程(标贝科技)

kaldi新手入门及语音识别的流程(标贝科技) 欢迎来到体验标准湾语音开放平台。 [En] Welcome to experience Standard Bay Voice Ope…

人工智能 2023年5月25日
0095
YOLOv5 神经网络训练（本地训练）

在训练文件train.py中找到main的部分 if __name__ == ‘__main__’: parser = argparse.ArgumentParser() par…

人工智能 2023年7月14日
0052
RAW图像详解及使用Python读取raw格式图像并显示

一、RAW图像详解 1.1 什么是raw格式图像？ RAW在英文中的解释是未处理的、自然状态的，这也就是RAW文件的真谛。RAW图像就是CMOS或者CCD图像感应器将捕捉到的光源信…

人工智能 2023年6月24日
0081
TensorFlow在美团外卖推荐场景的GPU训练优化实践

美团机器学习平台基于内部深度定制的TensorFlow研发了Booster GPU训练架构。该架构在整体设计上充分考虑了算法、架构、新硬件的特性，从数据、计算、通信等多个角度进行了…

人工智能 2023年5月24日
0093
Python报错ValueError: arrays must all be same length

遇到这样的报错 ValueError: All arrays must be of the same length 问题分析和解决方式，如下： import pandas as p…

人工智能 2023年7月6日
0081
Python疫情数据获取与可视化展示

使用Python获取疫情数据，并使用pyecharts可视化，绘制国内、国际日增长人数地图，matplotlib绘制方寸图。同时代码是在notebook中完成，随笔记录所的所学，…

人工智能 2023年7月5日
0092
【阅读笔记】Zero-shot Recognition via Semantic Embeddings and Knowledge Graphs-2018

Abstract 我们考虑零样本识别问题:仅利用类别的单词嵌入及其与其他类别的关系来学习具有零训练示例的类别的视觉分类器，并提供视觉数据。处理陌生或新类的关键是将从熟悉类中获得…

人工智能 2023年6月1日
0087
回归预测值预测区间_【Origin】通过线性拟合添加置信区间

问题描述：如何像封面那样，添加一个置信区间呢？一、快速解答：使用Origin的线性拟合工具就可以，直接在你当前的图形窗口，点击’Linear Fit’…

人工智能 2023年6月18日
00146
目标检测（一）目标检测算法综述

目录目标检测概述目标检测发展历程与现状目标检测与识别技术的学习路径目标检测概述目标检测作为计算机视觉领域中最根本也是最具有挑战性的问题之一，近年来受到社会各界的广泛研究与…

人工智能 2023年6月15日
0090
如何用python裁剪图片

如何使用python裁剪图片如上图所示，这是一张包含了各类象棋棋子的图片。我们需要将其中每一个棋子都裁剪出来，此时可以利用python的 PIL库 实现。 …

人工智能 2023年7月5日
0074
R语言可视化包ggplot2包使用facet_wrap绘制多面板图（子图）实战

R语言可视化包ggplot2包使用facet_wrap绘制多面板图（子图）实战目录 R语言可视化包ggplot2包使用facet_wrap绘制多面板图（子图）实战 Origina…

人工智能 2023年7月18日
0037
Ubuntu22.04 下安装驱动、CUDA、cudnn以及TensorRT

CUDA驱动和CUDA Toolkit对应版本可查阅官方文档。驱动是向下兼容的，其决定了可安装的CUDA Toolkit的最高版本。安装与CUDA Toolkit对应的pyto…

人工智能 2023年6月16日
0076
听说越来越卷，那我们就用卷积神经网络CNN来识别狗狗吧

听说越来越卷，那我们就用卷积神经网络CNN来识别狗狗吧！！文章目录 * – 听说越来越卷，那我们就用卷积神经网络CNN来识别狗狗吧！！ – + 一、识别狗…

人工智能 2023年6月17日
0096
lofar谱 matlab_一种用于分类识别的线谱增强及特征提取方法与流程

本发明属于声信号处理技术领域，具体涉及一种用于分类识别的线谱增强及特征提取方法。背景技术：水下声音目标的被动探测和识别领域中，利用舰船辐射噪声对舰船类型进行识别是十分常见的。舰…

人工智能 2023年6月1日
0071
〖Python零基础入门篇㉟〗- 私有函数、私有变量及封装

### 回答1： Python 函数_中的 _变量_作用域指的是 _变量_的可见范围。在 _函数_中定义的 _变量_可以分为两种：局部 _变量_和全局 _变量。局部变量_指的是…

人工智能 2023年7月6日
0074

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

干货！基于语义关系推理的小样本目标检测

大家都在看