开放式的目标检测

2023年7月9日下午10:28 • 人工智能 • 阅读 55

最近做了一个很有意思的工作，可以总结为使用自然语言描述的目标的目标检测。预期使用场景是视频理解，语义检索这一类的场景。

传统的目标检测技术，大概可以归纳为，采集数据、标注目标类别和位置，训练，测试使用。这里的主要问题是很多带标注的数据成本很贵，而且很多应用中的目标类别其实挺少见的。学术上的说法是分布成长尾形态(LongTail)，顺带专门有一帮学者搞零样本、少样本的检测。

两年前，大家的做法是弄一个query(输入图像)，再指定一个suport(要检索目标的图像，模板图像)，让后通过同样的网络生成两个不同尺寸的特征图，然后将suport的特征图作为卷积核和query特征图做卷积。按照匹配区域最大的原理确定目标位置。

目前最新的做法是是使用自然语言作为suport特征。这是由于去年openai公布了一个clip模型，这个模型在4亿文本图像对上训练完成的，能够将NLP特征和CV特征映射到一个语义特征空间！！效果确实很惊人（详细可以参考这里）。这里不得不说clip确实是开辟了一个新的领域，成功的将CV与NLP绑定到了一块，开启了NLP与CV的多模态时代．．．．

由于clip搭建了一个CV和NLP的桥梁，所以衍生了很多交叉应用，啥zeroshot分类，视频语义检索，文本语义检索、根据图像检索文本、根据文本检索图像、文本检索文本、图像检索图像等等……

在检测任务上，一个朴素的想法是，做一个单纯的目标检测(概念上的目标，只分有无目标两类，具体做可以将coco数据集上８０类当成一个类，其实就是一个RPN网络)，然后将检测到候选框图片输入到clip上图像编码器上，将生成的特征编码作为输出一个软标签。然后检索时候，将需要检索的物体用一句话（prompt）或一个词输入到clip的文本编码器中抽取文本特征。然后由于clip的图像编码器与文本编码器指向同一个特征空间，所以直接衡量两个特征的归一化余弦距离就可以直接检测出文本所指向的目标位置。

后来考虑网络体量限制，进一步的改进是将二阶段模型类别输出头修改成512维度的特征，然后训练时候让特征输出头尽可能和clip输出特征头对齐（可以理解为局部蒸馏）。这样做的优点是模型backbone部分更新会引入clip的语义编码指引，是的检测模型更有可能学到一些概念上标签，模型就是一个标准二阶段模型，输出类别为512维度特征（可以说就是语义标签了。。），理想情况下这个512维度特征就是clip模型的特征空间，然后无论是文本特征匹配还是图像特征匹配都可以作为检测目标！！一个缺点是这里肯定不是理想情况．．．．．clip在４亿图像对上训练的，我们在一个coco数据集上做一个局部蒸馏，最后出来的特征空间不一定能和clip的特征空间完全对齐！

一些结果：

这里输入检测的三个词分别是”计算机”、”键盘”、”鼠标”，这三个都是coco数据集中原有的标签。模型的训练其实是没有给coco的onehot标签，而是一个512维的特征编码.在经过RPN网络后生成的候选框特征和clip对应的特征做MSEloss．可以认为在clip的特征空间中，触摸板所在的候选框的特征和”鼠标”这个文本对应的特征相近。从这个角度上说利用clip特征确实能够学到一些开放概念，而不仅仅是已有的标签类别。

这个检测词分别是”茶水”、”茶杯”，这个一开始没检测到，调低了相识度阈值才出现的．．．．

这个检测的是”棒棒糖”、”笔”，小目标精度还行。

一个简单的demo：

https://github.com/Linzmin1927/objection_detection_use_NLP

Original: https://blog.csdn.net/weixin_42754237/article/details/123995432
Author: 橘子都吃不起！
Title: 开放式的目标检测

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/681574/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

[医学图像分割综述] Medical Image Segmentation Using Deep Learning: A Survey

使用深度学习的医学图像分割:一项调查论文地址本综述有两个独创之处，首先，与传统的调查方法直接将医学图像分割的文献划分为多个组，并对每个组详细介绍文献的方法相比，我们将目前流行的…

人工智能 2023年6月17日
0065
基于SVM(支持向量机)对鸢尾花进行分类

支持向量机方法也是一种强大的机器学习分类方法。在感知器算法中，我们的目标是最小化分类误差，而在SVM中，我们的优化目标是最大化分类间隔。较大的分类间隔意味着模型有较小的泛化误差，较…

人工智能 2023年7月3日
0062
卷积神经网络及其相关知识

之前我们讲了最简单的神经网络–人工神经网络(ANN)，如果有不清楚的小朋友，可以去看我之前写的文章，里面详细地简述了人工神经网路的概念以及基本相关知识。神经网络及其相关…

人工智能 2023年7月1日
0093
深度学习（四）-全连接神经网络简单理解

一、前言阅读该文前请先看认识要从线性回归和逻辑回归说起，因为本质上来说线性回归和逻辑回归是一种最简单的神经网络，从线性回归和逻辑回归开始理解，会相对容易一些！神经网络网络也被称…

人工智能 2023年7月14日
00165
计算机专业毕设外文翻译springboot_计算机毕业设计-SpringBoot+知识图谱毕业设计论文可视化系统-周浩斌组: 1、整理近5年软工毕业设计(论文)的基础信息(作者、题目、摘要、关键词、论…

计算机毕业设计-SpringBoot+知识图谱毕业设计论文可视化系统-周浩斌组引言为了充分把握本专业领域的发展热点，对毕业设计(论文)质量进行持续监控，持续改进毕业设计环节，开…

人工智能 2023年6月1日
0064
嵌入式串口通信:射频识别RFID Mifare522 Module 使用和教程

嵌入式射频识别RFID Mifare522 Module 使用和教程本篇章 Mifare522 Module 使用说明书 * 1.1 硬件描述 1.2 通信协议 –…

人工智能 2023年7月20日
0093
【语音识别】基于matlab傅立叶变换0-9数字语音识别【含Matlab源码 384期】

⛄一、简介 1 滤波滤波是对信号中特定频段的频率进行滤波的操作，是抑制和防止干扰的重要措施。它是根据观察一个随机过程的结果来估计另一个相关的随机过程的概率理论和方法。 [En] F…

人工智能 2023年5月27日
0062
深入浅出 Yolo 系列之 Yolov7 基础网络结构详解

从 2015 年的 YOLOV1，2016 年 YOLOV2， 2018 年的 YOLOV3，到 2020 年的 YOLOV4、 YOLOV5，以及最近出现的 YOLOV76 和…

人工智能 2023年5月26日
0063
人工智能——DBSCAN密度聚类（Python）

1 概述 1.1 概念 1.2 DBSCAN数据点分类 2 DBSCAN算法流程 2.1 DBSCAN算法流程： 2.2 举例 3 案例1（Python实现） 3.1 案例 3….

人工智能 2023年6月2日
0077
Python OpenCV实现姿态识别

Python OpenCV姿态识别前言环境安装 * 下载并安装 Anaconda 安装 Jupyter Notebook 生成Jupyter Notebook项目目录下载训练…

人工智能 2023年7月19日
0066
【论文笔记】AP-CNN: Weakly Supervised Attention Pyramid Convolutional Neural Network for FGVC

目录 task 数据集 AP-CNN * 1、主要改进 – 1）Attention Pyramid（注意金字塔） 2） ROI引导的细化模块 2、与主流模型比较 3、可…

人工智能 2023年7月14日
0068
Yolov5添加注意力机制

一、在backbone后面引入注意力机制 1、先把注意力结构代码放到common.py文件中，以SE举例，将这段代码粘贴到common.py文件中 2、找到yolo.py文件里的p…

人工智能 2023年7月4日
0072
Opencv-图像操作与处理入门基本知识（一）

文章目录前言一、图像基础知识 * 像素坐标系图像坐标系二、opencv处理图像基本操作 * 2.1 基础知识与应用 – 2.1.1 读取图像 2.1.2 显示图…

人工智能 2023年6月22日
0075
pytorch修改图片尺寸大小

import cv2 from torch.utils.data import Dataset from PIL import Image import os import mat…

人工智能 2023年6月18日
0078
中断线程化

中断线程化中断处理程序包括上半部硬件中断处理程序，下半部处理机制，包括软中断、tasklet、workqueue、中断线程化。当一个外设中断发生后，内核会执行一个函数来响应该…

人工智能 2023年7月30日
0049
逐步解决安装Keras后运行程序出现的问题哭晕在厕所里-‘transpose_shape‘ from ‘keras.utils.generic_utils‘

ImportError: cannot import name ‘transpose_shape’ from ‘keras.utils.gene…

人工智能 2023年5月25日
0065

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

开放式的目标检测

大家都在看