开集识别(Open Set Recognition, OSR)算法：《Towards Open Set Deep Networks》OpenMax

2023年5月26日下午12:36 • 人工智能 • 阅读 170

写完了论文，重新梳理一下，以后不再更新。

1.相关论文源码

《Towards Open Set Deep Networks》即OpenMax源码:https://github.com/abhijitbendale/OSDN

《Meta-Recognition: The Theory and Practice of Recognition Score Analysis》即libMR， OpenMax使用libMR完成Weibull拟合。源码:https://github.com/Vastlab/libMR

2.极值理论

为什么使用极值理论？因为普通的分布模型不再满足实际场景下的部分情况。

以正态分布为例，该分布模型在极值部分的分布和真实情况不符合。

开集识别(Open Set Recognition, OSR)算法：《Towards Open Set Deep Networks》OpenMax

图1 正态分布示意图

如图1，极值部分指的就是分布的两端部分。

因为普通的分布模型不能较好地反映极值的分布，因此出现极值理论。

目前极值理论中有三种极值分布来反映极值部分的分布情况，分别为：Gumbel分布、Frechet分布以及Weibull分布。

目前开集识别都是按照Weibull分布来应用的，尾部分布为Weibull分布的证明可以查看《Meta-Recognition: The Theory and Practice of Recognition Score Analysis》。

weibull分布的概率密度函数(pdf)为：

weibull分布的累计分布函数(cdf)为：

3.OpenMax思路

讲完了极值理论，那么OpenMax利用极值理论做什么呢？–>根据元识别的思想矫正分类得分。

元识别的思想是什么？–>以某个模型 (meta-recognition system) 判断分类模型 (也可以是其他模型，libMR论文称为recognition system)失效的概率。

所以总结来看OpenMax就是以各已知类样本拟合得到的Weibull模型 (meta-recognition system)判断闭集分类模型 (recognition system) 分类失败的概率，并以分类失败的概率矫正已知类得分+计算未知类得分。

既然OpenMax的思路已知，接下来就是两个问题需要考虑：

如何得到各已知类的Weibull模型?

2.如何借助Weibull模型矫正得分？

3.1 得到各已知类的Weibull模型

3.1.1 得到各已知类的距离集 Di ={D1, D2, …., Dm}。

(1). OpenMax先训练好闭集分类网络DCNN。以第i类已知类为例，将所有第i类的训练样本输入到DCNN中得到它们的激活向量AV (Activation Vector)，并保留DCNN正确分类为第i类样本的AV (即DCNN分类失败的第i类样本的AV不保留)，记保留的AV集合为 AVi={AV1,AV2,…,AVm}，其中m指第i类训练样本中有m个样本被DCNN识别为第i类。

(2). 使用 AVi计算其均值MAVi (Mean Activation Vector)， MAVi即是第i类样本的质心。

(3). 使用 AVi={AV1,AV2,…,AVm}中的AV1,AV2,…,AVm计算它们到质心MAVi的距离，记距离集合为 Di={D1, D2, …, Dm}

3.1.2 拟合 Di中极大值的分布

Di中的极大值分布按照Weibull分类来拟合，此处使用libMR的fit_high()来拟合。

值得注意的是fit_high()和fit_low()的区别，libMR源码说:”Fit_low( ):Use fit_low if your data is such that is smaller is better”。实际上fit_high()和fit_low()的区别就是拟合集合中极大值以及极小值的区别，如果以图1作为数据分布，fit_high()拟合的是右端极大值，fit_low()拟合的是左端极小值。

拟合得到的结果是Weibull分布的累积分布函数CDF。

3.2 矫正得分

3.2.1 得到待预测样本的AV

使用DCNN得到预测样本的AV (即K个已知类得分向量)，记为 AVx = {Score1, Score2, …, ScoreK}，K指已知类的种类数。

3.2.2 矫正得分

3.1.2步已经得到了每一个已知类的Weibull分布模型，此时需要借助这些模型矫正得分 AVx = {Score1, Score2, …, ScoreK}。

先计算 AVx到每一个已知类质心(MAV1, MAV2, …, MAVK)的距离 {Dx1, Dx2, …, Dxk}。

假设要矫正 AVx中的第j类得分Scorej。将Dxj输入到第j类的Weibull分布模型CDF中输出，此处使用的是mr.w_score(Dxj)。w_score()就是第2节说的CDF,因此mr.w_score(Dxj)返回的是极大值出现在(-∞,Dxj ]中的概率，极大值就是说距离第j类质心很远很远… 极大值在(-∞,Dxj ]中，那么Dxj距离第j类质心更远。样本距离某类质心远意味着样本越不可能输入该类，即mr.w_score(Dxj)返回的是预测样本不属于第j类的概率，那么1-mr.w_score(Dxj)就是样本属于第j类的概率。

以wj=1-mr.w_score(Dxj)作为第j类得分Scorej的修正权值即可。即修正后的第j类得分为Scorej’=Scorej*wj。

其他已知类的得分也是这样矫正。

未知类的得分为Score_unknown=Score1(1-w1)+Score2(1-w2)+…+ScoreK*(1-wk)

综上所述，这一步就得到了新的得分向量{Score1′, Score2′, …, ScoreK’, Score_unknwon}

得分映射为分类概率

将3.2.2节得到的得分{Score1′, Score2′, …, ScoreK’, Score_unknwon}使用SoftMax映射各分类概率即可。

当最大分类概率在未知类取得或者最大分类概率小于某一阈值，则识别为未知类。

Original: https://blog.csdn.net/weixin_42188082/article/details/122009841
Author: 夜猫子熬夜云撸猫
Title: 开集识别(Open Set Recognition, OSR)算法：《Towards Open Set Deep Networks》OpenMax

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/519532/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pandas中如何提取DataFrame的某些列

在处理表格型数据时，一行数据是一个 sample，列就是待提取的特征。怎么选取其中的一些列呢？本文分享一些方法。使用如下的数据作为例子： import pandas as pd …

人工智能 2023年7月4日
0058
python中__call()__函数和TensorFlow中call（）函数的区别

在使用python的时候，经常用到python中的特殊函数:__call()__函数，但是学习TensorFlow的时候，又会看到自定义模型的时候，经常用call（）函数，不懂他们…

人工智能 2023年5月26日
0079
查看是否安装显卡驱动，查看可以使用的驱动版本

1.查看是否安装显卡驱动 glxinfo | grep rendering 显示如下：Command ‘glxinfo’ not found, but ca…

人工智能 2023年5月25日
0091
2022 ECCV 三维人体重建相关论文汇总

非参重建（3D Clothed Human Reconstruction） Title: AvatarCap: Animatable Avatar Conditioned Mono…

人工智能 2023年7月28日
0070
Windows下使用Anaconda3安装tensorflow2.6.1-CPU版本

Windows下使用Anaconda安装tensorflow-CPU 一、安装Anaconda 二、安装TensorFlow * 1、使用Anaconda创建新环境 2、安装Ten…

人工智能 2023年5月25日
0070
机器学习算法 | Python实现k-近邻算法

机器学习算法 | Python实现k-近邻算法目录 * – 机器学习算法 | Python实现k-近邻算法 – + 基本介绍 + 工作原理 + 程序设计 …

人工智能 2023年6月11日
0064
Mac M1 由于arm导致“tensorflow 报错”解决方法

Mac m1 由于arm导致”tensorflow 报错”解决方法 * – 问题描述 – 导致问题的原因 – 问题解决 …

人工智能 2023年5月25日
00109
tensorflow笔记（6）

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年5月26日
0082
Python设计模式-六大设计原则

Python设计模式-六大设计原则顾名思义，单一职责的原则是说一个类只负责一项职责（操作）。如果一个类负责多个职责，其中一项职责发生变化就需要修改整个类，这可能会导致其他的职责运…

人工智能 2023年6月4日
0086
语音处理/语音识别基础（六）- 语音的端点检测（EPD/VAD)

端点检测（End-point Detection，简称 EPD）的目标，是要找到音频信号（音讯）的开始和结束的位置，所以又可以称为 Speech Detection 或是 VAD …

人工智能 2023年6月23日
0092
比Tensorflow还强？

大家好，我是章北海 Python是机器学习和深度学习的首选编程语言，但绝不是唯一。训练机器学习/深度学习模型并部署对外提供服务（尤其是通过浏览器） JavaScript 是一个不错…

人工智能 2023年6月4日
00110
mysql主从复制实践

mysql主从复制实践实际生产中都是配置了mysql的主从，用于容灾和恢复，缓解读写读的压力。配置主从一般都是复制主库数据到从库，然后配置主从复制，这里主要描述docker 如何…

人工智能 2023年6月29日
0085
在没有训练数据的情况下通过领域知识利用弱监督方法生成NLP大型标记数据集

在现实世界中开发机器学习（ML）模型的主要瓶颈之一是需要大量手动标记的训练数据。例如，Imagenet数据集由超过1400万手动标记的各种现实的图像组成。虽然迁移学习的出现极大地…

人工智能 2023年5月28日
00138
基于Coppeliasim的仿真流水线协作机器人

一、机器人简介基于Coppeliasim仿真软件，流水线协作机器人实现了将不同颜色物料的分拣投放至目标位置。传送带上分布着不等距的物料，传送带的末端有一个用来计数和检测物料是否到…

人工智能 2023年6月20日
00164
Knowledge-based Systems期刊投稿经历

Knowledge-based Systems（KBS）目前是中科院升级版计算机科学-人工智能一区 Top期刊这篇论文2021.10.10投稿，2022.1.7接收，历时约三…

人工智能 2023年5月27日
0096
ViT结构详解（附pytorch代码）

参考这篇文章，本文会加一些注解。源自paper:AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION…

人工智能 2023年7月24日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31