（2022）异常检测新任务《Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly Types》

2023年6月2日上午7:32 • 人工智能 • 阅读 94

文章目录

原文地址

初识

本文主要提出了异常检测领域中一类新任务：异常聚类(Anomaly Clustering)，相比于一般意义上的异常检测【需要构建一个分类器将数据划分为 Normal和 Anomaly两类，如图(a)所示】，异常聚类的目标是将所有数据划分为许多个簇，每个簇代表不同的异常 / 正常，如图(b)所示。

（2022）异常检测新任务《Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly Types》

关于这个任务的实际意义，作者提到了两点：1）聚类结果可以被用来生成主动学习查询数据，这可以提升异常检测方法的性能；2）可以帮助工程师分析导致各种异常类型的根本原因，以修复制造流程中的缺陷，减少异常行为。

第一点不太理解，文章引用到的一些方法也比较老，感兴趣可以去查阅原文。

虽然现在(深度)图像聚类的方法已经发展不错了，但本文提出的这个问题还具有很多挑战：1）首先，与典型的图像聚类不同，用于异常聚类的图像可能 不是以对象为中心的，因为这些图像主要是局部区域出现异常；2）其次，在工业应用中数据收集有限，这使得在大型数据集上训练的先进深度聚类方法不太适用（作者也做了实验）。

最后作者在这个任务上提出了一种新的异常聚类框架，并在不同的数据集上验证了方法性能。

; 相知

框架总览

整体的框架如下图(a)所示，其主要做法还是建立在传统聚类策略上，定义好两副图像之间的距离，进行聚类。但之前也提到，与传统的图像聚类不同，这个任务需要更关注于 局部细节，因此先使用 预训练模型提取 patch-level特征，这样每幅图像都会对应一 包(bag) patch嵌入，任务目的就是将每个包嵌入分配到对应的簇中（assign a cluster membership to each bag）。

附录中介绍了不同架构的具体做法，对应报告的结果(WRes50)采用block2的输出 + 3×3 pooling。

总之，作者将这个任务视为多实例聚类问题(multiple instance clustering, MIC)，整体步骤如下：

提取patch嵌入，并将一幅图像中的所有特征嵌入定义为一个包(bag)，图(a)中橘色部分；
计算包与包之前的距离；
应用基于距离的聚类方法（比如层次聚类、谱聚类）。

距离度量

框架确定下来之后，可以发现与其他聚类框架一样，一个好的距离度量就显得非常重要。由于在这个任务中，并不是每个patch都有相同的贡献【主要靠异常区域】。因此采用加权平均的方式计算出每个包的整体特征，再根据整体特征去计算距离：

其中，α对应于权重。作者针对无监督 / 半监督两种不同的模式来确定α。

1）无监督模式【不区分正常图像与异常图像】

根据 豪斯多夫最大距离进行定义，其中(2)(3)展示了 豪斯多夫最大距离的计算公式，其核心是找到Z i Z_i Z i 和Z j Z_j Z j 之间的最大的相似距离。其对应的权重α所(4)示，

（对包中每个实例先找到对应最相似的实例计算距离，以最大的距离作为d(Zi,Zj）)

上面的做法使得在计算距离是，每幅图像只考虑两个包中的单个实例。虽然有人提出采用相应的改进办法，但作者实验发现也不鲁棒。因此提出了一个 soft weight的策略，如下所示，其中τ控制α的光滑程度：

2）半监督模式【知道哪些图像是正常图像】

如果在训练时，知道数据中哪些图像是正常图像，那么就可以采用下式来计算权重α，其中Z t r Z_{tr}Z t r 为正常图像包的集合：

下图展示了不同数据集的采用不同方法得到的归一化权重α可视化。其中 Segmentation表示从数据集 GT转换而来的权重α。

部分实验

这里只展示部分实验结果，更多实验见原文以及原文附录。

下表展示了不同模式下采用不同方法的结果，因为能够获取到真实聚类标签，可以采用匈牙利算法高效计算GT与预测的最佳匹配，并以此衡量性能。其中 NMI、ARI都是衡量聚类性能的指标， F1 score也是反映聚类的精确度。这几个指标都是 值越大越好。

下表展示了步骤3采用不同聚类方法的结果，综合来看层次聚类(Ward)效果最好。

最后展示一下聚类结果，其中红色框表示错分的图像，橘色框表示此图像存在多种缺陷。

回顾

本文是2021年12月 google cloud AI research团队放上Arxiv上的文章，针对的数据集主要还是MVTec AD。这个团队在最近两年针对该数据集做了不少工作，不过目前这个数据集基本上已经被刷爆了【指的是异常检测 / 分割任务】，因此这次提出了一个新坑?

但从整体的思路和做法来看，本文构建的框架和方法并不难，主要是提出了一种新任务，并构建了一个不错的baseline以及提供了大量的消融实验结果。

从排版的格式和放在arxiv上的时间节点来看，大概率是投递CVPR2022的工作，但是否收录目前还不清楚，如果收录了，那后续肯定有非常多基于其改进的方法出现。拭目以待… …

Original: https://blog.csdn.net/qq_36560894/article/details/122577692
Author: 我是大黄同学呀
Title: （2022）异常检测新任务《Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly Types》

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/560248/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python：opencv画点、圆、线、多边形、矩形

简介：机器学习视觉方向一般都需要在图像中添加标注框，标注框有着很大的用处，特别是对图像中某些需要关注的特征起到圈定的效果，方便对特征选择进行处理。相关攻略：机器学习：基本流程P…

人工智能 2023年6月18日
0079
传统算法（源于微信）个人觉得很有用

来源网页： Original: https://blog.csdn.net/yangjinyi1314/article/details/124548897Author: 曙光_de…

人工智能 2023年7月20日
0057
正则化的线性回归：岭回归和 Lasso 回归

目录 1. 岭回归 2. Lasso 回归 3.Lasso回归和岭回归的同和异：参考资料引言 注：正则化是用来防止过拟合的方法。在最开始学习机器学习的课程…

人工智能 2023年6月18日
0080
【论文笔记】对比学习(Contrastive Learning)音频表示框架（COLA）

文章目录 * – 1. 对比学习 Contrastive Learning – 2. COLA 介绍 – + 1) similarity mea…

人工智能 2023年5月27日
0072
阅读笔记 Joint Event and Temporal Relation Extraction with Shared Representations and Structured …

《事件和事件时序关系的联合抽取》[(Joint Event and Temporal Relation Extraction with Shared Representations…

人工智能 2023年6月4日
0066
两层感知机解决异或(XOR)问题

两层感知机解决异或(XOR)问题文章目录两层感知机解决异或(XOR)问题 * 前言感知机简单逻辑电路 – 与门与非门或门异或门 – 异或门的感…

人工智能 2023年6月15日
00132
智源社区AI周刊No.107：英伟达推出Magic3D；Stable Diffusion2.0发布

汇聚每周AI热点，不错过重要资讯！欢迎扫码，关注并订阅智源社区AI周刊。英伟达推出Magic3D，性能超过谷歌DreamFusion 近一段时间，让AI生成3D点云成为业界研究…

人工智能 2023年7月30日
0030
是什么？它

优化器（Optimizer）和损失函数（Loss）介绍优化器（Optimizer）在深度学习中，优化器用于更新模型参数以最小化损失函数。PyTorch提供了多种优化器，其中常用…

人工智能 2024年1月3日
0032
CenterNet根据自己的数据训练模型

本文参考： 1、数据集相关的：https://blog.csdn.net/weixin_42634342/article/details/97697356 2、训练自己的模型参考：…

人工智能 2023年7月10日
0056
FixMatch：一致性正则与伪标签方法在SSL中的最佳实践

背景半监督学习（SSL）提供了一种利用无标签数据提高模型性能的有效方法，这一领域最近取得了快速进展，但以往的算法需要借助复杂的损失函数和大量难以调整的超参数。本文介绍了谷歌的研究…

人工智能 2023年7月13日
0096
Python Pandas 查看数据信息 DataFrame.info()

在进行数据分析之前，需要先查看数据的信息，这样才方便后续的数据处理。比如，在excel表中20220520是一个常规类型的数据，那它导入到DataFrame中是int类型还是st…

人工智能 2023年7月15日
0053
教程：Windows10下如何安装使用多版本Tensorflow2.x/Pytorch/paddlepaddle的GPU版本[和CUDA的安装及问题详解]【亲测可行】【详细和持续更新】

【强烈建议收藏的干货】更新概述：1.待定其它用到的：1.anaconda包与环境的管理注意：单独安装cudatoolkit的指定版本需要加 -c conda-forge：【推荐…

人工智能 2023年5月26日
0048
PaddleOCRSharp，2022年，你来的晚了些，一款.NET离线使用的高精度OCR

一款免费且离线的.NET使用的OCR，爱你又恨你！恨你来的太晚了。 PaddleOCRSharp 本项目是一个基于百度飞桨PaddleOCR)的C++代码修改并封装的.NET的工具…

人工智能 2023年6月4日
00104
Raki的读paper小记：DualNet: Continual Learning, Fast and Slow

Abstract & Introduction & Related Work 研究任务持续学习已有方法和相关工作面临挑战虽然无监督和元训练在简单的数据集如M…

人工智能 2023年5月28日
0057
计量经济学（stata）笔记1 记录每天的进步

概述菜单驱动点击菜单栏命令行驱动在命令窗口里输入命令。结果窗看结果，变量窗历史窗口程序驱动 findit ：不知道具体命令名字 findit regression ：…

人工智能 2023年6月17日
0054
springcloud3 EurekaClient集群的搭建2

一概述 1.1 概述本文主要是搭建集成eurekaserver的几个客户端，即服务提供者，消费者。架构图如下所示 1.2 使用eureka整合的优点使用Eureka管理注册的…

人工智能 2023年7月29日
0039

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

（2022） 异常检测新任务《Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly Types》

文章目录

原文地址

初识

; 相知

回顾

大家都在看

（2022）异常检测新任务《Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly Types》