异常检测之基于聚类的局部异常因子检测算法（CBLOF）详细解释且配上代码运行实例

2023年5月31日上午7:10 • 人工智能 • 阅读 96

基于聚类的局部异常因子检测算法（CBLOF）

文章目录

基于聚类的局部异常因子检测算法（CBLOF）
前言
一、CBLOF是什么？
二、CBLOF详解
三、CBLOF代码实例

前言

服务外包使用了CBLOF算法来检测异常商品，感觉其实对于千万级的数据量来识别异常值还是比较困难的，首先准确率先不谈，能够真正在有限时间跑出结果的算法可能都寥寥无几吧。

异常检测之基于聚类的局部异常因子检测算法（CBLOF）详细解释且配上代码运行实例

最后代码实例的效果图可以程序先呈现一下，基本上就是CBLOF的整个流程了。

; 一、CBLOF是什么？

CBLOF即基于聚类的局部因子检测法顾名思义，是一种采用局部离群因子检测法的思想，基于聚类的方法来检测异常值。这个算法和孤立森林一样，是计算各个数据的异常分数，分数越大说明数据越异常。

CBLOF的基本思路就是先将数据进行聚类（我这里使用K-Means聚类），然后区分出大簇和小簇，因为异常值是占少数，往往会和大部分正常的数据有较大偏差，那么只需要计算数据与大簇之间的距离来衡量数据的异常程度，距离越大则数据越异常。

二、CBLOF详解

由于K-Means聚类是线性的时间复杂度和空间复杂度，因此被广泛运用于各种领域，即使是千万级的数据量，也是几分钟就能出结果的，别的聚类算法例如DBSCAN等等基于密度来聚类的，计算比较复杂，对于十万级的数据量可能就已经爆内存了，因此，K-Means虽然有很多局限性，但是其实运用的范围是更加广的。
关于Kmeans算法的实现可以参考我另一篇博客:
K-Means聚类及调用sklearn库代码实现

K-Means算法思想和原理基本就是上图这样了。

CBLOF其实也是比较简单，只有线性的时间复杂度和空间复杂度，因此对于千万级的数据也是非常适用的。
只需要知道其中的几个定义就能够非常清晰的了解这个算法了。

（word里的公式复制过来就乱码了，截个图凑合看看）

首先是将数据聚类，我们这里用K-Means聚类。

然后区分聚类后的大小簇，这里区分大小簇的方式有两种。
将每簇按数据量大小从大到小排序之后。
当前几簇的和占总量的α（一般取α=0.9）可以认为前几簇为大簇，之后的就被认为是小簇。
或者，当前一簇是后一簇数量的β倍时（一般β=5），也可以认为前几簇为大簇，后几簇为小簇。
当然，如果两个条件同时满足那自然是最好，满足其中任何一个条件即可区分大小簇了。

最后，计算异常分数，当数据点属于大簇的时候，计算他与当前簇的聚类中心的距离，当数据点属于小簇时，计算他与最近的大簇的聚类中心的距离。得出的就是异常分数，然后从大到小排序，就可以挑选出异常值了。

; 三、CBLOF代码实例


import pandas as pd
import numpy as np
from pyod.models.cblof import CBLOF
import matplotlib.pyplot as plt
np.random.seed(0)
mean = np.array([3, 0])
cov = np.eye(2)
dot_num = 300
fxy = np.random.multivariate_normal(mean, cov, dot_num)
data = pd.DataFrame(fxy)
data.columns = ["X", "Y"]
model = CBLOF(n_clusters=8, contamination=0.1,alpha=0.9, beta=5,random_state=1000)
model.fit(data)
data["label"] = model.predict(fxy)
data["score"] = model.decision_function(fxy)
data["cluster"] = model.cluster_labels_
large_cluster = model.large_cluster_labels_
small_cluster = model.small_cluster_labels_

fig = plt.figure()
fig1 = fig.add_subplot(221)
fig2 = fig.add_subplot(222)
fig3 = fig.add_subplot(223)
fig4 = fig.add_subplot(224)

for i in range(len(data["cluster"].unique())):
    scatter = data[data["cluster"] == i]
    fig1.scatter(scatter["X"], scatter["Y"], label=str(i), alpha=0.7)
fig1.legend()

cluster_type = []
for i, d in data.iterrows():
    if int(d["cluster"]) in small_cluster:
        cluster_type.append(0)
    else:
        cluster_type.append(1)
data["type"] = cluster_type
large = data[data["type"] == 1]
small = data[data["type"] == 0]
fig2.scatter(large["X"], large["Y"], label="large_cluster", alpha=0.8, color="red")
fig2.scatter(small["X"], small["Y"], label="small_cluster", alpha=0.8, color="blue")
fig2.legend()

inner = data[data["label"] == 0]
outer = data[data["label"] == 1]
fig3.scatter(inner["X"], inner["Y"], label="inner-position", alpha=0.5, color="blue")
fig3.scatter(outer["X"], outer["Y"], label="outer-position", alpha=1, color="red")
fig3.legend()

fig4.bar(inner.index, inner["score"], label="inner-score", alpha=0.5, color="blue")
fig4.bar(outer.index, outer["score"], label="outer-score", alpha=1, color="red")
fig4.legend()
plt.show()

print(data["cluster"].value_counts())
print("large_cluster", large_cluster)
print("small_cluster", small_cluster)

这里有四张图，第一幅图为K-Means的聚类结果，CBLOF里默认是聚成8类，可以自己调整，我这里就默认参数了，然后区分大小簇（第二幅图），然后计算异常分数标注异常（第三幅图），最后一幅图能够看到异常点都是分数较高的点。

值得注意的是这里的contamination=0.1，默认是0.1，可以自己调整，取多少就是取异常分数排名下来前百分之几作为异常。

这里是K-Means聚类聚成8类后各簇的数量，由于我数据设置的是正态分布所以还是比较均匀的。
通过计算可以发现
（300-23）/ 300 = 0.923 > α
（300-23-25）/300 = 0.84 < α
因此这里判断大小簇符合的是总量占比>α的原则，由于我们取α=0.9，因此标签为7的簇被认为是小簇，其余都被认为是大簇。

CBLOF算法思路还是比较简单的，聚类算法也可以挑选不同的算法，不过对于千万级的大数据分析的时候，可能K-Means还是比较好的选择。

Original: https://blog.csdn.net/qq_52785473/article/details/124511870
Author: Icy Hunter
Title: 异常检测之基于聚类的局部异常因子检测算法（CBLOF）详细解释且配上代码运行实例

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/549646/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

揭开《钢铁侠》AI管家贾维斯神秘面纱的扛鼎之作！

《钢铁侠》里的AI管家贾维斯，想必大家都不陌生，这样可以像人一样和自己对话的AI管家，我们是不是都想拥有一个？如果没有语音识别技术的加持，贾维斯就不能像人一样与我们交谈。 [En…

人工智能 2023年5月27日
0067
中文NER的那些事儿5. Transformer相对位置编码&TENER代码实现

这一章我们主要关注transformer在序列标注任务上的应用，作为2017年后最热的模型结构之一，在序列标注任务上原生transformer的表现并不尽如人意，效果比bilstm…

人工智能 2023年6月4日
00259
MySQL高级SQL语句

目录 1 MySQL高级语句 1.1 SELECT ——显示表格中一个或数个栏位的所有资料 1.2 DISTINCT——不显示重复的资料 1.3 WHERE——有条件查询 1.4 …

人工智能 2023年7月31日
0047
超详细的Pycharm+Anconda安装配置教程

文章目录 * – + 一、基本认识 + 二、Anconda的安装 + 三、pycharm的安装 + 四、为Pycharm配置解释器 + 五、美化 + * 1.右击美化 …

人工智能 2023年7月30日
0075
python实现PCA降维及可视化

实现功能： python对数据清洗以及数据编码（具体实现方式可查看前两篇文章）后的变量进行PCA降维，并进行可视化展示。实现代码： # 导入&#x97…

人工智能 2023年6月19日
0082
Pytorch3D Linux环境下安装（踩坑）记录

Pytorch3D Linux环境下安装（踩坑）记录文章目录一、准备工作二、极简安装（Installing prebuilt binaries） 1.创建环境 2.安装Pyt…

人工智能 2023年7月21日
0066
【无标题】

首发地址： https://zhuanlan.zhihu.com/p/451144980 读了复旦大学发的文章《Template-free Prompt Tuning for Fe…

人工智能 2023年5月30日
0075
【SpringMVC学习笔记】

文章目录一、SpringMVC简介 * – 1、什么是MVC 2、什么是SpringMVC 3、SpringMVC的特点二、HelloWorld * –…

人工智能 2023年6月27日
0095
AI算法部署时需要考虑哪些安全性方面的问题

AI算法部署时的安全性问题在部署AI算法时，需要考虑多方面的安全性问题，包括数据安全、模型安全和系统安全。本文将详细介绍每个方面需要关注的问题，并给出相应的解决方法。 1. 数据…

人工智能 2024年1月3日
0055
【深度学习】注意力机制

注意力机制之前接触到的seq2seq模型当中，解码器只依赖编码器最后一个时间步的隐藏状态作为解码器自身的初始隐藏状态。这个隐藏状态融合了所有输入序列的信息。注意力机制的提出与一…

人工智能 2023年5月28日
0096
Horovod安装，bert多GPU训练（非root用户）

Horovod安装，bert多GPU训练（非root用户） linux环境： conda虚拟环境部署，cuda版本10.0，GCC == 4.8.5 （gcc与tensorflow…

人工智能 2023年5月23日
0086
更换目标检测的backbone（以Faster RCNN为例）

本博客以Faster RCNN为例，介绍如何更换目标检测的backbone。对于更换目标检测backbone，主要难点是： 如何&amp…

人工智能 2023年6月17日
00171
【C语言】如何正确的理解数组（一维）

哈喽大家好，我是保护小周ღ，C语言，接下来给大家带来的是数组和指针系列的文章，这篇主要讲的是一维数组的相关知识，是博主的所见所闻，细节上的知识后面会这里面没有提，会放在后期的文章中…

人工智能 2023年5月30日
00100
使用NWPU VHR-10数据集训练Faster R-CNN模型

一、所需文件下载链接二、基础环境配置三、训练及测试过程使用Faster R-CNN算法在NWPU VHR-10数据集上实现目标检测。使用Faster R-CNN算法在VOC2…

人工智能 2023年7月9日
0071
numpy降维方法

title: numpy降维方法 numpy中的降维方法 numpy中的降维方法：flat（）：返回一个iterator，然后去遍历flatten（）：将多维数组拉平，并拷贝一份r…

人工智能 2023年7月6日
0046
python 皮尔森相关系数（Pearson）

文章目录一、概述二、定义 * 2.1 总体样本定义 2.2 估算样本定义 2.3 两种计算方式 2.4 皮尔森距离三、python 实现 * 3.1 生成随机数据集 3.2 …

人工智能 2023年6月13日
00149

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

异常检测之基于聚类的局部异常因子检测算法（CBLOF）详细解释且配上代码运行实例

文章目录

大家都在看