基于聚类的离群点检测（sklearn实现）

2023年6月15日下午10:59 • 人工智能 • 阅读 110

前言
一、对Iris数据集应用kmeans聚类方法进行离群点检测，并分别采用tsne、MDS、Isomap和PCA降维将原数据降到2维并在新数据中标出离群点
*
1.1 数据准备
1.2 离群点检测
1.3 在降维后的数据上显示离群点
二、使用Kmeans聚类、DBCAN聚类和BIRCH聚类方法分别对去除离群点前后的数据集进行聚类，最后通过比较他们的NMI值确定聚类效果的好坏
*
2.1 设置Kmeans聚类、DBCAN聚类和BIRCH聚类的参数
2.2 对原始数据进行三种聚类并计算其NMI
2.3 得到去除离群点之后的新数据
2.4 对新数据进行三种聚类并计算其NMI值
2.5 统计不同聚类方法在去除离群点前后的NMI值
三、对Iris数据集先分别采用tsne、MDS、Isomap和PCA降维，然后对降维后的数据进行离群点的检测。
*
3.1 定义kmean检测离群点函数
3.2 对进行tsne、MDS、Isomap和PCA降维后的数据进行离群点检测
总结

前言

离群点的定义：离群点是一个数据对象，它显著不同于其他数据对象，好像它是被不同的机制产生一样。
生活中的数据往往会受到各种因素的影响而呈现异常的状态，为了对数据进行分析和处理，进行离群点检测便变得十分重要。
本文主要包括以下三个方面：

对Iris数据集应用kmeans聚类方法进行离群点检测，并分别采用tsne、MDS、Isomap和PCA降维将原数据降到2维并在新数据中标出离群点。
使用Kmeans聚类、DBCAN聚类和BIRCH聚类方法分别对去除离群点前后的数据集进行聚类，最后通过比较他们的NMI值确定聚类效果的好坏
对Iris数据集先分别采用sne、MDS、Isomap和PCA降维，然后对降维后的数据进行离群点的检测。

一、对Iris数据集应用kmeans聚类方法进行离群点检测，并分别采用tsne、MDS、Isomap和PCA降维将原数据降到2维并在新数据中标出离群点

1.1 数据准备

将Iris数据集转化为数据框，以便后续的处理。

import warnings
warnings.filterwarnings("ignore")
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn import datasets
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
threshold = 2

Iris_df = datasets.load_iris()
df = pd.DataFrame(Iris_df["data"],columns=Iris_df.feature_names)
df1 = pd.DataFrame(Iris_df["target"],columns = ["target"])

data = 1.0*(df - df.mean())/df.std()
data.head()

1.2 离群点检测

对原始的Iris数据集进行基于聚类的离群点检测，并标出离群点。

k = 3
iteration = 500

from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=3, n_jobs=4,max_iter=500, random_state=1314)
kmeans.fit(data)
y_pred0 = kmeans.predict(data)

r = pd.concat([data, pd.Series(kmeans.labels_, index = data.index)], axis = 1)
r.columns = list(data.columns) + ["聚类类别"]
y_pre1 = r['聚类类别']

norm = []
for i in range(k):
    norm_tmp = r[data.columns][r["聚类类别"]==i] - kmeans.cluster_centers_[i]
    norm_tmp = norm_tmp.apply(np.linalg.norm, axis = 1)
    norm.append(norm_tmp/norm_tmp.median())

norm = pd.concat(norm)
ax = plt.figure(figsize=(8,6),dpi=100)
norm[normthreshold].plot(style="go")
discreste_points = norm[norm > threshold]
discreste_points.plot(style="ro")

for i in range(len(discreste_points)):
    id = discreste_points.index[i]
    n = discreste_points.iloc[i]
    plt.annotate("(%s,%0.2f)"%(id,n),xy=(id,n),xytext=(id,n))

plt.xlabel("编号")
plt.ylabel("相对距离")

1.3 在降维后的数据上显示离群点

分别采用tsne、MDS、Isomap和PCA降维将原数据降到2维并在新数据中标出离群点

plt.figure(figsize=(12,10),dpi=100)
from sklearn.manifold import TSNE
tsne = TSNE(n_components=2, random_state=105)
tsne_result = tsne.fit_transform(data)
plt.subplot(2,2,1)
plt.scatter(tsne_result[:,0],tsne_result[:,1],c=r["聚类类别"])
plt.scatter(tsne_result[discreste_points.index.values,0],tsne_result[discreste_points.index.values,1],c="red")
plt.title("tsne降维")
plt.xlabel("x")
plt.ylabel("y")

from sklearn.manifold import MDS
mds = MDS(n_components=2)
mds_result = mds.fit_transform(data)
plt.subplot(2,2,2)
plt.scatter(mds_result[:,0],mds_result[:,1],c=r["聚类类别"])
plt.scatter(mds_result[discreste_points.index.values,0],mds_result[discreste_points.index.values,1],c="red")
plt.title("MDS降维")
plt.xlabel("x")
plt.ylabel("y")

from sklearn.manifold import Isomap
isomap = Isomap(n_components=2)
isomap_result = isomap.fit_transform(data)
plt.subplot(2,2,3)
plt.scatter(isomap_result[:,0],isomap_result[:,1],c=r["聚类类别"])
plt.scatter(isomap_result[discreste_points.index.values,0],isomap_result[discreste_points.index.values,1],c="red")
plt.title("isomap降维")
plt.xlabel("x")
plt.ylabel("y")

from sklearn.decomposition import PCA
pca = PCA(n_components=2)
pca_result = pca.fit_transform(data)
plt.subplot(2,2,4)
plt.scatter(pca_result[:,0],pca_result[:,1],c=r["聚类类别"])
plt.scatter(pca_result[discreste_points.index.values,0],pca_result[discreste_points.index.values,1],c="red")
plt.title("PCA降维")
plt.xlabel("x")
plt.ylabel("y")

二、使用Kmeans聚类、DBCAN聚类和BIRCH聚类方法分别对去除离群点前后的数据集进行聚类，最后通过比较他们的NMI值确定聚类效果的好坏

2.1 设置Kmeans聚类、DBCAN聚类和BIRCH聚类的参数

from sklearn import metrics
from sklearn.cluster import DBSCAN
from sklearn.cluster import KMeans
from sklearn.cluster import Birch
y_true = df1["target"]

kmeans = KMeans(n_clusters=3, n_jobs=4,max_iter=500, random_state=1314)
dbcan = DBSCAN(eps=0.6, min_samples=9)
birch = Birch(n_clusters=None)

2.2 对原始数据进行三种聚类并计算其NMI

y_pred11 = kmeans.fit_predict(data)
nmi11 = metrics.normalized_mutual_info_score(y_true, y_pred11)
y_pred12 = dbcan.fit_predict(data)
nmi12 = metrics.normalized_mutual_info_score(y_true, y_pred12)
y_pred13 = birch.fit_predict(data)
nmi13 = metrics.normalized_mutual_info_score(y_true, y_pred13)

2.3 得到去除离群点之后的新数据


data1 = data
data_new = data.drop(index=discreste_points.index.values)
df2 = df1
df2 = df2.drop(index=discreste_points.index.values)
y_true = df2["target"]

2.4 对新数据进行三种聚类并计算其NMI值

y_pred21 = kmeans.fit_predict(data_new)
nmi21 = metrics.normalized_mutual_info_score(y_true, y_pred21)

y_pred22 = dbcan.fit_predict(data_new)
nmi22 = metrics.normalized_mutual_info_score(y_true, y_pred22)

y_pred23 = birch.fit_predict(data_new)
nmi23 = metrics.normalized_mutual_info_score(y_true, y_pred23)

2.5 统计不同聚类方法在去除离群点前后的NMI值

dists = {
         "剔除离群点前的NMI":[nmi11,nmi12,nmi13],
         "剔除离群点后的NMI":[nmi21,nmi22,nmi23],
         }

result = pd.DataFrame(dists,index=["Kmeans聚类","DBSCAN聚类","BIRCH聚类"])
result

NMI值越大越好，从这里可以看出在剔除离群点前后Kmeans的聚类效果最好。
注意：这里的聚类效果好坏是相对的，我们还要综合其它的聚类指标来进行综合考量，而且对于不同模型设置的参数不同，最终得到的NMI值也不相同。

三、对Iris数据集先分别采用tsne、MDS、Isomap和PCA降维，然后对降维后的数据进行离群点的检测。

3.1 定义kmean检测离群点函数

def kmean_outlier_detection(data):

    k = 3
    iteration = 500
    from sklearn.cluster import KMeans
    kmeans = KMeans(n_clusters=3, n_jobs=4,max_iter=500, random_state=1)
    kmeans.fit(data)
    y_pred0 = kmeans.predict(data)
    r = pd.concat([data, pd.Series(kmeans.labels_, index = data.index)], axis = 1)
    r.columns = list(data.columns) + ["聚类类别"]
    y_pre1 = r['聚类类别']
    norm = []
    for i in range(k):
        norm_tmp = r[data.columns][r["聚类类别"]==i] - kmeans.cluster_centers_[i]
        norm_tmp = norm_tmp.apply(np.linalg.norm, axis = 1)
        norm.append(norm_tmp/norm_tmp.median())
    norm = pd.concat(norm)
    ax = plt.figure()
    norm[normthreshold].plot(style="go")
    discreste_points = norm[norm > threshold]
    discreste_points.plot(style="ro")
    for i in range(len(discreste_points)):
        id = discreste_points.index[i]
        n = discreste_points.iloc[i]
        plt.annotate("(%s,%0.2f)"%(id,n),xy=(id,n),xytext=(id,n))
    plt.xlabel("编号")
    plt.ylabel("相对距离")
    return plt

3.2 对进行tsne、MDS、Isomap和PCA降维后的数据进行离群点检测

对进行tsne、MDS、Isomap和PCA降维后的数据分别调用 kmean_outlier_detection进行离群点检测并绘制图形。

from sklearn.manifold import TSNE
tsne = TSNE(n_components=2, random_state=105)
tsne_result = tsne.fit_transform(data)
tsne_result = pd.DataFrame(tsne_result,columns=["特性一","特性二"])
kmean_outlier_detection(tsne_result)

from sklearn.manifold import MDS
mds = MDS(n_components=2)
mds_result = mds.fit_transform(data)
mds_result = pd.DataFrame(mds_result,columns=["特性一","特性二"])
kmean_outlier_detection(mds_result)

from sklearn.manifold import Isomap
isomap = Isomap(n_components=2)
isomap_result = isomap.fit_transform(data)
isomap_result = pd.DataFrame(isomap_result,columns=["特性一","特性二"])
kmean_outlier_detection(isomap_result)

from sklearn.decomposition import PCA
pca = PCA(n_components=2)
pca_result = pca.fit_transform(data)
pca_result = pd.DataFrame(pca_result,columns=["特性一","特性二"])
kmean_outlier_detection(pca_result)

总结

我们遇到的数据通常都会存在离群点，离群点的检测对我们后期的模型的训练有着重要的意义，在高质量的数据集上进行训练往往比在更多数量的低质量数据集上进行训练的效果更好。

Original: https://blog.csdn.net/qq_46378251/article/details/124339349
Author: 卡拉比丘流形
Title: 基于聚类的离群点检测（sklearn实现）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/618068/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python DataFrame常用描述性统计分析方法，熬夜整理华为最新Python笔试题

print(df) 关于DataFrame的append()方法 DataFrame增添一行可以使用append()方法。设置参数，ignore_index=True可以忽略掉索引…

人工智能 2023年7月7日
0099
小白入门脑电信号

是个脑电信号研究小白，今年3月下旬临时换了研究方向，到现在也看了不少论文，试过一些特征提取的代码还有分类的代码。现在也想总结一下这段时间所学的东西，算是做个中期回顾吧。 Ps:里面…

人工智能 2023年7月14日
00109
K210的20种物体分类识别

K210物体20种分类检测文章目录 K210物体20种分类检测前言一、找到模型原型以及固件 * 获得K210对应的机器码获得官方模型二、识别20种不同物体的模型 * 代码…

人工智能 2023年7月12日
00119
K-means聚类分析-机器学习

大量数据中具有”相似”特征的数据点或样本划分为一个类别。聚类分析提供了样本集在非监督模式下的类别划分。聚类的基本思想是”物以类聚、人以群分&#8…

人工智能 2023年5月31日
00128
医疗问答机器人项目部署

医疗问答机器人项目部署文章目录医疗问答机器人项目部署 1. 拉取TensorFlow镜像 2. 配置系统环境 * 2.1 更换软件源 2.2 下载vim 2.3 解决vim中文…

人工智能 2023年5月24日
0082
恒源云(GPUSHARE)_基于梯度的NLP对抗攻击方法

文章来源 | 恒源云社区（专注人工智能/深度学习云GPU服务器训练平台，官方体验网址：gpushare.com/ ）原文地址 | https://bbs.gpushare.com…

人工智能 2023年7月3日
0083
C++ Reference: Standard C++ Library reference: Containers: array: array: cbegin

C++官网参考链接：https://cplusplus.com/reference/array/array/cbegin/ 公有成员函数形参没有形参。返回值指向序列开始的con…

人工智能 2023年6月30日
00115
GCN、GAT实现Cora数据集节点分类（pytorch-geometric框架）

Cora数据集介绍下载地址：https://linqs-data.soe.ucsc.edu/public/lbc/cora.tgz Cora数据集由深度学习论文组成，论文表示为…

人工智能 2023年7月2日
00148
气象统计实习报告三

实习三一元线性回归分析资料介绍现有全球海平面气压场资料，文件名NCEP_slp_30y_Wt.dat，时段：冬季1978~2007年共30年。水平分辨率：7.57.5（具体参…

人工智能 2023年6月18日
0098
【Spring boot 文件上传】

Spring boot 文件上传文件上传主要分以下几个步骤：（1）新建 maven java project；（2）在 pom.xml 加入相应依赖；（3）新建一个表单页面…

人工智能 2023年6月27日
0073
深度学习模型加密（pytorch，onnx，darknet）

文章目录 * – 更新时间 – 环境 – 流程介绍 – 代码（onnx，darknet） – 代码（pytorch） &…

人工智能 2023年7月22日
0080
数字图像处理——RGB与HSV图像互相转换原理

01 RGB与HSV介绍讲RGB图与HSV图的互相转换之前，我们先分别介绍一下这两种图像。 *首先是RGB图像 RGB图像是一种三通道图像，通常用于表示彩色图，它由相同行、列的红…

人工智能 2023年5月26日
0095
SpringBoot整合MongoDB

SpringBoot整合MongoDB 一、创建项目，选择依赖二、引入相关依赖三、如果是第一次使用MongoDB，首先先创建用户定义核心配置文件五、创建实体类创建dao层…

人工智能 2023年7月31日
0084
【超简单】利用Python去除图片水印，太神奇了叭，你还不会嘛？（附三种方法）

前言哈喽！我是栗子，今天忙里偷闲给大家更新一下文啦~ 所有文章完整的素材+源码都在👇文末自取哦! 大家是不是经常遇到一些电子版加了一些水印需要去掉才能用的或是需要加一些水印文字的…

人工智能 2023年7月19日
0075
虚假新闻检测概述

几个概念社交网络的新闻往往包括新闻内容，社交上下文内容，以及外部知识。其中新闻内容指的是文章中所包含的文本信息以及图片视频等多模态信息。社交上下文信息指的是新闻的发布者，新…

人工智能 2023年7月26日
00100
C语言经典算法实例4：判断回文数

C语言经典算法实例4：判断回文数一、问题描述二、算法实例编译环境三、算法实例实现过程 * 3.1、包含头文件 3.2、声明数组，并初始化 3.3、声明相关变量 3.4、声明函…

人工智能 2023年5月30日
00100

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31