无监督学习算法中的异常检测是如何实现的

2024年1月5日下午1:31 • 人工智能 • 阅读 41

1. 问题介绍

本问题涉及无监督学习算法中的异常检测。异常检测在许多领域中都有广泛的应用，如金融欺诈检测、网络入侵检测等。其主要目标是识别与大多数样本不一致的罕见或异常样本。本文将详细介绍异常检测的实现方法，并给出基于无监督学习算法的解决方案。

2. 算法原理

2.1 什么是异常检测？
异常检测是指从数据集中识别出那些在统计上与大多数观察结果明显不同的样本。异常值可以是由错误、腐败、异常活动或其他未知干扰引起的。异常检测的目标是通过将数据与正常模式进行比较，从而识别出与正常模式显著不同的样本。

2.2 常用的异常检测算法
– 离群值得分 (Outlier Score) 算法
– 高斯混合模型 (Gaussian Mixture Model, GMM) 算法
– 单类支持向量机 (One-class Support Vector Machine, SVM) 算法
– 孤立森林 (Isolation Forest) 算法

本文将重点介绍孤立森林算法作为异常检测的示例算法。

3. 孤立森林算法原理

孤立森林是一种用来检测异常的高效算法，它通过构建随机的树来划分数据集，根据样本在树中的高度即可判断样本是否为异常。其主要思想是正常样本在随机分区时更容易被划分开，而异常样本则更容易集中在树的较低高度。

4. 算法公式推导

4.1 孤立森林算法的公式表示如下：
$$
h(x, X) = \begin{cases}
\exp(-\frac{c(n)}{n}) & \text{if } x \in X \
0 & \text{if } x \notin X
\end{cases}
$$

其中，$h(x, X)$是样本$x$的异常评分，$X$是训练集，$n$是训练集的样本数，$c(n)$是一个根据$n$计算的常量。

4.2 异常评分的计算公式如下：
$$
Score(x) = 2^{-\frac{E(h(x))}{c(n)}}
$$

其中，$E(h(x))$是通过随机森林计算得到的样本$x$的平均异常值，$c(n)$是一个根据$n$计算的常量。

5. 算法实现步骤

以下是基于孤立森林算法的异常检测实现步骤：
1. 构建多个随机森林，每棵树都是通过随机选择特征和随机切分数据集来构建的。
2. 对每个样本计算其在每棵树中的路径长度，即从树的根节点到样本所在叶节点的深度。
3. 计算每个样本在所有树上的平均路径长度。
4. 根据样本的平均路径长度计算其异常评分。

6. Python代码示例

以下是基于scikit-learn库实现的孤立森林算法的异常检测Python代码示例：

import numpy as np
from sklearn.ensemble import IsolationForest

# 创建虚拟数据集
X = np.random.randn(1000, 2) # 1000个样本，2个特征

# 构建孤立森林模型
clf = IsolationForest(contamination=0.01) # 设置异常样本比例为1%

# 拟合模型
clf.fit(X)

# 预测样本的异常结果
y_pred = clf.predict(X)

# 输出异常样本的索引
outliers = np.where(y_pred == -1)[0]
print("异常样本的索引：", outliers)

7. 代码细节解释

使用numpy库生成一个包含1000个样本和2个特征的虚拟数据集。
导入IsolationForest孤立森林模型。
初始化一个IsolationForest对象，设置异常样本比例为1%。
使用生成的数据集拟合孤立森林模型。
使用拟合好的模型对数据集进行预测，得到每个样本的异常结果。
使用np.where函数找出异常样本的索引。
输出异常样本的索引。

以上就是关于无监督学习算法中异常检测实现的详细介绍，包括算法原理、公式推导、计算步骤和Python代码示例。通过使用孤立森林算法，可以较为高效地检测出异常样本。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/824037/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

一、KNN算法

一、 KNN 算法 1.1 概述 KNN(全称K Nearest Neighbors)可以说是最简单的分类算法之一，同时，它也是最常用的分类算法之一。绿色的点就是我们要预测的那个…

人工智能 2023年7月1日
00104
阿里云天池大赛赛题（机器学习）——工业蒸汽量预测（完整代码）

目录赛题背景全代码 * 导入包导入数据合并数据删除相关特征数据最大最小归一化画图：探查特征和标签相关信息对特征进行Box-Cox变换，使其满足正态性 –…

人工智能 2023年7月5日
00144
机器学习——LDA（线性判别分析）与人脸识别

忆如完整项目/代码详见github： https://github.com/yiru1225（转载标明出处勿白嫖 star for projects thanks）目录系列文…

人工智能 2023年7月27日
0059
【图像配准】基于Harris+SIFT图像配准附matlab代码

1 简介 SIFT( 尺度不变特征变换) 算法与 Harris 角点检测算法作为两种经典的图像特征点提取算法，在不同的图像处理中，两者体现出的图像特征点提取性能也不同。因此，如何选…

人工智能 2023年6月22日
0071
机器学习笔记10 — 回归与聚类算法

回归和聚类线性回归：欠拟合与过拟合 -> 岭回归分类算法：逻辑回归模型保存与加载无监督学习：K – means 线性回归原理：回归问题：目标值为连续型的数据应用场…

人工智能 2023年6月18日
0094
GAN(生成对抗网络)Matlab代码详解

这篇博客主要是对GAN网络的代码进行一个详细的讲解：首先是预定义： clear; clc; %%%clc是清除当前command区域的命令,表示清空,看着舒服些。而clear用…

人工智能 2023年7月26日
00131
python 时间处理datetime

python datetime 时间处理数据分析过程中经常会处理一些时间序列，需要进行一些时间格式的转换，或者提取一些时间信息 pandas 处理 datetime csv数据中…

人工智能 2023年7月7日
0077
R数据分析：用R建立预测模型

预测模型在各个领域都越来越火，今天的分享和之前的临床预测模型背景上有些不同，但方法思路上都是一样的，多了解各个领域的方法应用，视野才不会被局限。今天试图再用一个实例给到大家一个统…

人工智能 2023年6月16日
0078
可解释机器学习- LIME模型讲解｜interpretable machine learning-LIME

Contents 原理计算流程优势劣势 Reference 原理 LIME生成了一个新的数据集，数据集由扰动的样本（permuted samples）和黑箱模型对应的预…

人工智能 2023年7月28日
0059
YOLOv5目标检测（数据集的训练及预测）

一、模型训练 1.配置环境 2.YOLOv5项目克隆（Github官网） 3.项目依赖的安装 pip install -r requirements.txt pip install…

人工智能 2023年7月9日
00109
ESP32-CAM AI THINKER 引脚排列：GPIO 用法说明

ESP32-CAM 是一款开发板，带有一个 ESP32-S 芯片、一个 OV2640 摄像头、microSD 卡插槽和几个用于连接外设的 GPIO。在本指南中，我们将介绍 ESP3…

人工智能 2023年7月28日
0058
应用谱减法进行语音去噪的算法研究

众所周知，语言是人类传播信息和表达感情的重要媒介，在人类的交流中起着极其重要的作用。二十一世纪是信息科学的世纪，移动电话、数字助听器、车载导航系统等各种各样的人机交互语音处理系统在…

人工智能 2023年5月25日
0079
数据预处理：缺失值处理

数据缺失是指在数据采集、传输和处理的过程中，由于某些原因导致数据不完整的情况。缺失值的存在会给数据的统计带来问题，某些数据分析模型也不能直接处理存在缺失值的数据集，因此，如果要对…

人工智能 2023年6月20日
0097
python-opencv第四期：threshold函数详解

概要：众嗦粥汁所周知，在如今计算机视觉（ Computer Version short for CV）是人工智能与机器人技术发展的一个重大研究方向，而 opencv作为一个专门为…

人工智能 2023年7月27日
0074
《Matlab实用案例》系列Matlab从入门到精通实用100例案例教程目录（持续更新）

### 回答1： Matlab_2022-FPGA生成代码是一种有效的开发工具，能够将 _Matlab_程序转化为FPGA芯片可执行的硬件描述语言HDL代码。本 _教程_将重点介绍…

人工智能 2023年6月18日
0078
YOLOV7训练自己的数据集，我先来试试火（VisDrone数据集）

源码：https://github.com/WongKinYiu/yolov7论文：https://arxiv.org/abs/2207.02696 这个yolov7是yolov4…

人工智能 2023年6月24日
00127

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31