如何处理AI算法中的异常值

2024年1月1日上午6:54 • 人工智能 • 阅读 38

如何处理AI算法中的异常值问题

在机器学习和数据分析中，异常值是指与大多数样本不符合的极端数值。当我们训练和使用AI算法时，存在异常值会对算法的性能和准确性产生负面影响。因此，处理异常值是一个重要的问题。

异常值可以从多种原因产生，例如测量误差、数据录入错误或者真实的异常情况。在处理异常值时，我们的目标是将其识别并将其从数据集中去除或修复。

以下是处理AI算法中的异常值问题的详细解决方案。

算法原理

处理异常值的常用方法之一是使用基于箱线图的统计方法。箱线图是一种可视化工具，用于显示数据中的异常值。

采用箱线图的统计方法有以下几步:
1. 计算数据集的上四分位数（Q1）和下四分位数（Q3）。
2. 计算内限范围（IQR, Interquartile Range），定义为Q3和Q1之间的差值。
3. 使用数据集的中值作为中心线，在箱线图中绘制一个箱子，上边缘为Q3，下边缘为Q1。
4. 确定内限上限和下限，定义为Q3 + 1.5 artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls IQR和Q1 – 1.5 artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls IQR。
5. 标识位于内限上限和下限之外的数据点为异常值。

此方法基于统计学原理，假设数据集是正态分布的。然而，在实际应用中，数据集可能不满足这个假设，因此我们需要针对具体情况进行调整。

公式推导

上四分位数（Q1）：计算数据集中所有值的中位数，将中位数分为两部分，上部分的中位数即为 Q1。
$$Q1 = \text{median}(x)$$
下四分位数（Q3）：类似地，将中位数分为两部分，下部分的中位数即为 Q3。
$$Q3 = \text{median}(x)$$
内限范围（IQR）：计算 Q3 和 Q1 之间的差值。
$$IQR = Q3 – Q1$$
内限上限（Upper fence）：定义为数据集中小于 Q3 + 1.5 artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls IQR 的最大值。
$$Upper\ fence = Q3 + 1.5 artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls IQR$$
内限下限（Lower fence）：定义为数据集中大于 Q1 – 1.5 artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls IQR 的最小值。
$$Lower\ fence = Q1 – 1.5 artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls IQR$$

计算步骤

处理AI算法中的异常值的一般步骤如下：

导入所需的库，例如 numpy 和 matplotlib。
准备数据集，可以使用开源数据集或者虚拟数据集。
计算上四分位数 Q1 和下四分位数 Q3。
计算内限范围（IQR）。
计算内限上限（Upper fence）和内限下限（Lower fence）。
标识位于内限上限和下限之外的数据点为异常值。
可选：修复异常值，例如将其替换为均值或中值。
可选：可视化箱线图，以直观地展示异常值。

复杂Python代码示例

下面是一个使用Python处理AI算法中的异常值问题的例子：

import numpy as np
import matplotlib.pyplot as plt

# 准备数据集
data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 100])

# 计算四分位数
Q1 = np.percentile(data, 25)
Q3 = np.percentile(data, 75)

# 计算内限范围
IQR = Q3 - Q1

# 计算内限上限和下限
upper_fence = Q3 + 1.5 artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls IQR
lower_fence = Q1 - 1.5 artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls IQR

# 标识异常值
outliers = data[(data > upper_fence) | (data < lower_fence)]

# 可选：修复异常值，将其替换为均值或中值
# data_new = np.where((data > upper_fence) | (data < lower_fence), np.mean(data), data)

# 可选：绘制箱线图
plt.boxplot(data)
plt.show()

print("异常值：", outliers)

代码细节解释

首先，我们导入了 numpy 和 matplotlib 库，用于数据处理和可视化。
接下来，我们准备了一个包含异常值的数据集，用于演示目的。
我们使用 numpy 的 percentile 函数计算了数据集的四分位数 Q1 和 Q3。
根据四分位数，我们计算了数据集的内限范围 IQR。
然后，我们计算了内限上限和下限，将其定义为 Q3 + 1.5 artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls IQR 和 Q1 – 1.5 artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls IQR。
使用布尔索引的方式，我们筛选了位于内限上限和下限之外的数据点作为异常值。
在可选步骤中，我们可以选择修复异常值，例如将其替换为均值或中值。
最后，我们可以选择使用 matplotlib 绘制箱线图，以直观地展示异常值。

通过以上步骤，我们可以有效地处理AI算法中的异常值问题，并提高算法的准确性和性能。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/822440/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Blockchain is Watching You: Profiling and Deanonymizing Ethereum Users

今天给大家讲解的论文是关于构建区块链用户画像的，它的中文题目是《区块链正在注视着你：对以太坊用户进行分析和去匿名化》文章目录相关概念 * 准标识符 Quasi-identifi…

人工智能 2023年7月16日
0067
最优化-约束优化问题的最优性条件

目录：一般约束问题形式： $$\begin{cases}min\,\,f\left( x \right) ,\,\,x\in R^n\s.t.\,\,\begin{matrix…

人工智能 2023年6月3日
0093
python常用数据文件处理方法（格式转换，文件读写，聚类，矩阵运算）

虽说python运行速度慢，但其编程速度，第三方包的丰富度是真的高。涉及到文件批处理还是会选择python。在文件批处理中，文件名经常只有编号是不同的，可以通过给字符串传递不同的…

人工智能 2023年7月18日
0051
完美解决新旧R版本冲突ggplot包不能安装问题

最近重新安装了系统，导致需要重新安装R，家里的老电脑是win7是32位系统，安装不了最新版本的R，只能安装3.6版本的R。重新安装rms包的时候提示ggplot包不能安装，然后我就…

人工智能 2023年6月19日
00110
Qt-OpenCV学习笔记–基础知识和基本操作–总结

系统环境：操作系统：WIN10_64 Qt版本：5.12.10 OpenCV版本：4.5.4 基础知识和基本操作（初级）一、基本数据结构二、基本函数操作三、绘制图形四、文…

人工智能 2023年6月29日
0060
聚类数k的确定(间隔统计量,轮廓系数,Canopy算法)及Kmeans++聚类，高斯混合聚类，密度聚类，层次聚类的原理及python实现(文末附有相关代码)

聚类数k的确定及聚类方法的python实现[文末] 1.引入 2.聚类的数目c l u s t e r s = k clusters = k c l u s t e r s =k …

人工智能 2023年5月31日
0072
统计学箱线图、离差平方和、方差、标准差和变异系数

目录基本概念 python 计算分位数扩展与参考链接基本概念箱线图是描述数据分布情况一种图形，需要知道以下几个概念：首先将数据串从小到大排序；上界，上四分位数（Q3），…

人工智能 2023年7月16日
0079
RNN – LSTM－GRU

文章目录前言为什么引入ＲＮＮ？ RNN * 1.RNN网络结构２.RNN的两个主要应用３.RNN的两个主要应用对应的不同的Loss ４.针对Loss进行反向传播 LSTM …

人工智能 2023年5月28日
0064
【自动驾驶】超声波雷达障碍物检测

超声波（Ultrasound，又称超声波雷达）定位，即使用发射探头发出频率大于20KHz的声波和计算飞行时间来探测距离。常用的超声波频率有40KHz、48KHz和58KHz，其中最…

人工智能 2023年6月2日
0076
小程序跳转公众号

即用即走——这个是从微信小程序上线就开始打的概念。即用即走使得小程序可以代替许多APP，或是做APP的整体嫁接，或是作为阉割版功能的承载体。对用户使用上来说，确实方便，要用的时候…

人工智能 2023年5月30日
0077
拯救pandas计划（8）——当列聚合数与自身进行再次计算

最近发现周围的很多小伙伴们都不太乐意使用pandas，转而投向其他的数据操作库，身为一个数据工作者，基本上是张口pandas，闭口pandas了，故而写下此系列以让更多的小伙伴们爱…

人工智能 2023年7月8日
0084
tensorflow笔记(二十六）——tf.estimator模型文件保存和加载

Estimator可以保存 ckpt和 saved_model两种格式的模型。ckpt方式与session.run模型下保存模型格式一样（在sess.run模式下，通常使用save…

人工智能 2023年5月25日
0087
云-短语音识别

短语音识别的标准版相当常见，比如微信上的语音转文字。对方发送的语音可以直接转换成文字。一般来说，60秒内的语音被准确识别为文本，适用于手机语音输入、智能语音交互、语音指令、语音搜索…

人工智能 2023年5月25日
0074
Python库-pandas详解

Python库-pandas详解 1. pandas介绍 2. Series 3. DataFrame * 3.1 DataFrame结构 3.2 DataFrame属性与方法 3…

人工智能 2023年7月16日
0079
柯基数据企业知识图谱落地案例分享

从一开始的Google搜索，到现在的聊天机器人、大数据风控、智能医疗、自适应教育、推荐系统，无一不跟知识图谱相关。它在技术领域的热度也在逐年上升。本文通过分享企业知识图谱落地案例，…

人工智能 2023年6月4日
0074
【torch报错】RuntimeError: CUDA error: no kernel image is available for execution on torch解决方案

在机器上直接用pip安装pytorch-gpu版本，很有可能出现torch的cuda toolkit和设备不兼容的问题。即， torch.cuda.is_available()显示…

人工智能 2023年7月14日
0080

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30