异常值识别与处理方法

2023年6月19日上午10:45 • 人工智能 • 阅读 58

异常值，指的是样本中的一些数值明显偏离其余数值的样本点，所以也称为离群点。

在不同的数据中，鉴别异常值有不同的标准，常规有以下几种：

1、数字超过某个标准值

这是最常用的异常值判断方法之一。主要是看数据中的最大值或最小值，依据专业知识或个人经验，判断是否超过了理论范围值，数据中有没有明显不符合实际情况的错误。

比如，测量成年男性身高（M），出现17.8m这样的数据，显然不符合实际情况。

又或者，如问卷数据使用1-5级量表进行研究，出现-2，-3这类数据，则可能提示为跳转题、空选等。

2、数据大于±3标准差

3σ 原则是在数据服从正态分布的时候用的比较多，在这种情况下，异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值。

在数据处理的时候，按照正态分布的性质，三个标准差以外的数据都可以被看作是错误的数据从而排除掉。

3、格拉布斯(Grubbs)检验法

(1)计算统计量

μ=(X1+X2+…+Xn)/n

s=(∑(Xi-μ)/(n-1))½(i=1,2…n)

Gn=(X(n)-μ)/s

式中μ——样本平均值；

s——样本标准差；

Gn——格拉布斯检验统计量。

(2)确定检出水平α，查表（见GB4883）得出对应n，α的格拉布斯检验临界值G1-α(n)。

(3)当Gn>G1-α(n),则判断Xn为异常值，否则无异常值。

(4)给出剔除水平α’的G1-α'(n),当当Gn>G1-α'(n)时,Xn为高度异常值，应剔除。

异常值的处理分为三种：设为缺失值、填补、不处理。

（1）缺失

设置为Null值；此类处理最简单，而且绝大多数情况下均使用此类处理；直接将异常值删除，相当于没有该异常值。如果异常值不多时建议使用此类方法。

（2）填补

如果异常值非常多时，则可能需要进行填补设置，SPSSAU共提供平均值，中位数，众数和随机数、填补数字0共五种填补方式。

（3）不处理

一些异常值也可能同时包含有用的信息，是否需要剔除，应由分析人员自行判断。

以下场景，无需丢弃异常值：

1：异常是由于业务特定运营动作产生。该异常是由业务部门的特定动作导致的，如果抛弃异常值将导致无法正确反映业务结果。
2：异常检测模型的应用。异常检测模型是针对整体样本中的异常数据进行分析和挖掘，以便找到其中的规律，这种数据应用围绕异常值展开，异常数据本身是目标数据，因此不能直接丢弃。异常检测模型常用于客户异常识别、信用卡欺诈、贷款审批识别、药物变异识别、恶劣气象预测、网络入侵检测、流量作弊检测等。
3：包容异常值的数据建模。如果数据算法和模型对异常值不敏感，那么即使不处理异常值也不会对模型本身造成负面影响。例如在决策树中，异常值本身就可以作为一种分裂节点。

1、异常值带微弱主观性，判定没有固定标准，一些异常值也可能同时包含有用的信息，是否需要剔除，应由分析人员自行判断。

2、异常值一旦处理则无法恢复，建议先备份数据再操作。

Original: https://blog.csdn.net/qq_38147044/article/details/126146136
Author: 一枚小可爱c
Title: 异常值识别与处理方法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/638855/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Backtrader(六) – 关于datafeed

PandasData 将pandas的dataframe，对象加载到 bt.feeds.PandasData。生成回测的行情数据对象。范例：数据来源 akshare import …

人工智能 2023年7月7日
0046
机器学习— 交叉熵损失(CrossEntropy Loss)–(附代码)

1.1 Softmax 的形式若 x = [ x 1 ⋯ x i ⋯ x n ] x = \left[ \begin{matrix} x_1 \ \cdots \ x_i \ \…

人工智能 2023年6月16日
0066
CDA LEVELⅠ2021最新模拟题一（全网最详细有答案）

1.卡方检验是用途非常广的一种假设检验方法，卡方检验中，将任意两行互换，卡方值（） A.变大 B.变小 C.不变 D.不确定解析：卡方检验的结果与分类变量的顺序无关，将任意两行…

人工智能 2023年6月19日
00104
Go开发环境搭建

设置环境变量（可选项）设置GOPATH路径（GOPATH路径是我们的工作区） GOPATH：代表 Go 语言项目的工作目录，在 Go Module 模式之前非常重要，现在基本上…

人工智能 2023年7月29日
0062
解决Pytorch中Cuda无法GPU加速问题

解决Pytorch中Cuda无法GPU加速问题文章目录解决Pytorch中Cuda无法GPU加速问题前言一、检测电脑CUDA版本二、检测显卡cudnn版本三、安装下载P…

人工智能 2023年7月22日
0070
TPH-YOLOv5 | 基于Transformer的YOLOv5小目标检测器 | 四头加注意力

论文地址：https://arxiv.org/pdf/2108.11539.pdf项目地址：https://github.com/cv516Buaa/tph-yolov5 在无人机…

人工智能 2023年6月17日
0086
怎么成为稚晖君？

如何成为IT大佬稚晖君——电子系统设计应具备的基本技能和方法论快速提高电子技术的必经之路_一些老生常谈的道理嵌入式AI入坑经历稚晖君软件硬件开发环境总结首先，机器学习深度…

人工智能 2023年7月27日
0050
kNN算法实现手写数字识别（机器学习）

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、实验步骤二、实验过程 1.收集数据：提供文本文件 2.准备数据：将图像转换为测试向量 &#8…

人工智能 2023年7月29日
0054
ZYNQ图像处理(1)——vdma_hdmi显示环境搭建

1、引言 FPGA是一种现场可编程逻辑门阵列，其并行的特点让其在图像处理、数字通信等领域有广泛的应用。FPGA缺点是不擅长流程控制，对于IIC、SPI等通信方式，往往需要用到状态机…

人工智能 2023年6月18日
0091
C语言习题练习4–函数递归

1.接受一个整型值（无符号），按照顺序打印它的每一位。 #include void print(int n) { if (n > 9) { print(n/10); } pr…

人工智能 2023年6月29日
0081
CUDA、cuDNN、Pytorch、TensorFlow、Keras以及Python的对应版本总结

文章目录 * – 一、CUDA和cuDNN对应版本 – + 1.1 CUDA驱动和CUDAToolkit对应版本 + 1.2 CUDA和cuDNN对应版本 …

人工智能 2023年5月25日
00189
也说说ADC以及ADC的主要技术参数及分类介绍

我们经常在芯片选型时，提到MCU是否内嵌ADC，是几位ADC等名词。这个ADC是什么呢？它代表什么意思？这里我们就带大家一起来了解一下，ADC的概念以及如何选择ADC芯片。所谓的…

人工智能 2023年6月24日
0074
AI 杀疯了，NovelAI开源教程

大家好，我是 Jack。如果说 2021 年是”元宇宙”的元年，那么 2022 年或许就是”AI作画”的元年。最近，&#8221…

人工智能 2023年7月29日
0068
数据分析工具pandas

一、pandas的数据结构分析 Pandas 中有两个主要的数据结构：Series 和DataFrame 。 Series 是一维的数据结构，DataFrame是二维的、表格型的数…

人工智能 2023年6月11日
00116
Bert系列解读及改进

1. Bert Bert是预训练的语言表征模型，其有巨大参数量要求海量监督数据进行训练，这需要大量的人力。因此，Google采用无监督的方式进行训练，具体任务是：MLM（Maske…

人工智能 2023年5月27日
00133
基于MATLAB的疲劳检测

在疲劳检测算法中，个人感觉最好的算法是 Dlib 这个库可以实现人脸的关键点的检测，有了人眼睛的点位，便可以检测眨眼之类的频率来进行人眼识别；但是在matlab中调用dlip需要…

人工智能 2023年6月22日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

异常值 识别与处理方法

1、数字超过某个标准值

2、数据大于±3标准差

3、格拉布斯(Grubbs)检验法

大家都在看

异常值识别与处理方法