数据清洗：异常值识别和处理方法

2023年6月11日下午7:05 • 人工智能 • 阅读 128

异常数据识别

异常数据是数据分布的常态，处于特定分布区域之外的数据通常会被定义为异常或”噪音”。产生数据”噪音”的原因很多，例如业务运营操作、数据采集问题、数据同步问题等。对异常数据进行处理前，需要先辨别出哪些是真正的数据异常。

从数据异常的状态看分为两种：

一种是”伪异常”，这些异常是由于特定的运营动作产生，其实正常反映了业务状态。
一种是”真异常”，这些异常并不是由于特定的业务动作引起，而是客观反映了数据本身的分布异常。

如何判断异常值

对于有固定业务规则的可直接套用业务规则，而对于没有固定业务规则的，可以采用常见的数学模型进行判断。比如基于概率分布的模型（例如正态分布的标准差范围）、基于统计的方法（例如分位数法）、基于聚类的方法（例如KMeans）、基于分类的方法（例如KNN）、基于密度的方法（例如LOF）等。异常值的定义带有较强的主观判断色彩，具体需要根据实际情况选择。

示例如下：

导入pandas库
import pandas as pd

生成异常数据，120较为异常
df = pd.DataFrame({'col1': [1, 120, 3, 5, 2, 12, 13],
                   'col2': [12, 17, 31, 53, 22, 32, 43]})
print(df)

查看异常值：

通过Z-Score方法判断异常值，阙值设置为正负2，阙值的设置主要看业务需求或数学模型

复制一个用来存储Z-score得分的数据框,常用于原始对象和复制对象同时进行操作的场景
df_zscore = df.copy()
cols = df.columns
for col in cols:
    df_col = df[col]
    z_score = (df_col - df_col.mean()) / df_col.std()  # 计算每列的Z-score得分
    df_zscore[col] = z_score.abs() > 2  # 判断Z-score得分绝对值是否大于2，大于2即为异常值
print(df_zscore)

丢弃处理

大多数数据挖掘工作中，异常值都会在数据的预处理过程中被认为是噪音而剔除，以避免其对总体数据的影响。

剔除异常值所在的行
print(df[df_zscore['col1'] == False])

以下任意一种场景，我们无需丢弃异常值：

异常是由于业务特定运营动作产生。该异常是由业务部门的特定动作导致的，如果抛弃异常值将导致无法正确反映业务结果。
异常检测模型的应用。异常检测模型是针对整体样本中的异常数据进行分析和挖掘，以便找到其中的规律，这种数据应用围绕异常值展开，异常数据本身是目标数据，因此不能直接丢弃。异常检测模型常用于客户异常识别、信用卡欺诈、贷款审批识别、药物变异识别、恶劣气象预测、网络入侵检测、流量作弊检测等。
包容异常值的数据建模。如果数据算法和模型对异常值不敏感，那么即使不处理异常值也不会对模型本身造成负面影响。例如在决策树中，异常值本身就可以作为一种分裂节点。

参考资料：《Python数据分析与数据化运营》宋天龙

Original: https://blog.csdn.net/sinat_41928169/article/details/124422587
Author: 大哇唧
Title: 数据清洗：异常值识别和处理方法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/601129/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

「高效程序员的修炼」快速上手Shell编程、执行与定时任务

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月26日
0077
NLP会议期刊

对于NLPer而言，了解科研动态最好的方法就是关注顶会论文，与NLP相关的比较有影响力的顶会主要有ACL、EMNLP、NAACL、COLING、ICLR、AAAI、CoNLL、NL…

人工智能 2023年5月28日
0085
目标检测中的几种交并比（ IoU ）计算方式

目录 1、原始 IOU 的计算方式 2、GIOU（Generalized IOU） 2、DIoU（Distance-IoU） 3、CIOU（Complete-IoU） IoU即 I…

人工智能 2023年7月9日
0078
YOLOv5基础知识点——目标检测基本思想

You Only Look Once YOLO 将特征图划分为S×S的格子（grid cells），每个格子负责对落入其中的目标进行检测，一次性预测所有各自所含目标的边界框、定位置…

人工智能 2023年7月11日
0050
oracle 的servicename和sid配置url有区别

项目启动执行报错：java.sql.SQLException: Listener refused the connection with the following error:O…

人工智能 2023年6月29日
0095
macOS：实现声音内录不用其它App

macOS：实现声音内录不用其它App 目前市场上有一些实现此类功能的 app，比如：Github 上的blackhole，以及 loopback，audio hijack，和…

人工智能 2023年5月27日
0098
如何在Vscode连接远程服务器时做可视化——Vscode插件Python Image Preview介绍

Intro 最近用vscode连接远程服务器在做attention可视化时遇到了一些困难，但偶然发现一个好用的插件可以在调试中显示实验中需要观察的图像。这个插件支持numpy pi…

人工智能 2023年6月4日
00129
【OpenCV 例程200篇】96. 谐波平均滤波器

【OpenCV 例程200篇】96. 谐波平均滤波器欢迎关注『OpenCV 例程200篇』系列，持续更新中欢迎关注『Python小白的OpenCV学习课』系列，持续更新中 3…

人工智能 2023年6月20日
00240
APP攻防之博弈历程

1、APK结构分析我们用 file 命令 aaa.apk 的包就会发现，其就是一个zip的文件格式，unzip解压后你会发现两者的文件结构基本相似都存在androidmanife…

人工智能 2023年6月27日
0088
【Python】OpenCV读取视频帧并保存为图片

cv2.VideoCapture()读取视频帧 import cv2 VIDEO_PATH = ‘video.mp4’ video = cv2.VideoCapture(video…

人工智能 2023年7月6日
0061
单人的姿态检测|tensorflow singlepose

单人姿态检测-图片特此声明，这张照片不是我自己的。如果有任何侵权行为，请联系我，我会删除它。 [En] It is hereby declared that the pictur…

人工智能 2023年5月23日
0084
Xception实现动物识别（TensorFlow）

目录 1.项目数据及源码 2.任务介绍 3.数据处理 * 3.1.数据预处理 3.2.可视化数据 3.3.配置数据集 4.网络设计 * 4.1.Xception简单介绍 4.2.设…

人工智能 2023年5月23日
0096
【Python+OpenCV 人脸检测—CascadeClassifier 级联分类器实现】

Python+OpenCV 人脸检测—CascadeClassifier 级联分类器实现一、CascadeClassifier—级联分类器 * 1、导入分类器文件 2、读入图片 …

人工智能 2023年7月19日
0073
因果推断与反事实预测——利用DML进行价格弹性计算（二十四）

文章目录 1 导言 * 1.1 价格需求弹性介绍 1.2 由盒马反事实预测论文开始 1.3 DML – 价格弹性预测推理步骤 2 案例详解 * 2.1 数据清理 2.2…

人工智能 2023年7月17日
0090
【目标检测】YOLOv5遇上知识蒸馏

前言模型压缩方法主要4种：网络剪枝(Network pruning) 稀疏表示(Sparse representation) 模型量化(Model quantification…

人工智能 2023年7月25日
0059
【OpenCv】图像分割——分水岭算法

文章目录 1 原理 2 算法改进 3 API 4 实例 1 原理分水岭分割方法，是一种基于拓扑理论的数学形态学的分割方法，其基本思想是把图像看作是测地学上的拓扑地貌，图像中每一点…

人工智能 2023年5月28日
00113

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

数据清洗：异常值识别和处理方法

异常数据识别

丢弃处理

大家都在看