数据预处理之异常值处理

2023年6月19日上午8:58 • 人工智能 • 阅读 125

异常值

在一般的预测问题中，模型通常是对整体样本数据结构的一种表达方式，这种表达方式通常抓住的是整体样本一般性的性质，而那些在这些性质上表现完全与整体样本不一致的点，我们就称其为异常点，通常异常点在预测问题中是不受开发者欢迎的，因为预测问题通产关注的是整体样本的性质，而异常点的生成机制与整体样本完全不一致，如果算法对异常点敏感，那么生成的模型并不能对整体样本有一个较好的表达，从而预测也会不准确。
从另一方面来说，异常点在某些场景下反而令分析者感到极大兴趣，如疾病预测，通常健康人的身体指标在某些维度上是相似，如果一个人的身体指标出现了异常，那么他的身体情况在某些方面肯定发生了改变，当然这种改变并不一定是由疾病引起（通常被称为噪音点），但异常的发生和检测是疾病预测一个重要起始点。相似的场景也可以应用到信用欺诈，网络攻击等等。

常见的异常值检测方法

简单统计
3σ原则
箱线图法

常见的异常值处理方法

删除
视为缺失值——用缺失值处理方法处理（填充，插值等）异常值

3σ原则

这个原则有个条件：数据需要 服从正态分布。在3σ原则下，异常值如超过3倍标准差，那么可以将其视为异常值。正负3σ的概率是99.7%，那么距离平均值3σ之外的值出现的概率为P(|x-u| > 3σ)

首先检验数据是否正态分布


from scipy import stats
mean = df['age'].mean()
std = df['age'].std()
print(stats.kstest(df['age'],'norm',(mean,std)))

异常值处理


data = data[np.abs(df['age']- mean)  3*std]

如果数据不符合正态分布，也可以用远离平均值的多少倍标准差来筛选异常值。具体倍数看数据情况和业务需求


a = mean + std*4
b = mean - std*4
data = data[(data['Age']  a) & (data['Age'] >= b)]

箱线图

这种方法是利用箱型图的四分位距（IQR）对异常值进行检测，也叫Tukey’s test。
四分位距(IQR)就是上四分位与下四分位的差值。而我们通过IQR的1.5倍为标准，规定： 超过上四分位+1.5倍IQR距离，或者下四分位-1.5倍IQR距离的点为异常值。

画箱线图

data['Age'].plot(kind = 'box')

异常值处理


q1 = data["Age"].quantile(0.25)
q3 = data["Age"].quantile(0.75)
iqr = q3 - q1
bottom = q1 - 1.5*iqr
upper = q3 + 1.5*iqr

data[(data['Age'] >= bottom) & (data['Age']  upper)]

dataframe实现

def Drop_outliers(data):
    column = []
    for col in column:

        q1 = data[col].quantile(0.25)
        q3 = data[col].quantile(0.75)
        iqr = q3 - q1
        bottom = q1 - 1.5*iqr

        upper = q3 + 1.5*iqr

        data.loc[(data[col] < bottom) | (data[col] > upper), col] = np.nan

    return data

参考来源
【Python数据分析基础】: 异常值检测和处理
 python —— 异常值处理

Original: https://blog.csdn.net/weixin_46599926/article/details/123879548
Author: 羊羊猪
Title: 数据预处理之异常值处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/638405/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

YOLO 图文入门 04 v4 PAN，SAM（含代码+原文）

文章目录前言背景一、网络结构 * 1.1 Backbone（骨干） – Dense Block&DenseNet 1.2 Neck（颈） – …

人工智能 2023年7月9日
0076
【Java】反射, 枚举,Lambda表达式

✨系列专栏: 【Java SE】✨一句短话:难在坚持,贵在坚持,成在坚持! 文章目录一. 反射 * 1. 反射的概述 2. 反射的使用 – 2.1 反射常用的类 2….

人工智能 2023年7月29日
0061
【文献翻译】Concealed Object Detection（伪装目标检测）

文章目录 * – 本文仅是翻译，对该论文的解析请看这篇博文：[伪装物体检测-详解](https://blog.csdn.net/holly_Z_P_F/article/…

人工智能 2023年6月17日
00103
Task05:数据建模及模型评估

文章目录前言第三章模型搭建和评估 * 特征工程 – 任务一：缺失值填充任务二：编码分类变量模型搭建 – 任务一：切割训练集和测试集任务二：模型创…

人工智能 2023年6月11日
0068
项目管理之知识管理

本文章主要介绍一下知识管理注意的事项，以及重点的知识点。知识分为俩类：显性知识与隐性知识 1.显性知识凡是能用文字与数字来表达，而且以资料、科学法则、特定规格及手册等形式展现者…

人工智能 2023年6月26日
0082
Pytorch项目（1）|预测泰坦尼克号船上的生存乘客

前言为了使得自己的知识成为体系，首先明确一点，知识不需要去记忆，有个印象即可，不记得就去百度，重要的是锻炼思维以及编程能力（拿到问题如何解决问题的能力。）那么，从这个时间点开始…

人工智能 2023年7月24日
0050
Django用RSA实现Web登录加密传输，预防抓包泄漏密码，解决ModelForm无法实现传输加密问题

在使用Django学习制作网站时候，以为后端钩子处理使用了md5加密，数据库中也同样以md5的方式存储，这样就解决了密码泄漏问题，因为对前端没有足够的了解所以枉下次定论。在测试爬…

人工智能 2023年6月27日
00118
Ubuntu之cudnn安装

一、cudnn简介 NVIDIA cuDNN是用于深度神经网络的GPU加速库。它强调性能、易用性和低内存开销。NVIDIA cuDNN可以集成到更高级别的机器学习框架中，如谷歌的T…

人工智能 2023年6月17日
00105
【以例为引】gtsam简单入门（上）–理论和认识

如有错漏，请评论或者私信指出，感谢！！ GTSAM简介 GTSAM（Georgia Tech Smoothing and Mapping）是基于因子图的C++库，它由佐治亚理工学院…

人工智能 2023年7月28日
0064
（跨模态）AI作画——使用stable-diffusion生成图片

AI作画——使用stable-diffusion生成图片 0. 简介 1. 注册并登录huggingface 2. 下载模型 3. 生成简介自从DallE问世以来，AI绘画越来…

人工智能 2023年7月27日
0098
【PID优化】基于matlab粒子群算法优化BP神经网络PID控制【含Matlab源码 2022期】

⛄一、粒子群算法优化BP神经网络PID控制简介 BP神经网络PID控制算法传统PID控制器作为一种线性控制器，具备结构，容易实现的优点，其基本原理是将系统的实际输出值和期望输出值之…

人工智能 2023年7月12日
0058
解决Win10+VS2019编译OpenCV4.5.5+opencv_contrib缺少各种依赖包的问题

1. 源码下载众所周知，编译从GitHub上下载的OpenCV源码时由于墙的问题总是缺少各种依赖包。我们可以从下面的链接下载OpenCV，大部分默认依赖项都是从gitcode镜像…

人工智能 2023年7月20日
0073
【语音算法】wav2vec系列原理和使用

文章目录前言 1. wav2vec 2. vq-wav2vec 3. wav2vec2.0 * 3.1 encoder 3.2 context 3.3 wav2vec2.0的使用…

人工智能 2023年6月23日
0061
iNeuOS工业互联网操作系统下发命令给iNeuLink硬件网关，进一步修改设备参数和控制设备

目录应用场景… 1 DCS数据采集… 2 硬件网关的配置… 2 平台端配置… 3 应用场景 iNeuLink数据采集参见：iNe…

人工智能 2023年6月4日
0084
机器学习之支持向量机（SVM）对乳腺癌数据二分类python实现

文章目录 * – 1. 概述 – 2. 标题数学推导 – + * 2.1 函数间隔 * 2.2 几何间隔 * 2.3 支持向量机 –…

人工智能 2023年6月15日
00106
model.train()和model.eval()的用法及model.eval()可能导致测试准确率的下降

问题导入：一般我们在训练模型时会在前面加上：model.train()在测试模型时会在前面使用：model.eval()但是在某次使用网络测试模型时，训练准确率很高，但测试准确率…

人工智能 2023年7月20日
00114

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

数据预处理之异常值处理

大家都在看