使用3sigma原则去除数据表中的极端值

2023年8月23日下午11:37 • Python • 阅读 65

一、基本概念

在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴

3σ原则为：

数值分布在（μ-σ,μ+σ)中的概率为0.6826（1）

数值分布在（μ-2σ,μ+2σ)中的概率为0.9545（2）

数值分布在（μ-3σ,μ+3σ)中的概率为0.9973（3）

可以认为，Y 的取值几乎全部集中在（μ-3σ,μ+3σ)区间内，超出这个范围的可能性仅占不到0.3%

我们认为在（3）范围之外的数据可以看作极端值

二、适用条件

1、数据正态分布或近似正态分布的情况

2、测量次数充分大的情况

三、代码展示

import numpy as np
import pandas as pd
import matplotlib as mpl
from scipy import stats #导入K-S检验
import matplotlib.pyplot as plt
data=pd.read_csv(r'data_demo.csv')#读取数据
data.head(5)#输出前五行

测试数据的前五行展示如下：

data.describe().T

测试数据>30符合条件2

#检验正态性
for col in data.columns:
    u = data[col].mean()
    std = data[col].std()
    print(col,stats.kstest(data[col], 'norm', (u, std)))

使用KS检验依次检验各个变量的正态性
可以看出各个变量的P值均>0.05不能拒绝原假设，认为各个变量均服从正态分布

符合条件1

定义3sigma准则函数

#使用3sigma准则除去极端值
def three_sigma(df):#定义函数
    way = (df.mean() - 3 * df.std() < df) &(df.mean() + 3 * df.std() > df) #使用法则取得非极端值
    index = np.arange(df.shape[0])[way] #获取非极端值索引
    output= df.iloc[index] #获取位置
    return output#输出位置

for col in data.columns:
    data[col]=three_sigma(data[col])

使用3sigma原则删除数据表中各个变量所对应的极端值

去除极端值之后的情况

data.describe().T

Original: https://blog.csdn.net/qq_51397866/article/details/126211257
Author: qq_51397866
Title: 使用3sigma原则去除数据表中的极端值

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/758016/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pytest文档11-assert断言

前言断言是写自动化测试基本最重要的一步，一个用例没有断言，就失去了自动化测试的意义了。什么是断言呢？简单来讲就是实际结果和期望结果去对比，符合预期那就测试pass，不符合预期那就…

Python 2023年9月14日
0042
【云原生】k8s声明式资源管理

内容预知 1.资源配置清单的管理 1.1 查看资源配置清单 1.2 修改资源配置清单并应用离线修改在线修改 1.3 删除资源配置清单 2.自主编写资源清单 2.1 初步认识资源…

Python 2023年9月17日
0055
scrapy框架数据库存储遇到问题即反馈

1.mysql连接不上（1)最开始以为这是因为mysql服务未启动原因遭遇挫折，输入net start mysql命令后出现 MySQL 服务正在启动 . MySQL 服务无法…

Python 2023年10月3日
0068
实验与分析 —— numpy.vectorize

numpy.vectorize 函数可以实现任意函数的向量化，从而避免在python中使用循环，提高效率(还真不一定能提高效率…)。另外，用好函数的 signature…

Python 2023年8月29日
0064
世界杯—人生就是一届又一届世界杯

注意：下面有视频看到文章会有声音，如果打扰到您非常抱歉，视频在文章最下面，还望观众老爷们不要在意，蟹蟹理解~ 🚀write in front🚀📝个人主页：认真写博客的夏目浅石.🎁欢…

Python 2023年9月30日
0067
ModelBox开发体验：使用YOLOv3做口罩检测

摘要：本案例将在ModelBox中使用YOLO v3模型，实现一个简单的口罩检测应用本案例将使用YOLO v3模型，实现一个简单的口罩检测应用代码：https://github…

Python 2023年10月25日
0031
【画学numpy】Drawing and Studying Numpy

画学numpy 用画画的方式轻松入门numpy ⭐️github：drawing_and_studying_numpy包含了可以运行的notebook文件以及本文绘制的所有插图。也…

Python 2023年8月28日
0064
第2章 Numpy库

目录第二章 Numpy库 2.0 引子 2.0.1 list VS. ndarray 2.0.2 dtype AND shape 2.1 为什么要用Numpy 2.1.1 低效的…

Python 2023年8月25日
0080
读取excel所有sheet并求某一列均值

import pandas as pdwb = openpyxl.load_workbook(‘H:/F/CO2/ALT/ALT和GST/Yukon/site/site…

Python 2023年8月7日
0038
极简入门Docker-Compose部署以及项目编排实战｜CSDN创作打卡

### 回答1： Docker-compose_是一个用于定义和运行多个Docker容器的工具，可以用来 _部署_Java _项目。具体步骤如下： 1. 编写Dockerfile文…

Python 2023年8月13日
0046
FastDFS客户端与django自定义文件存储系统

1. FastDFS的Python客户端 python版本的FastDFS客户端使用说明参考https://github.com/jefforeilly/fdfs_client-p…

Python 2023年6月11日
0073
Python的简单代码：两天肝出画函数图像（散点图）的程序（不用matplotlib）（含白菜也能看懂的超超超详细讲解和源代码哦）

【原创作者：小康2021 】（12.08已更新）该程序（玩具）基本上支持任何普通函数和 math模块中的函数，具体操作说明见下面的效果图。博主能力有限（所以初学者百分之百也能…

Python 2023年9月2日
0068
Linux常用内核参数

参数描述net.core.rmem_default默认的TCP数据接收窗口大小（字节）。net.core.rmem_max最大的TCP数据接收窗口（字节）。net.core.wme…

Python 2023年8月9日
0041
numpy函数学习

numpy函数学习 numpy函数学习 numpy函数学习 * stack 广播 np.tile stack 叠，本质目的是合并多个数组并增维。new = np.stack([ar…

Python 2023年8月24日
0048
Pandas中数据类型的理解

[ Pandas_是一个强大的 _数据_处理和分析工具，可以帮助用户快速加载、处理和分析 _数据。在使用 Pandas_进行实战 _数据_下载时，可以按照以下步骤操作： 1. 导入…

Python 2023年8月19日
0039
pytest学习

1.安装pytest框架>pip install -U pytest 运行参数你们可能会有这样的疑问，现在大家都在用类似pycharm的IDE工具，为什么还要去学习命令行运行…

Python 2023年9月12日
0049

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

使用3sigma原则去除数据表中的极端值

一、基本概念

二、适用条件

三、代码展示

大家都在看