数据分析-异常值与空值的处理

2023年7月8日上午11:12 • 人工智能 • 阅读 101

1.首先构造如下的数据

构造的数据框中有空值（None,字符类型；NaN,数据类型）和异常值的存在

2.空值检查

df=pd.DataFrame([['a0','b0',1,0.1,10,'f0'],['a1','b1',2,10.2,10,'f1'],
                 ['a1','b2',None,11.4,32,'g2'],['a2','b2',3,8.9,25,'f3']
                    ,['a3','b3',4,9.1,8,'f4'],['a4',None,5,12,None,'f5']],columns=['A','B','C','D','E','F'])
print(df.isnull())

标记为Ture代表该处存在空值。

3.去除空值行

df.dropna()

所有包含空值的行去掉。

如果只想对某一属性的空值进行删除，可以使用(df.dropna(subset=[‘要删除的属性’])。比如我们只想删除属性B为空值的行，(df.dropna(subset=[‘B’])，结果如下

4.重复值的识别

检查A属性是否有重复值，df.duplicated(['A'])

有重复的行会标记为True，显示第2行有重复值，符合实际情况。

5.去除重复值

df.drop_duplicates(['A'])，去除A属性重复的行。结果如下

def drop_duplicates(
    self,
    subset: Hashable | Sequence[Hashable] | None = None,
    keep: Literal["first"] | Literal["last"] | Literal[False] = "first",
    inplace: bool = False,
    ignore_index: bool = False,
) -> DataFrame | None:

以上为drop_duplicates的源码，keep表示你想保留第几个重复值，first表示保留第一个，last表示保留最后一个，false表示去除所有的重复值（不会留下任何一行重复的数据）。

6.缺失值的补充

df.fillna('all')，所有缺失的位置，用'all'来填充

fillna函数填充时，也可以使用数据的一些均值之类的。比如使用D属性的均值来填充，

df.fillna(df['D'].mean())

空值的处理也可以使用差值的方法，以 C属性为例，df[‘C’].interpolate()

6.检查某一属性是否符合某一规律

以F属性为例，大多数数据以f开头，需要去除非f开头的数据。

df[[True if i.startswith('f') else False for i in list(df['F'].values)]]

Original: https://blog.csdn.net/weixin_56676368/article/details/126339803
Author: 幻灭224
Title: 数据分析-异常值与空值的处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/678379/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

无人驾驶-控制-阿克曼模型

阿克曼模型推导一、序论 1.1 研究目的运动学是从几何学的角度研究物体的运动规律，包括物体在空间的位置、速度等随时间而产生的变化，因此，车辆运动学模型应该能反映车辆位置、速度、…

人工智能 2023年7月29日
0075
cadence SPB17.4 – allegro – Allegro2Altium.bat 初探

文章目录 * – cadence SPB17.4 – allegro – Allegro2Altium.bat 初探 – 概述 &#…

人工智能 2023年6月26日
0038
Modulus – 数字孪生仿真框架

从物理信息神经网络 (PINN) 到神经运算符，开发人员长期以来一直在寻求构建实时数字孪生的能力，这些孪生具有真实形式的渲染、强大的可视化以及通过流传输与现实世界中的物理系统同步实…

人工智能 2023年7月13日
0056
win10系统mmdetection训练部署fasterrcnn的全过程

环境搭建首先拷贝之前搭建好的fasterrcnn环境，具体见https://blog.csdn.net/yuanjiaqi_k/article/details/125599570…

人工智能 2023年7月9日
0072
如何成为一名数据分析师？

数据分析工作岗位：偏业务：数据分析师、商业分析、数据运营偏技术：数据分析工程师、数据开发工程师、数据挖掘、机器学习、数据科学不同行业数据指标含义短视频行业pv、uv等电商行业…

人工智能 2023年6月11日
0045
《数据处理与知识发现》作业复习用

作业复习 * – 第2章数据预处理作业 – 第3章数据仓库作业 – 第4章关联规则挖掘作业1新 – 第4章关联规则挖掘…

人工智能 2023年7月15日
0076
精选了20个Python实战项目(附源码)，拿走就用！

大家好，我是小F。 Python是目前最好的编程语言之一。由于其可读性和对初学者的友好性，已被广泛使用。那么要想学会并掌握Python，可以实战的练习项目是必不可少的。接下来，…

人工智能 2023年7月4日
0089
OpenCV-Python中cv2.fitEllipse的(a,b)和angle究竟表示什么？

一，a，b的理解二，angle的理解 2.1 angle思路一 2.2 angle思路二三，有趣的cv2.ellipse 四，结论五，代码首先来看一段代码 ellipse …

人工智能 2023年6月19日
0078
Learning Memory-guided Normality for Anomaly Detection 论文解析——模型介绍

Learning Memory-guided Normality for Anomaly Detection 论文模型介绍本文为对 _Learning Memory-guided…

人工智能 2023年7月10日
0079
北京超级云计算中心操作训练指南

北京超级云计算中心操作指南本人在实验室做深度学习图像领域相关研究，前期使用实验室的设备 2080Ti ，运行时间较慢；跑一轮需要6个小时以上；后来开始使用超算，运行速度比实验室快…

人工智能 2023年6月25日
0064
【ESP32-CAM】使用opencv获取ESP32-CAM视频流，并将图像保存至TF卡（一）

VSCode+python+opencv+ESP32-CAM 本项目仅作为学习记录，不定时更新。 Arduino 对于ESP32-CAM，我们使用Arduino来开发，首先需要准备…

人工智能 2023年6月19日
00107
Dataloader的使用

本文主要使用CIFAR10数据集来讲解Dataloader的使用方法，并写入tensorboard中，可以更好的去查看。在pytorch中如何读取数据主要有两个类，分别是Data…

人工智能 2023年7月21日
0083
【nlp学习】浅谈实体识别

文章目录前言一、实体识别简介 * 1.实体识别 2.复杂情况下的实体识别二、几种标注方法 * 1.指针标注 2.多头标注 3.片段排列+分类三、数据层面的问题前言参考资…

人工智能 2023年5月27日
0062
要被抖音笑死了，打开个网页就算黑客？

大家好，我是朱小五大家在刷抖音的时候都会看到类似的视频：营销号用txt记事本巴拉巴拉写几行代码，就可以伪装成黑客了。 ▲一顿操作猛如虎又比如下面这样，远看一顿操作猛如虎，近看代…

人工智能 2023年5月30日
00107
课程设计-在校整理-10 基于知识图谱的医疗智能问答小程序实现示例

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月1日
0065
语法转换_转换生成语法

点击蓝字关注我们免责声明：本文摘自网络，如有任何侵犯您利益的行为，请联系后台删除，本文仅供考研考生参考，绝不做与您兴趣相关的活动。 [En] Disclaimer: this a…

人工智能 2023年5月27日
0077

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

数据分析-异常值与空值的处理

大家都在看