python 数据清洗难度_Python数据清洗

2023年7月9日上午12:56 • 人工智能 • 阅读 48

检测与处理重复值

pandas提供了一个名为drop_duplicates的去重方法。该方法只对DataFrame或者Series类型有效。这种方法不会改变数据原始排列，并且兼具代码简洁和运行稳定的特点。该方法不仅支持单一特征的数据去重，还能够依据DataFrame的其中一个或者几个特征进行去重操作。

dataFrame(Series).drop_duplicates(self, subset=None, keep=’first’, inplace=False)

subset 接收string或sequence。表示进行去重的列。默认为None，表示全部列。 |

keep 接收特定string。表示重复时保留第几个数据。first：保留第一个。last：保留最后一个。false：只要有重复都不保留。默认为first。 |

inplace 接收boolean。表示是否在原表上进行操作。默认为False。

importpandas as pd

data=pd.DataFrame({‘A’:[1,1,2,2],’B’:[‘a’,’b’,’a’,’b’]})printdata

data.drop_duplicates(‘A’, ‘first’, inplace=True)printdata#A B#0 1 a#1 1 b#2 2 a#3 2 b#A B#0 1 a#2 2 a

检测与处理缺失值

数据中的某个或某些特征的值是不完整的，这些值称为缺失值。pandas提供了识别缺失值的方法isnull以及识别非缺失值的方法notnull，这两种方法在使用时返回的都是布尔值True和False。结合sum函数和isnull、notnull函数，可以检测数据中缺失值的分布以及数据中一共含有多少缺失值。isnull和notnull之间结果正好相反，因此使用其中任意一个都可以判断出数据中缺失值的位置。

1)删除法

删除法分为删除观测记录和删除特征两种，pandas中提供了简便的删除缺失值的方法dropna，该方法既可以删除观测记录，亦可以删除特征。

pandas.DataFrame.dropna(self, axis=0, how=’any’, thresh=None, subset=None, inplace=False)

axis 接收0或1。表示轴向，0为删除记录(行)，1为删除特征(列)。默认为0。

how 接收特定string。表示删除的形式。any表示只要有缺失值存在就执行删除操作。all表示当且仅当全部为缺失值时执行删除操作。默认为any。

subset 接收类array数据。表示进行去重的列∕行。默认为None，表示所有列/行。

inplace 接收boolean。表示是否在原表上进行操作。默认为False。

importpandas as pdimportnumpy as np

dates= pd.date_range(‘20130101’, periods=6)

df= pd.DataFrame(np.arange(24).reshape((6,4)),index=dates, columns=[‘A’,’B’,’C’,’D’])

df.iloc[0,1] =np.nan

df.iloc[1,2] =np.nan

df1=df.isnull()printdf1

df2=df.isnull().sum()printdf2printdf2.sum()

df3=df.dropna(axis=0,how=’any’)print df3

2)替换法

替换法是指用一个特定的值替换缺失值。特征可分为离散型和连续型，两者出现缺失值时的处理方法也是不同的。缺失值所在特征为连续型时，通常利用其均值、中位数和众数等描述其集中趋势的统计量来代替缺失值。缺失值所在特征为离散型时，则经常选择使用众数来替换缺失值。

均值/中位数/众数插补: 根据属性值的类型用该属性取值的平均数/中位数/众数进行插补

使用固定值: 将缺失的属性值用一个常量替换。

最近临插补: 在记录中找到与缺失样本最接近的样本的该属性值插补

回归方法: 对带有缺失值的变量,根据已有数据和与其有关的其他变量(因变量)的数据建立拟合模型来预测缺失的属性值

插值法: 插值法是利用已知点建立合适的插值函数f(x),未知值由对应点x求出的函数值f(x)近似代替

pandas库中提供了缺失值替换的方法名为fillna

pandas.DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None)

value 接收scalar，dict，Series或者DataFrame。表示用来替换缺失值的值。无默认。

method 接收特定string。backfill或bfill表示使用下一个非缺失值填补缺失值。pad或ffill表示使用上一个非缺失值填补缺失值。默认为None。

axis 接收0或1。表示轴向。默认为1。

inplace 接收boolean。表示是否在原表上进行操作。默认为False。

limit 接收int。表示填补缺失值个数上限，超过则不进行填补。默认为None。

dates = pd.date_range(‘20130101’, periods=6)

df= pd.DataFrame(np.arange(24).reshape((6,4)),index=dates, columns=[‘A’,’B’,’C’,’D’])

df.iloc[0,1] =np.nan

df.iloc[1,2] =np.nan#固定值填补

df2=df.fillna(value=0)printdf2#相似值填补

df3=df.fillna(method=’pad’, axis=1)print df3

3)插值法

删除法简单易行，但是会引起数据结构变动，样本减少；替换法使用难度较低，但是会影响数据的标准差，导致信息量变动。在面对数据缺失问题时，除了这两种方法之外，还有一种常用的方法—插值法。

scipy提供了插值算法可以通过一组散点得到一个符合一定规律插值器函数。这样当我们给插值器函数更多未知x，插值函数将会返回相应的y用于填补缺失值。

importscipy.interpolate as si

func=si.interp1d(

离散水平坐标,

离散垂直坐标,

kind=插值算法(缺省为线性插值)

importnumpy as npimportmatplotlib.pyplot as mpimportscipy.interpolate as si

x= [30, 40, 50, 60, 65]

y= [100, 120, 135, 155, 170]

mp.scatter(x, y)

xs= np.linspace(min(x), max(x), 200)#通过这些散点，构建一个线性插值函数

linear = si.interp1d(x, y, kind=’cubic’)print(linear(45))

ys=linear(xs)

mp.plot(xs, ys)

mp.show()

检测与处理异常值
简单统计量分

先对变量做一个描述性统计，找出哪些数据是不合理的，最常用的统计量是求最大值和最小值，判断变量是否在这个区间。

3σ原则

3σ原则又称为拉依达法则。该法则就是先假设一组检测数据只含有随机误差，对原始数据进行计算处理得到标准差，然后按一定的概率确定一个区间，认为误差超过这个区间的就属于异常值。

这种判别处理方法仅适用于对正态或近似正态分布的样本数据进行处理。如果不符合正态分布，可以用远离平均值的多少倍标准差来表示。

箱线图分析

箱线图提供了识别异常值的一个标准，即异常值通常被定义为小于QL-1.5IQR或大于QU+1.5IQR的值。

QL称为下四分位数，表示全部观察值中有四分之一的数据取值比它小。

QU称为上四分位数，表示全部观察值中有四分之一的数据取值比它大。

IQR称为四分位数间距，是上四分位数QU与下四分位数QL之差，其间包含了全部观察值的一半。

异常值的处理方法

删除含有异常值的记录:直接删除含有异常值的记录

视为缺失值:将异常值视为缺失值，按照缺失值方法处理。

平均值修正:用前后两个观测值的均值进行修正。

不处理:直接在含有异常值的数据集上进行数据建模。

Original: https://blog.csdn.net/weixin_42342010/article/details/114914170
Author: 浅野千奈美
Title: python 数据清洗难度_Python数据清洗

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/679656/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【WY】数据分析 — Bokeh交互图表阶段一：进阶语法十一 —— 工具栏：ToolBar

版权声明：本文为博主原创文章，未经博主允许不得转载。文章目录一、工具栏：ToolBar * 1.1 位置设置：toolbar – 1.1.1 例 1 1.1.2 例…

人工智能 2023年6月11日
0090
【中秋征文】使用Python创意中秋节画月饼《花好月圆》

大家好，我是猿童学🐵，又是一年中秋至——花好月圆夜，祝大家中秋节快乐！欢迎收看中秋创造第一期。今年是我在CSDN第一次过中秋节，特意为此去学习了用Python来画月饼，不仅可以学习…

人工智能 2023年7月5日
0094
什么是交叉验证

什么是交叉验证交叉验证是机器学习中一种常用的模型评估方法。它主要用于评估模型的稳定性和泛化能力。交叉验证通过将数据集分成训练集和测试集，反复使用数据集的不同部分训练和测试模型，以…

人工智能 2023年12月31日
0052
7月20日直播预告 – Neo4j 图数据平台为出海企业提升国际竞争力

随着国内市场的饱和，近几年众多企业纷纷加快海外市场扩张的步伐。越来越多的蓝海市场相继被国内企业挖掘。国内企业依靠丰富的产品开发运营经验、完善的工业制造能力在海外市场获取了巨大收益。…

人工智能 2023年6月1日
0077
什么是池化，它有哪些不同的类型

什么是池化？池化（Pooling）是深度学习中的一种常用操作，它的主要功能是减小卷积神经网络（CNN）中特征图的空间尺寸。池化层通常紧跟在卷积层之后，通过将特征图的空间维度降低，…

人工智能 2024年1月1日
0058
零基础实战迁移学习VGG16解决图像分类问题

文章目录 1 前言 2 Transfer Learning 3 How to transfer？ 4 代码实战：基于迁移学习对猫狗图片进行辨识 5 参考 ; 1 前言本文涉及到的…

人工智能 2023年7月1日
00100
ACL2021 知识图谱、推荐系统相关论文

作者 | Ccxs整理 | NewBeeNLP 知识图谱 Robust Knowledge Graph Completion with Stacked Convolutions a…

人工智能 2023年6月1日
0071
postman和Jmeter的区别

01、创建接口用例集 Postman 是 Collections，Jmeter 是线程组，没什么区别。 02、步骤的实现 Postman 和 jmeter 都是创建 http 请…

人工智能 2023年6月27日
0084
m4a录音文件损坏修复_教学工具 | 轻松编辑音频文件，这几款利器来帮你~

点击上方信息化教学创新订阅本刊在日常教学中，教师有时需要编辑一些教学音频文件，如剪音、音频加速、音频格式转换等。今天，小编介绍了几款音频处理软件和平台，方便音频编辑。 [En…

人工智能 2023年5月27日
0075
好心情：别在该躺平的时候动脑子，10种方法让大脑高效休息

什么也不干，为什么还会感觉疲惫不堪？那是因为我们只让身体休息，而没让大脑”休息到位”。脑科学研究表明，一天中大脑消耗的能量，高达身体消耗能量总和的20%…

人工智能 2023年6月28日
0097
CASIE: Extracting Cybersecurity Event Information from Text阅读总结

CASIE: Extracting Cybersecurity Event Information from Text阅读总结 Purpose Background Methods…

人工智能 2023年6月1日
0072
什么是目标检测？有哪些应用？终于有人讲明白了

导读：计算机视觉（Computer Vision，CV）是一门教计算机如何”看”世界的学科。计算机视觉包含多个分支，其中图像分类、目标检测、图像分割、目标跟…

人工智能 2023年7月27日
0072
是否可以同时调优多个超参数？如果可以，是否有推荐的顺序或策略

问题概述在机器学习任务中，模型的超参数的调优对于模型的性能至关重要。超参数是在模型训练之前设置的参数，不会通过训练过程自动学习得到。常见的超参数包括学习率、正则化系数、层数、宽度…

人工智能 2024年1月6日
0069
用栈实现进制转换（Python）

进制转换将十进制转换成其他进制进制转换原理：计算机基础进制转换（二进制、八进制、十进制、十六进制）算法原理：利用栈后进先出的特点，将每次的余数作为字符串放入栈中，除完后再依次…

人工智能 2023年6月29日
0070
均匀线列阵的波束图和波束时域输出图matlab仿真

1、基础知识：鱼雷自导的波束配置是通过波束形成器来实现的，希望在接近目标至中近程时，精确估计目标的方位，以利于精确引导和目标识别和反抗。常规的时域波束形成器的输出表示为：，原理…

人工智能 2023年6月22日
0066
backtrader量化回测，基础篇，附MACD交易回测代码

backtrader由德国工程师开发，拥有股票的回测，检测交易策略，支持期货实时交易，对于股票交易还在完善，我尝试了pylagotrade,vn.py，发现backtrader功能…

人工智能 2023年6月19日
00103

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python 数据清洗 难度_Python数据清洗

axis 接收0或1。表示轴向，0为删除记录(行)，1为删除特征(列)。默认为0。

how 接收特定string。表示删除的形式。any表示只要有缺失值存在就执行删除操作。all表示当且仅当全部为缺失值时执行删除操作。默认为any。

subset 接收类array数据。表示进行去重的列∕行。默认为None，表示所有列/行。

inplace 接收boolean。表示是否在原表上进行操作。默认为False。

大家都在看

python 数据清洗难度_Python数据清洗