python的数据清理_Python数据清理,清洗

一.数据清洗与准备

1.缺失值

NaN(np.nan): 对数值型数据,浮点值NaN(not a number)

NA(not available)

None 均为缺失值,通过data.isnull()检测,反方法:data.notnull()

过滤(删除缺失值)

newdata = data.dropna()

等价于 data[data.notnull()]

默认删除含有缺失值的整行

可选参数:

how=’all’:当一行全是缺失值才删除该行,否则不删除

axis=1:删除列

thresh=n:保留含有n个观测值的行

newdata = data.fillna(value)

:将缺失值替换为value

为不同列的NA设置不同的填充值:传入字典data.fillna({列名:value,…})

常用可选参数(详见文档字符串):

inplace=True:修改原对象而不返回新对象;

method=:插值方法,(比如’ffill’:用前面的值填补后面所有的缺失值),

与limit=n搭配,设置前向或后向填充时最大填充范围;

axis=1:需要填充的轴

可以用数据的平均值或中位数填充NA:data.fillna(data.mean())

2.数据转换

df.duplicated(): 是否有重复值

Original: https://blog.csdn.net/weixin_31940053/article/details/112963960
Author: 旧文字
Title: python的数据清理_Python数据清理,清洗

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/677301/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球