使用pandas清洗数据

2023年8月17日上午11:21 • Python • 阅读 46

Preview

导入pandas/numpy库之后，

先设定data(此例中data为titanic)

titanic=pd.read_csv('train.csv')

1.缺失值观察

1.1是否有缺失值 #结果为TRUE代表有缺失值

data.isnull().any()

print(data.isnull().any())

titanic.isnull().any()

1.2统计列缺失值个数

Data.isnull().sum()

Print(Data.isnull().sum())

titanic.isnull().sum()

1.3统计个别列的缺失值数量/以age为例

df.Age #&#x67E5;&#x770B;Age&#x5217;&#x6570;&#x636E;

先看有没有缺失值？

titanic.Age.isnull().any() #&#x67E5;&#x770B;&#x7279;&#x5B9A;&#x5217;&#x7F3A;&#x5931;&#x503C;/true&#x6307;&#x6709;&#x7F3A;&#x5931;&#x503C;&#x2014;&#x2014;&#x6545;Age&#x5217;&#x6709;&#x7F3A;&#x5931;&#x503C;

缺失值是多少呢？

titanic.Age.isnull().sum()

2.对缺失值进行处理

2.1 删除

dropna

df.dropna(how=&#x2019;all&#x2019;) #&#x5220;&#x9664;&#x5168;&#x662F;&#x7F3A;&#x5931;&#x503C;&#x7684;&#x884C;/&#x5217;

df.dropna(how=&#x2019;any&#x2019;) #&#x5220;&#x9664;&#x542B;&#x7F3A;&#x5931;&#x503C;&#x7684;&#x884C;/&#x5217;

2.2 填充

fillna

df.fillna(value=0)&#xA0; #&#x7528;0&#x586B;&#x5145;

df.fillna(method=&#x2019;pad&#x2019;) #&#x5411;&#x540E;&#x586B;&#x5145;&#xFF1A;&#x5411;&#x4E0B;&#x590D;&#x5236;&#x4E00;&#x6837;&#x7684;&#x503C;

df.fillna(method=&#x2019;backfill&#x2019;) #&#x5411;&#x524D;&#x586B;&#x5145;&#xFF1A;&#x5411;&#x4E0A;&#x590D;&#x5236;&#x4E00;&#x6837;&#x7684;&#x503C;

3.重复值

3.1 查看重复值

df.duplicated() #&#x67E5;&#x770B;&#x5168;&#x90E8;

df.price.duplicated()&#xA0; #&#x67E5;&#x770B;price&#x5217;

df.duplicated(subset = ['price','cnt'])&#xA0; #&#x67E5;&#x770B;&#x591A;&#x5217;

3.2 处理重复值

df.drop_duplicates(subset = ['price','cnt'],keep='last',inplace=True)

subset限制特定列，否则默认全部列

keep 保留

inplace=true保留副本 inplace=false直接修改

将前面清洗的数据保存为csv格式

titanic.to_csv('C:\\Users\\71403\\Desktop\\titanic\\train.csv',index=False,sep=',')

Original: https://blog.csdn.net/etSha/article/details/123558351
Author: etSha
Title: 使用pandas清洗数据

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/752040/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

第三届泰迪杯数据挖掘技能赛一等奖总结&经验分享

先说结果笔者今年大二，参加了上届的泰迪杯数据挖掘技能赛，也是大学第一次参加比赛，最后结果是A题未获奖，B题一等奖。下面来简单介绍一下我们的参加经历，讲讲比赛总结。队员配置两人…

Python 2023年8月21日
0055
bbs项目之注册功能

404. 抱歉，您访问的资源不存在。可能是URL不正确，或者对应的内容已经被删除，或者处于隐私状态。 [En] It may be that the URL is incorre…

Python 2023年5月23日
0072
深度学习带GPU的pytorch 的安装及Conda 的配置

此篇文章以解决实际问题为主，无多余修饰，直接操作。前言本文主要是记录在安装带GPU的pytorch过程中遇到的一些报错，torch.cuda.is_available() 的时…

Python 2023年9月8日
0046
pytest数据驱动

完整代码有个人说过，自动化测试能让不懂代码的人只需要写测试case(数据)就能实现测试，我觉得他说的dei case使用封装数据case 最终将只需要维护这个数据文件即可实现对…

Python 2023年9月12日
0065
python学习 –DataFrame数据清洗（空值、重复值）

目录空值的处理 1、检查是否有空值 2、统计空值的数量 3、删除空值 4、填补空值用value参数替换空值将空值替换成上一列的值将空值替换成上一行的值将空值替换成下一列的…

Python 2023年8月8日
0054
在DataFrame中根据索引值进行排序：sort_index()函数

【小白从小学Python、C、Java】【Python-计算机等级考试二级】【Python-数据分析】在DataFrame中根据索引值进行排序：sort_index()函数 [太阳…

Python 2023年8月20日
0054
深度学习 Transformer架构解析

文章目录一、Transformer背景介绍 * 1.1 Transformer的诞生 1.2 Transformer的优势 1.3 Transformer的市场二、Transf…

Python 2023年10月7日
0068
python table删除一列_在python中从dataframe中删除多个列

我想使用python从dataframe中删除多个列(大约800个)。我写了以下代码：def corr_df(x, corr_val): Creates Correlation M…

Python 2023年8月22日
0057
python pandas处理csv表格（筛选，去重，分割，删除）

本人没学过pandas，不过最近总处理一些csv文件，从网上查用法，总是忘记，所以今天记录一下这些常用的用法，以后再补pandas，写的很简陋，还请大家海涵，有不足的还请大佬指教 …

Python 2023年8月19日
0071
PO模式在selenium自动化测试框架有什么好处

PO模式是在UI自动化测试过程当中使用非常频繁的一种设计模式，使用这种模式后，可以有效的提升代码的复用能力，并且让自动化测试代码维护起来更加方便。 PO模式的全称叫page obj…

Python 2023年11月9日
0038
【技术积累】Python基础知识【第一版】

变量 print("————-输出语句————-&…

Python 2023年5月24日
0072
Python 自动化测试(五): Pytest 结合 Allure 生成测试报告

本文节选自霍格沃玆测试学院测试开发内部教材，进阶学习文末加群！测试报告在项目中是至关重要的角色，一个好的测试报告：可以体现测试人员的工作量；开发人员可以从测试报告中了解缺陷的…

Python 2023年9月13日
0057
pytest assume无法导入：解决ImportError: cannot import name ‘assume‘ from ‘pytest‘问题

代码如下： from pytest import assume 报错：ImportError: cannot import name ‘assume’ fr…

Python 2023年9月11日
0066
数据分析 | Pandas 200道练习题，每日10道题，学完必成大神（2）

文章目录 * – 前期准备 – 1.通过DataFrame保存为EXCEL – 2.查看数据行列数 – 3.提取popularity…

Python 2023年8月16日
0083
Pandas数据分析—groupby分组统计

; 13.Pandas中groupby分组统计文章目录 13.Pandas中groupby分组统计前言一、分组使用聚合函数做数据统计 * 1.准备数据二、遍历groupby…

Python 2023年8月17日
0040
Pandas知识点-详解转换函数transform

Pandas知识点-详解转换函数transform transform()是pandas中的转换函数，对DataFrame执行传入的函数后返回一个相同形状的DataFrame。用于…

Python 2023年8月16日
0057

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31