Python数据分析【第8天】| DataFrame的三种数据处理基本操作（df.drop(), df.fillna(), df.drop_duplicates()）

2023年8月17日上午8:13 • Python • 阅读 69

系列文章目录

第1天：读入数据
 第2天：read()、readline()与readlines()
第3天：进度条（tqdm模块）
第4天：命令行传参（argparse模块）
第5天：读、写json文件（load()、loads()、dump()、dumps()）
第6天：os模块、glob模块
 第7天：pandas.DataFrame

python数据分析学习第8天记录

系列文章目录
前言
一、今天所学的内容
二、知识点详解
*
2.1 删除行
–
- 2.1.1 按==标签==来删除列
- 2.1.2 按==序号==来删除列
2.2 空值处理
2.3 去重
总结

前言

昨天我们学习了pandas模块中的DataFrame的一些读取方法并给出了实例。今天继续学习pandas模块下对数据的处理。

一、今天所学的内容

主要内容为pandas模块如何对DataFrame这一数据类型进行将数据输入模型前的与处理工作。

数据处理的主要操作，包括：删除列、空值处理、去重、将值转换为属性／特征、

二、知识点详解

先加载模块：

import pandas

然后我们来创建一个DataFrame：（如果这个地方忘记参数怎么设置，请参考上一篇）

df = pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

首先初始化一个DataFrame，该DataFrame将作为样例，用于下面的讲解：

data = {
        '性别':['male','male','female','male'],
        '姓名':['汤师爷','县长','县长夫人','黄老爷'],
        '年龄':[40,35,25,44]}
df = pd.DataFrame(data,index=['one','two','three','four'],
               columns=['姓名','性别','年龄','职业'])

然后在命令行输入 df ，即可看到当前DataFrame的内容：

Python数据分析【第8天】| DataFrame的三种数据处理基本操作（df.drop(), df.fillna(), df.drop_duplicates()）

值得注意的是，虽然我们指定的列名中有”职业”这一条，但我们所传入的数据中并没有关于”职业”的信息，因此这一列的数据全都为NaN（Not a Number）。

然后我们来看我们对 DataFrame 的一些常用的处理方法。

2.1 删除行

现在我们要想删除data里的”职业”一列，这里主要介绍两种删除列的方法：

按标签来删除列
按序号来删除列

2.1.1 按标签来删除列

代码如下：

df.drop('职业',axis=1,inplace=False)

其中，inplace=True时，是直接对原dataFrame进行操作；而等于False时则将不改变原来的dataFrame，而将结果生成在一个新的dataFrame中。

所以如果这个时候打印df，则还是原来的数据。此时应该把数据保存在新的DataFrame中：

df_new = df.drop('职业',axis=1,inplace=False)

此时打印df_new的值，则为：

2.1.2 按序号来删除列

按照序号来删除列是另一种方法，例如：

x = [1,2]

df.drop(df.columns[x],axis=1,inplace=True)

以上代码表示的含义是，先给出需要删除的列序号的列表，其中第一列可表示为0，第二列表示为1，以此类推。

所以要删除’职业’这一列，只需要加一行代码：

df.drop(df.columns[3],axis=1,inplace=True)

可能不够直观，对比一下上面的方法吧：

print(df.drop('职业',axis=1,inplace=False))
print(df)
print(df.drop(df.columns[3],axis=1,inplace=False))

结果如下截图所示：

可以看出，这两种方法在删除列的结果上没有差别。

Tips:
在按序号删除列时，必须要加上axis=1。如果不加的话，就是删除行了。

2.2 空值处理

将值为null的数据填为0：

df.fillna(value=0,axis=1,inplace=True)

结果如下：

2.3 去重

去重主要涉及到的方法为：

df.duplicated()
df.drop_duplicates()

举例说明，代码如下：

import pandas
data2 = {
        '性别':['male','male','female','male','male'],
        '姓名':['汤师爷','县长','县长夫人','黄老爷','黄老爷'],
        '年龄':[40,35,25,44,44]}
df2 = pd.DataFrame(data2,index=['one','two','three','four','five'],
               columns=['姓名','性别','年龄','职业'])
print(df2)

代码运行结果：

现在对数据进行去重前的判断：

print(df2.duplicated())

运行结果显示：

判断出第五行相对于之前的行重复，因此数据进行去重操作：

df2.drop_duplicates()
print(df2)

运行结果显示：

是哪里出了问题呢？

回忆今天一开始介绍的内容，inplace这个布尔值在DataFrame的数据操作中尤为重要。

若inplace=True，则表示在原DataFrame上直接修改；
若inplace=False，则表示结果另生成新的DataFrame，原DataFrame没有变化。

因此，要向在原DataFrame上显示出去重效果，代码则应该写成：

df2.drop_duplicates(inplace=True)
print(df2)

现在的运行结果就是我们想要的结果了：

或者直接输出去重结果，不要求在原DataFrame上保留结果：

print(df2.drop_duplicates())

也会在终端得到相同的结果。但是对原DataFrame是无影响的。选哪种方式去重就看你的需求了。

总结

在昨天对DataFrame初相识的基础上，今天介绍DataFrame的三种数据处理基本操作：删除列、空值处理（又称缺失值处理）以及去重操作。

那么今天就到这里了，明天继续为大家带来DataFrame的数据处理操作。list如下：

将值转换为属性／特征
数据合并，连接（merge,join,concat)
排序、排名
索引重置
追加写入Excel
转化格式（比如dict）进行保存

祝大家变得更强，明天见！

今天的小tips：

学习没有捷径。

Original: https://blog.csdn.net/FANFANHEBAOER/article/details/117458644
Author: 王大梨
Title: Python数据分析【第8天】| DataFrame的三种数据处理基本操作（df.drop(), df.fillna(), df.drop_duplicates()）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/751904/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

还记得愤怒的小鸟嘛？今天用Python给大家安排一波！

相关文件关注小编，私信小编可以领取源码哟~~ 开发工具Python版本：3.6.4相关模块：pygame模块；以及一些python自带的模块。环境搭建安装Python并添加到环…

Python 2023年9月23日
0042
Python学习笔记（8）Pandas统计分析1

1.1 文本文件读取与储存 pandas. read_csv (filepath_or_buffer, sep=’,’, header=’inf…

Python 2023年8月21日
0049
python机器学习入门之pandas的使用（超详细，必看）

pandas是基于numpy的一种工具同样用于数据分析 pandas主要处理以下三种数据结构 1： series 一维数组接近python中的list 2： DataFrame…

Python 2023年8月19日
0047
基于协同过滤算法的课程推荐（采用皮尔逊相关系数) 。

解决问题：根据用户的选课情况，推荐相应的课程。对应的文件如下：相关文件：提取码：zxcv复制这段内容后打开百度网盘手机App，操作更方便哦) 协同过滤算法的基本步骤：1:收集用户…

Python 2023年8月7日
0048
【JS 逆向百例】网洛者反爬练习平台第一题：JS 混淆加密，反 Hook 操作

关注微信公众号：K哥爬虫，持续分享爬虫进阶、JS/安卓逆向等技术干货！声明本文章中所有内容仅供学习交流，抓包内容、敏感网址、数据接口均已做脱敏处理，严禁用于商业用途和非法用途，…

Python 2023年5月24日
00104
自底向上：从可变对象、不可变对象到深浅拷贝再到数据结构

不可变对象和可变对象 [En] Immutable objects and mutable objects * * Python 在 heap 中分配的对象分成两类：可变对象和不可…

Python 2023年5月24日
0075
python及pygame雷霆战机游戏项目实战11 玩家多条命

项目详细介绍项目详细介绍在这个系列中，将制作一个雷霆战机游戏。 ; 玩家爆炸将使用不同的爆炸动画来制作玩家的死亡。只需像其他爆炸那样加载那些帧。现在加载代码如下所示： ex…

Python 2023年9月19日
0052
用Pytest+Allure实现自动化用例失败截图

每天进步一点点，关注我们哦，每天分享测试技术文章本文章出自【码同学软件测试】码同学公众号：自动化软件测试码同学抖音号：小码哥聊软件测试 UI自动化中通常为了能够追踪测试用例执行失败…

Python 2023年9月9日
0038
关于pytest中mark标签执行的警告：

关于pytest中mark标签执行的警告： PytestUnknownMarkWarning: Unknown pytest.mark.shop – is this a…

Python 2023年9月11日
0086
kubernets CKS 4.2 Pod安全上下文(二)

本小结CKS暂时未出题安全上下文（Security Context）：K8s对Pod和容器提供的安全机制，可以设置Pod特权和访问控制。背景：容器中的应用程序默认以root账号运…

Python 2023年8月13日
0051
VS Code设置OpenCV+Python

我们将在这里讨论如何在 Visual Studio Code 中为 OpenCV + Python 设置开发环境以及一些技巧。 1. 安装 1.1 要求 * 1. Python* …

Python 2023年9月22日
0044
【Python】使用一行代码实现均值，中位数和众数

1. 引言在做数据分析时，我们经常需要使用统计量来更加方便的了解数据的分布。但是统计量有多种计算方式，本文重点介绍常用的三种数据统计中常用的统计量，即均值，中位数和众数；并尝试使…

Python 2023年5月25日
00116
武汉理工大学 Python程序设计第八章测验

关闭文件对象file的语句为： B. file.close() 以读模式打开文件并允许更新，mode参数值应设为： C. ‘r+’ 以追加写模式打开文件，m…

Python 2023年8月23日
0044
python外星人入侵游戏加随机游动_Python小游戏：外星人入侵！！！终于完成了！！！…

历时七天，终于做出来了(因为还要上网课，学习其他的东西，所以做的比较慢，如果每天能拿出五个小时做这个游戏的话，个人觉得三天差不多，当然了，这是对于小白来说)。我是按照买的资料书上来…

Python 2023年9月23日
0055
头歌Python数据框、序列定义及数据处理应用实验闯关

粘贴答案不是目的把Python学会这才叫做意义童年的纸飞机现在终于飞回我手里~~ 这是网站给的答案，不过运行报错，其他关卡应该没问题。 def return_values()…

Python 2023年8月20日
00129
Django启航（三）Django模型

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年8月6日
0039

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31