pandas中dropna函数_Pandas简易入门（二）

2023年7月8日上午11:16 • 人工智能 • 阅读 69

处理缺失数据

制作透视图

删除含空数据的行和列

多行索引

使用apply函数

本节要处理的数据来自于泰坦尼克号的生存者名单，它的数据如下 pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest

1,1,”Allen, Miss. Elisabeth Walton”,female,29,0,0,24160,211.3375,B5,S,2,,”St Louis, MO”

1,1,”Allison, Master. Hudson Trevor”,male,0.9167,1,2,113781,151.5500,C22 C26,S,11,,”Montreal, PQ / Chesterville, ON”

1,0,”Allison, Miss. Helen Loraine”,female,2,1,2,113781,151.5500,C22 C26,S,,,”Montreal, PQ / Chesterville, ON”

其中，pclass描述的是客舱等级，boat描述的是生存者搭乘的救生艇号码，body描述的是乘客的尸体编码。其中age和sex字段都有缺失的数据。由于不能对缺失数据进行运算，所以要先处理缺失的数据

处理缺失数据

首先，Pandas会用NaN(not a number)来表示一个缺失的数据，计算age字段为空的数据有多少行。Pandas有一个函数isnull()可以直接判断该列中的哪个数据为NaN

importpandas as pd

file=’titanic_survival.csv’

titanic_survival=pd.read_csv(file)

age_null=pd.isnull(titanic_survival[‘age’])

age_null_true= age_null[ age_null ==True]

age_null_count=len(age_null_true)

计算age字段的平均值importpandas as pd

mean_age= sum(titanic_survival[“age”]) / len(titanic_survival[“age”])#mean_age的值为NaN，因为对NaN数据进行运算，结果也是NaN

所以要先去除NaN数据

age_null= pd.isnull(titanic_survival[“age”])

correct_mean_age= sum(titanic_survival[‘age’][age_null == False]) / len(titanic_survival[‘age’][age_null == False])

由于处理缺失数据很普遍，所以Pandas使用了一些可以自动过滤NaN的方法，譬如，mean()方法可以自动过滤缺失数据并计算平均值

correct_mean_age = titanic_survival[“age”].mean()

总结：Pandas处理缺失数据的方法就是先用pd.isnull()来循环判断某列中的数据是否有空值，然后生成一个只有True或者False的列表，再把该列表中的False值传进该列中来得出不为空的数据

制作透视图

可以使用数据透视表汇总、分析、浏览和显示数据表数据概览或外部数据源。数据透视表在您需要合计较大的数字列表时非常有用，聚合后的数据或分类汇总有助于您从不同角度查看数据和比较类似数据图表。

计算每一个客舱平均年龄，使用函数pivot_table()

importpandas as pdimportnumpy as np

passenger_age= titanic_survival.pivot_table(index=’pclass’, values=’age’, aggfunc=np.mean)

index参数指明了用来分类的列，values标签指明了用来计算的列，aggfunc指明了使用什么函数来计算values指定的列

如果要计算男性与女性的平均年龄

passenger_age = titanic_survival.pivot_table(index=’sex’, values=’age’, aggfunc=np.mean)

还可以制作更加复杂的透视图

譬如，要计算每一个客舱等级的平均年龄和费用

importnumpy as np#只要在values参数中增加参数即可

passenger_survival= titanic_survival.pivot_table(index=”pclass”, values=[“age”, “fare”], aggfunc=np.mean)

同样地，我要计算每个客舱等级中，每个性别的平均年龄和费用，则增加index的参数

passenger_survival = titanic_survival.pivot_table(index=[“pclass”,”sex”], values=[“age”, “fare”], aggfunc=np.mean)

删除含有空数据的行和列

可以使用dropna()函数来删除具有空数据的行或列

importpandas as pd#删除含有空数据的全部行

new_titanic_survival=titanic_survival.dropna()#可以通过axis参数来删除含有空数据的全部列

new_titanic_survival= titanic_survival.dropna(axis=1)#可以通过subset参数来删除在age和sex中含有空数据的全部行

new_titanic_survival= titanic_survival.dropna(subset=[“age”, “sex”])print(new_titanic_survival)

new_titanic_survival= titanic_survival.dropna(subset=[‘age’, ‘body’,’home.dest’])

多行索引

这是原始的titanic_survival

在我删除了那些body列为NaN的行之后，数据变成了下面这样

new_titanic_survival = titanic_survival.dropna(subset=[“body”])

可见，在new_titanic_survival表中，行的索引仍然保持和之前一样，并没有重新从0开始计算。在上一篇的《Pandas简易入门(一)》中可以知道Pandas使用loc[ m ]函数来索引行号为m的那一行，或者loc[ m: n]来索引行号从m到n(包括n)的那些行，或者loc [[ m, n, o]]来索引行索引号为m, n, o的行。

但是，在重新生成的new_titanic_suvival中，行的索引号已经变得毫无规律，此时就要使用新的函数iloc[]来按照位置索引

输出新表的前五行

m= new_titanic_survival.iloc[:5,:]

输出新表的第四行，注意仍然从0开始索引，所以在参数中填的是3而不是4

n= new_titanic_survival.iloc[3,:]

假如我想取出新表中第一行，第一列的那个值

m =new_titanic_survival.iloc[0,0]

等价于

n= new_titanic_survival.loc[3,”pclass”]

总结：iloc函数按照所在位置索引(iloc[]中的参数只能为整型值或者整型的分片)，loc函数按照行号和列名索引

看过上面就可以知道使用iloc来索引有多么的麻烦，实际上可以对新表进行索引重排序，使用reset_index()函数即可

titanic_reindexed = titanic_survival.dropna(subset=[‘age’, ‘boat’]).reset_index(drop=True)

drop函数用来指明是否不把原表中的index值作为一个新列放进新表

对比上图就看到行索引进行了重排序，如果drop参数为False

titanic_reindexed_false = titanic_survival.dropna(subset=[‘body’]).reset_index(drop=False)，就会生成如下格式

可以看到多了名为index的第一列，该值就是原表中的索引值

使用apply函数

之前我们已经计算了某一列中含有空值的数量，如果我要列出该表每一列中究竟有多少个空值呢，就可以使用apply(function)函数，该函数会将自定义的function函数应用在每一列中，并且把运行的结果保存在一个新的Series中，如下

importpandas as pd#这个函数返回一列中的空值数量

defnull_count(column):#首先用isnull函数判断该列中每个数值是否为空，生成一个只有True或者False的向量(列表)

column_null=pd.isnull(column)#把空值的那些数据提取出来，放在一个向量中

null= column[column_null ==True]#返回该向量的长度即可

returnlen(null)#对所有的列都运行该函数

column_null_count=titanic_survival.apply(null_count)print(column_null_count)

如果要把函数运行在全部行上，就是用axis参数即可

对于每一行，假如该行的age字段缺失就显示unknown，age小于18就返回minor，age大于等于18就返回adult

defjudge(row):if pd.isnull(row[‘age’]) ==True :return ‘unknown’

return ‘minor’ if row[‘age’] < 18 else ‘adult’age_labels= titanic_survival.apply(judge, axis=1)print(titanic_survival.columns)

Original: https://blog.csdn.net/weixin_29533307/article/details/112943412
Author: 吕桂华
Title: pandas中dropna函数_Pandas简易入门（二）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/678385/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

网络层——IP协议

网络层网络层概述网络层主要考虑数据传输的路上问题，在复杂的网络环境中确定一个合适的路径。网络层设计要尽量简单，向上层只提供简单灵活的、无连接的、不保证可靠性的数据报服务。网络层…

人工智能 2023年6月19日
0068
PCL点云处理与关键点提取

关键点简介关键点也称为兴趣点，它是 2D 图像或 3D 点云或曲面模型上,可以通过检测标准来获取的具有稳定性、区别性的点集。从技术上来说,关键点的数量比原始点云或图像的数据量少很…

人工智能 2023年5月28日
00115
常用的串口通讯协议有哪些

串口通讯是什么?学术解释是，通过总线在一个时间点连续发送一位数据的方法。如同弓箭手频繁射出弓箭一般，嗖、嗖、嗖…… 串口通讯协议是什么?说的大白话一点，就是…

人工智能 2023年6月6日
00117
python 常用第三方包镜像安装

conda添加常用镜像源 conda config –add channels https://mirrors.tuna.tsinghua.edu.cn/anacond…

人工智能 2023年5月23日
0087
字节面试 transformer相关问题整理复盘

transformer 动机： RNN特点：给你一个序列，计算是从左往右一步一步往前的。对句子来说，就是一个词一个词的看，对第t个词会计算一个ht,也叫做他的隐藏状态，是由前一个词…

人工智能 2023年5月27日
00108
目标检测——yolov3论文精读

📝论文下载 Abstract(摘要) YOLOv3在YOLO的基础上做了一些更新，重点在于提升检测的精度。当图片的分辨率为320 × 320，YOLOv3只使用了22 ms进行…

人工智能 2023年5月26日
0068
【数据分析与挖掘实战】航空公司客户价值分析

1.案例背景二八定律： 20%的客户，为企业带来约80%的利益。在企业的客户关系管理中，对客户分类，区分不同价值的客户。针对不同价值的客户提供个性化服务方案，采取不同营销策略，…

人工智能 2023年7月16日
0060
使用yolov5-lite对屏幕进行目标检测

目录 1. 修改检测网络 1.1 删除int8量化，使用摄像头等用不到的内容 1. 2 修改用到的参数 1.3 设置鼠标移动 1.4 将mian函数改为预测函数 2. 实现屏幕检测…

人工智能 2023年7月9日
0093
[TensorFlow] arm架构macOS安装TensorFlow并开启GPU加速

在M1系列的arm架构macOS上安装TensorFlow时，如果直接使用 pip install tensorflow安装会出现如下错误： ERROR: Could not fi…

人工智能 2023年5月25日
0092
使用C#编写一个读取和判断股票实时成交数据的小工具

使用vs2019预览版，.net4.5进行编写，定位为一个数据分析的小工具，对个股的每笔成交进行分析判断，目前想到的就这些功能，并且还存在很多问题，不断完善中。本身不是专业写程序…

人工智能 2023年7月15日
0078
【竞赛】竞赛的常见思路和方案——目标检测

文章目录 1. 数据： 2 模型 3. 训练 4. 模型融合+后处理数据：数据研究：是如何获得的，宽高比，类别平衡，采样环境标注框和感受野的设置，rpn中anchor rat…

人工智能 2023年7月10日
0065
各种弱人工智能产品已经逐步走入了我们的生活

在过往的三四十年之间科学的发展与科技的进步让我们所处的世界发生了翻天覆地的变化，而在未来这种变化也许会更加惊人。不知不觉中，我们已经进入了人工智能的时代各种弱人工智能产品已经逐步…

人工智能 2023年7月17日
0084
CornerNet详解

论文动机 1、anchor-box 好用，但是有两个缺点：1）、数量太多，造成负样本太多，样本不均衡，导致训练效率低。2）、anchor-box引入太多超级参数，数量，大小，长宽比…

人工智能 2023年7月22日
0061
Ubuntu18.04安装tensorflow1.13.1，cuda10.1，cuDNN7.5

人工智能 2023年5月26日
0071
WWW2021推荐系统论文集锦（附下载）

嘿，记得给” 机器学习与推荐算法 “添加星标国际顶级学术会议WWW2021定在2021年4月12-23日举行。受新冠肺炎疫情影响，大会将在线上举行。今…

人工智能 2023年6月1日
0098
程序分析与优化-4 工作列表（worklist）算法

本章是系列文章的第四章，介绍了worklist算法。Worklist算法是图分析的核心算法，可以说学会了worklist算法，编译器的优化方法才算入门。这章学习起来比较吃力，想要融…

人工智能 2023年6月4日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31