Pandas 筛选数据的 8 个神操作

2023年8月18日上午2:07 • Python • 阅读 51

日常用 Python做数据分析最常用到的就是查询筛选了，按各种条件、各种维度以及组合挑出我们想要的数据，以方便我们分析挖掘。

今天我给大家总结了日常查询和筛选常用的种骚操作，供各位学习参考。本文采用 sklearn的 boston数据举例介绍。 喜欢本文记得收藏、关注、点赞。

【注】完整代码、数据资料、文末提供技术交流群

from sklearn import datasets
import pandas as pd

boston = datasets.load_boston()
df = pd.DataFrame(boston.data, columns=boston.feature_names)

1. []

第一种是最快捷方便的，直接在dataframe的 []中写筛选的条件或者组合条件。比如下面，想要筛选出大于 NOX这变量平均值的所有数据，然后按 NOX降序排序。

df[df['NOX']>df['NOX'].mean()].sort_values(by='NOX',ascending=False).head()

当然，也可以使用组合条件，条件之间使用逻辑符号 & |等。比如下面这个例子除了上面条件外再加上且条件 CHAS为1，注意逻辑符号分开的条件要用 ()隔开。

df[(df['NOX']>df['NOX'].mean())& (df['CHAS'] ==1)].sort_values(by='NOX',ascending=False).head()

2. loc/iloc

除 []之外， loc/iloc应该是最常用的两种查询方法了。 loc按标签值（列名和行索引取值）访问， iloc按数字索引访问，均支持单值访问或切片查询。除了可以像 []按条件筛选数据以外， loc还可以指定返回的列变量， 从行和列两个维度筛选。

比如下面这个例子，按条件筛选出数据，并筛选出指定变量，然后赋值。

df.loc[(df['NOX']>df['NOX'].mean()),['CHAS']] = 2

3. isin

上面我们筛选条件 < > == !=都是个范围，但很多时候是需要锁定某些具体的值的，这时候就需要 isin了。比如我们要限定 NOX取值只能为 0.538,0.713,0.437中时。

df.loc[df['NOX'].isin([0.538,0.713,0.437]),:].sample(5)

当然，也可以做取反操作，在筛选条件前加 ~符号即可。

df.loc[~df['NOX'].isin([0.538,0.713,0.437]),:].sample(5)

4. str.contains

上面的举例都是 数值大小比较的筛选条件，除数值以外当然也有 字符串的查询需求。 pandas里实现字符串的模糊筛选，可以用 .str.contains()来实现，有点像在SQL语句里用的是 like。

下面利用titanic的数据举例，筛选出人名中包含 Mrs或者 Lily的数据， |或逻辑符号在引号内。

train.loc[train['Name'].str.contains('Mrs|Lily'),:].head()

.str.contains()中还可以设置正则化筛选逻辑。

case=True：使用case指定区分大小写
na=True：就表示把有NAN的转换为布尔值True
flags=re.IGNORECASE：标志传递到re模块，例如re.IGNORECASE
regex=True：regex ：如果为True，则假定第一个字符串是正则表达式，否则还是字符串

5. where/mask

在SQL里，我们知道 where的功能是要把满足条件的筛选出来。pandas中 where也是筛选，但用法稍有不同。

where接受的条件需要是 布尔类型的，如果不满足匹配条件，就被赋值为默认的 NaN或其他指定值。举例如下，将 Sex为 male当作筛选条件， cond就是一列布尔型的Series，非male的值就都被赋值为默认的 NaN空值了。

cond = train['Sex'] == 'male'
train['Sex'].where(cond, inplace=True)
train.head()

也可以用 other赋给指定值。

cond = train['Sex'] == 'male'
train['Sex'].where(cond, other='FEMALE', inplace=True)

甚至还可以写组合条件。

train['quality'] = ''
traincond1 = train['Sex'] == 'male'
cond2 = train['Age'] > 25

train['quality'].where(cond1 & cond2, other='低质量男性', inplace=True)

mask和 where是一对操作，与 where正好反过来。

train['quality'].mask(cond1 & cond2, other='低质量男性', inplace=True)

6. query

这是一种非常优雅的筛选数据方式。所有的筛选操作都在 ''之内完成。


train[train.Age > 25]

train.query('Age > 25')

上面的两种方式效果上是一样的。再比如复杂点的，加入上面的 str.contains用法的组合条件，注意条件里有 ''时，两边要用 ""包住。

train.query("Name.str.contains('William') & Age > 25")

在 query里还可以通过 @来设定变量。

name = 'William'
train.query("Name.str.contains(@name)")

7. filter

filter是另外一个独特的筛选功能。 filter不筛选具体数据，而是筛选特定的行或列。它支持三种筛选方式：

items：固定列名
regex：正则表达式
like：以及模糊查询
axis：控制是行index或列columns的查询

下面举例介绍下。

train.filter(items=['Age', 'Sex'])

train.filter(regex='S', axis=1)

train.filter(like='2', axis=0)

train.filter(regex='^2', axis=0).filter(like='S', axis=1)

8. any/all

any方法意思是，如果至少有一个值为 True结果便为 True， all需要所有值为 True结果才为 True，比如下面这样。

>> train['Cabin'].all()
>> False
>> train['Cabin'].any()
>> True

any和 all一般是需要和其它操作配合使用的，比如查看每列的空值情况。

train.isnull().any(axis=0)

再比如查看含有空值的行数。

>>> train.isnull().any(axis=1).sum()
>>> 708

原创不易，欢迎点赞、留言、分享，支持我继续写下去。

技术交流

欢迎转载、收藏、有所收获点赞支持一下！

目前开通了技术交流群，群友已超过 2000人，添加时最好的备注方式为：来源+兴趣方向，方便找到志同道合的朋友

方式①、发送如下图片至微信，长按识别，后台回复：加群；
方式②、添加微信号： dkl88191，备注：来自CSDN
方式③、微信搜索公众号： Python学习与数据挖掘，后台回复：加群

Original: https://blog.csdn.net/qq_34160248/article/details/124390932
Author: Python数据挖掘
Title: Pandas 筛选数据的 8 个神操作

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/752645/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python遍历列表时删除元素

tk在科学养猪群里问bluerust、scz是否碰上过这个Python坑，示例1 bas = [ ‘ba1’, ‘ba2’, ‘ba3’, ‘ba4’, ‘ba5’ ] for b…

Python 2023年8月23日
0051
PINN学习与实验（一）

目录所用工具数学方程模型搭建所有实现代码结果展示参考文献今天第一天接触PINN，用深度学习的方法求解PDE，看来是非常不错的方法。做了一个简单易懂的例子，这个例子非常…

Python 2023年8月1日
0029
python实现外星人入侵——1.类的介绍上

前言上一篇博客简单介绍了一下游戏的内容和文件构成，这次我们来看一下每一个类文件的内容。在此之前我们还是需要先提一下生成屏幕(surface)的问题。首先，我们使用setting…

Python 2023年9月24日
0067
python与html结合显示本地图片_显示图像通过flask / python从HTML连接到HTML

要在Python 中实时写入图像并在HTML 上实时显示，可以使用OpenCV和Flask 。下面是一个简单的示例代码： <em>python</em>…

Python 2023年8月15日
0072
（四）Python PyTest 用例执行排序与常用指令-持续更新

可以通过编写自定义插件或使用 html插件来获取用结果。使用 html插件可以将测试结果生成HTML报告，其中包含每个测试用结果、运行时间、失败原因等信息。可以通过以下命令安…

Python 2023年9月14日
0050
matplotlib.widgets简单上手

matplotlib官方文档网站：https://matplotlib.org/我的思想是在案例中学习而不是挨着一个一个看，在案例中学习能很快掌握，并且能不断保持学习的热情，下面开…

Python 2023年8月31日
0034
【机器学习】几种常见的有监督学习算法

本文是作者阅读《图解机器学习算法》（[日] 秋庭伸也、杉山阿圣、寺田学）的相关读书笔记。读完的感受是：如果作为机器学习的入门书籍，行文和内容有点突兀，初学者通过几幅图也并不一定能…

Python 2023年9月15日
0064
Tensor和Numpy互相转换

常用的API例子 1 tensor转为numpy ps: gpu下的tensor不能直接转numpy，需要先转到cpu tensor后再转为numpy.cpu().numpy() …

Python 2023年8月1日
0090
JavaScript 设计模式及代码实现——代理模式

代理模式 1 定义为其他对象提供一种代理以控制对这个对象的访问在某些情况下，一个对象不适合或者不能直接引用另一个对象，而代理对象可以在客户端和目标对象之间起到中介的作用。 2 …

Python 2023年10月23日
0047
设计模式—责任链模式

将各个功能拆分后分别封装(各功能解耦)，需要时可自由组合(包括执行顺序) 话不多说，看个优化案例吧。优化案例以下是模拟客户端想服务端发送请求的业务流程。客户端调用代码如下。…

Python 2023年10月15日
0049
Camera Raw 15 for mac/Win(PS Raw增效工具) 中文

Original: https://www.cnblogs.com/aurora-123/p/16796398.htmlAuthor: 佛系女孩Title: Camera Raw …

Python 2023年10月25日
0015
task1-3:第一章：第三节探索性数据分析

task1-3:第一章：第三节探索性数据分析 * – 1 第一章：探索性数据分析 – + * 开始之前，导入numpy、pandas包和数据 + 1.6 了…

Python 2023年8月17日
0046
【WY】数据分析 — Pandas 阶段一：基础语法五 —— 数值计算

版权声明：本文为博主原创文章，未经博主允许不得转载。文章目录一、基本参数 * 1.1 axis – 1.1.1 按列统计 1.1.2 按行统计 1.2 skipna…

Python 2023年8月18日
0056
字节面试问到CPU的多级缓存架构，诸佬们怎么回答？

前言：大家好，我是小威，24届毕业生，上周在面试字节中，问到了一个关于CPU多级缓存架构的问题，当时答得并不是很好，之后查阅了资料，对此进行了复盘总结。如果文章有什么需要改进的地方…

Python 2023年9月28日
0035
lora和lorawan物联网无线传输技术

Lora联盟表示：”Lora设备和开放的LoRaWAN协议使智能物联网应用能够解决我们智慧城市建设面临的一些最大挑战：能源管理、自然资源减少、污染控制、基础设施效率、防…

Python 2023年10月28日
0031
【Python编程基础练习】 Python编程基础练习100题学习记录第三期（21~30）

作为我学习Python的基础练习记录 1.此为GitHub项目的学习记录，记录着我的思考，代码基本都有注释。2.可以作为Python初学者巩固基础的绝佳练习，原题有些不妥的地方我也…

Python 2023年6月12日
0092

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30