如何在工作中提高pandas运行速率？【超实用方法整理】

2023年8月8日上午4:29 • Python • 阅读 47

大家早上好，本人姓吴，如果觉得文章写得还行的话也可以叫我吴老师。欢迎大家跟我一起走进数据分析的世界，一起学习！
感兴趣的朋友可以关注我的数据分析专栏，里面有许多优质的文章跟大家分享哦。

大家都知道pandas计算功能非常厉害，运行速率也非常的快。通常情况下我们都不用去考虑怎么缩短运行的时间，因为往往一小会就运行完了。

但是，在现如今这个大数据的时代，特别是经常要与数据打交道的数据分析师 / 数据工程师，往往会处理到上百万甚至千万级别的数据，这个时候就不得不考虑以下如何使用恰当，或者说好用的方法来提升运行速率了。

那么今天，我给大家整理了工作学习中可以用到的几种提升pandas运行速率的思维或方法。

目前整理了最常见的四种情况，后续可能会不断更新，大家可以先收藏着。

我们很多时候用到pandas都是写好指定的条件，然后再对dataframe进行一系列运算，如：

df_power = df[(df.category == '功能饮料')]
print(df_power['sales].sum())

这里实现的就是求出category为功能饮料的销售额总和。

那么这样子写是ok的，完全没有问题，那如果是想要天猫平台的category为功能饮料的销售额总和呢？

df_tmall_power = df[(df.category == '功能饮料') & ((df.platform == '天猫'))]
print(df_tmall_power['sales].sum())

这样子写ok吗？
答案是ok的，哈哈。

但这里有个问题，如果说我们只需要用到天猫平台的数据，并且需要经常求天猫平台中各式各样的数据，那么我们就不能一直这么写，应该直接就先把 df换成 df_tmall，也就是这样：

df_tmall = df[((df.platform == '天猫'))]
df_tmall_power = df_tmall[(df_tmall.category == '功能饮料') & ((df_tmall.platform == '天猫'))]
print(df_tmall_power['sales].sum())

总之一句话，如果只是在些特定范围内做操作的话，并且要操作多次的，可以先把那个dataframe给它筛一筛，这样子运行速度会快很多很多。

第一种

df_raw.loc[(df_raw.category == '果汁') & (df_raw.brand == '美汁源') & (df_raw.month == '2020-01-01'), ['values']] = 100
df_raw.loc[(df_raw.category == '果汁') & (df_raw.brand == '美汁源') & (df_raw.month == '2020-01-01'), ['units']] = 20
df_raw.loc[(df_raw.category == '果汁') & (df_raw.brand == '美汁源') & (df_raw.month == '2020-01-01'), ['price']] = 5

第二种

df_raw.loc[(df_raw.category == '果汁') & (df_raw.brand == '美汁源') & (df_raw.month == '2020-01-01'), ['values', 'units', 'price']] = 100, 20, 5

第二种效率远高于第一种。

第一种

df_plat = df[(df.platform == 'PDD') | (df.platform == 'Tmall') | (df.platform == 'JD')]

第二种

df_plat = df[(df.platform.isin(['PDD', 'Tmall', 'JD']))]

第二种效率远高于第一种。

这点就比较基础了，有些刚上手pandas的朋友可能没意识到pandas是可以直接对多行数据，或者说全部数据进行修改的，并且以为需要向以往接触到的list、dict一样，进行for循环操作，这样子就真的太浪费pandas了，大材小用了属于是。

举个例子，现在有一个表格，其中一个字段名是grade，现在想要求出grade大于等于90的人数。

第一种（for循环）

list_grade = df['grade'].tolist()
count = 0
for i in list_grade:
    if i >= 90:
        count += 1
print(count)

第二种（矢量化操作）

print(df[df.grade >= 90].shape[0])

比较之后我们不难发现，使用矢量化操作不仅运行速率会更快，而且代码也简洁了许多。

注：如果真的不得不用到for循环，请使用.iterrows()或.itertuples()来提高速度和语法。

看完这篇，还有更多知识点分享给你哦，自己慢慢找哈，就在下面链接。

推荐关注的专栏

往期内容回顾

关注我，了解更多相关知识！

Original: https://blog.csdn.net/qq_44186838/article/details/122716310
Author: 报告，今天也有好好学习
Title: 如何在工作中提高pandas运行速率？【超实用方法整理】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/741552/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

如何使用python3.7 matplotlib_Matplotlib中%matplotlib inline如何使用

%matplotlib inline 是一个魔法函数(Magic Functions)。官方给出的定义是：IPython有一组预先定义好的所谓的魔法函数(Magic Functio…

Python 2023年9月6日
0041
python读取传感器实时数据_使用python在web页面上显示实时传感器数据的可能方法…

我正在尝试制作一个网络应用程序，它从传感器获取温度和(电机)转速，通过我的电脑串行连接到一台机械机器，并显示在网页上。在我在使用Python Flask和AJAX。到目前为止，我…

Python 2023年8月14日
0046
python中安装scrapy_python中安装Scrapy模块依赖包汇总

本地虚拟环境开发完成之后，上线过程中需要一一安装依赖包，做个记录如下： CentOS 安装python3.5.3 wget https://www.python.org/ftp/p…

Python 2023年10月4日
0037
如何解决：FileNotFoundError: 以及[Errno 2]No such file or directory

——————————出错原因——&#…

Python 2023年8月2日
0042
python pandas loc 条件_对pandas中iloc,loc取数据差别及按条件取值的方法详解

Dataframe使用loc取某几行几列的数据： print(df.loc[0:4,[‘item_price_level’,’item_sale…

Python 2023年8月8日
0027
【educoder实训答案】Pandas合并数据集

; 第1关：Concat与Append操作任务描述本关任务：使用read_csv()读取两个csv文件中的数据，将两个数据集合并，将索引设为Ladder列，并将缺失值填充为0。 …

Python 2023年8月6日
0065
【python】matplotlib 实现双（多）Y轴图

【python】matplotlib 实现双（多）Y轴图先来点简单的两个Y轴三个以及多个Y轴来亿点点美化先来点简单的先来个最简单的画图，比如一个 y = s i n (…

Python 2023年8月30日
0031
Python 枚举类自定义状态

Python 枚举类自定义状态原创 ch3nnn2022-07-18 17:41:26博主文章分类：Python ©著作权文章标签 python 状态码初始状态获取值文…

Python 2023年5月25日
0068
【PyTorch教程】pytorch入门系列 ——土堆教程的目录及索引

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月2日
0033
【快乐六一】当pygame遇到中文点阵，有趣的code碰撞就此展开，祝各位大朋友、小朋友们节日快乐！

各位好！今天恰逢六一儿童节，一个开心、快乐的节日！金色的童年、快乐的童年，都是美好的、幸福的回忆！我的小宝贝一直说想看看我们美丽的文字，所以最近一直在研究中文字符的东东，从技术…

Python 2023年9月25日
0037
简单电影推荐系统

title: 简单电影推荐系统 tags: flask category: python 仓库地址首先要点击下方链接进入该仓库本地演示首先你需要下载本仓库到本地，然后输入以下…

Python 2023年8月10日
0039
第五章数据聚合与分组运算

1.分组是指使用特定的条件将原数据划分为多个组，聚合在这里指的是，对每个分组中的数据执行某些操作，最后将计算的结果进行整合。分组步骤：拆分：将数据集按照一些标准拆分为若干个组…

Python 2023年8月8日
0059
少儿python教程：从Scratch到Python:会动的小猫

大部分人提起儿童编程，就会想到Scratch，然而当儿童升入中学，学习什么语言比较合适呢？我认为，Python是未来的方向，为此我将会把一些经典的Scratch案例用Python重…

Python 2023年9月20日
0038
Go 1.18 系列篇（三）：一文掌握 Go 工作区模式

系列导读：1、Go 1.18 系列篇（一）：如何升级 Go 1.18 ？2、Go 1.18 系列篇（二）：一文掌握泛型的使用对我来说，Go1.18 最 “实用&#82…

Python 2023年6月6日
0065
Pygame入门 2022 （3）

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kH6jWBxo-1661269465814)(assets/2022-08-22-15-54-51….

Python 2023年9月19日
0029
matplotlib之pyplot模块——绘制小提琴图violinplot()

当前有效 matplotlib版本为： 3.4.1。概述 violinplot()函数的作用是绘制小提琴图。小提琴图和箱形图有点类似，它也可以显示四分位数（quartile）。…

Python 2023年9月3日
0044

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

如何在工作中提高pandas运行速率？【超实用方法整理】

大家都在看