进阶版的Pandas数据分析神器：Polars

2023年7月18日上午10:08 • 人工智能 • 阅读 62

相信对于不少的数据分析从业者来说呢，用的比较多的是 Pandas以及 SQL这两种工具， Pandas不但能够对数据集进行清理与分析，并且还能够绘制各种各样的炫酷的图表，但是遇到数据集很大的时候要是还使用 Pandas来处理显然有点力不从心。

今天我就来介绍另外一个数据处理与分析工具，叫做 Polars，它在数据处理的速度上更快，当然里面还包括两种API，一种是 Eager API，另一种则是 Lazy API，其中 Eager API和 Pandas的使用类似，语法类似差不太多，立即执行就能产生结果。 喜欢本文记得收藏、关注、点赞。

【注】完整版代码、数据、技术交流，文末获取

而 Lazy API和 Spark很相似，会有并行以及对查询逻辑优化的操作。

; 模块的安装与导入

我们先来进行模块的安装，使用 pip命令

pip install polars

在安装成功之后，我们分别用 Pandas和 Polars来读取数据，看一下各自性能上的差异，我们导入会要用到的模块

import pandas as pd
import polars as pl
import matplotlib.pyplot as plt
%matplotlib inline

用 `Pandas` 读取文件

本次使用的数据集是某网站注册用户的用户名数据，总共有360MB大小，我们先用 Pandas模块来读取该 csv文件

%%time
df = pd.read_csv("users.csv")
df.head()

output

可以看到用 Pandas读取 CSV文件总共花费了12秒的时间，数据集总共有两列，一列是用户名称，以及用户名称重复的次数”n”，我们来对数据集进行排序，调用的是 sort_values()方法，代码如下

%%time
df.sort_values("n", ascending=False).head()

output

用 `Polars` 来读取操作文件

下面我们用 Polars模块来读取并操作文件，看看所需要的多久的时间，代码如下

%%time
data = pl.read_csv("users.csv")
data.head()

output

可以看到用 polars模块来读取数据仅仅只花费了730毫秒的时间，可以说是快了不少的，我们根据”n”这一列来对数据集进行排序，代码如下

%%time
data.sort(by="n", reverse=True).head()

output

对数据集进行排序所消耗的时间为1.39秒，接下来我们用polars模块来对数据集进行一个初步的探索性分析，数据集总共有哪些列、列名都有哪些，我们还是以熟知”泰坦尼克号”数据集为例

df_titanic = pd.read_csv("titanic.csv")
df_titanic.columns

output

['PassengerId',
 'Survived',
 'Pclass',
 'Name',
 'Sex',
 'Age',
 ......]

和 Pandas一样输出列名调用的是 columns方法，然后我们来看一下数据集总共是有几行几列的，

df_titanic.shape

output

(891, 12)

看一下数据集中每一列的数据类型

df_titanic.dtypes

output

[polars.datatypes.Int64,
 polars.datatypes.Int64,
 polars.datatypes.Int64,
 polars.datatypes.Utf8,
 polars.datatypes.Utf8,
 polars.datatypes.Float64,
......]

填充空值与数据的统计分析

我们来看一下数据集当中空值的分布情况，调用 null_count()方法

df_titanic.null_count()

output

我们可以看到”Age”以及”Cabin”两列存在着空值，我们可以尝试用平均值来进行填充，代码如下

df_titanic["Age"] = df_titanic["Age"].fill_nan(df_titanic["Age"].mean())

计算某一列的平均值只需要调用 mean()方法即可，那么中位数、最大/最小值的计算也是同样的道理，代码如下

print(f'Median Age: {df_titanic["Age"].median()}')
print(f'Average Age: {df_titanic["Age"].mean()}')
print(f'Maximum Age: {df_titanic["Age"].max()}')
print(f'Minimum Age: {df_titanic["Age"].min()}')

output

Median Age: 29.69911764705882
Average Age: 29.699117647058817
Maximum Age: 80.0
Minimum Age: 0.42

数据的筛选与可视化

我们筛选出年龄大于40岁的乘客有哪些，代码如下

df_titanic[df_titanic["Age"] > 40]

output

最后我们简单地来绘制一张图表，代码如下

fig, ax = plt.subplots(figsize=(10, 5))
ax.boxplot(df_titanic["Age"])
plt.xticks(rotation=90)
plt.xlabel('Age Column')
plt.ylabel('Age')
plt.show()

output

总体来说呢， polars在数据分析与处理上面和 Pandas模块有很多相似的地方，其中会有一部分的API存在着差异，感兴趣的童鞋可以参考其官网：https://www.pola.rs/

技术交流

欢迎转载、收藏、有所收获点赞支持一下！

目前开通了技术交流群，群友已超过 2000人，添加时最好的备注方式为：来源+兴趣方向，方便找到志同道合的朋友

方式①、发送如下图片至微信，长按识别，后台回复：加群；
方式②、添加微信号： dkl88191，备注：来自CSDN
方式③、微信搜索公众号： Python学习与数据挖掘，后台回复：加群

Original: https://blog.csdn.net/weixin_38037405/article/details/124128816
Author: Love Python数据挖掘
Title: 进阶版的Pandas数据分析神器：Polars

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/700582/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深入浅出 Yolo 系列之 Yolov7 基础网络结构详解

从 2015 年的 YOLOV1，2016 年 YOLOV2， 2018 年的 YOLOV3，到 2020 年的 YOLOV4、 YOLOV5，以及最近出现的 YOLOV76 和…

人工智能 2023年7月12日
0077
图像分类数据集（Fashion-MNIST）

图像分类数据集（Fashion-MNIST）图像分类数据集中最常用的是手写数字识别数据集MNIST[1]。但大部分模型在MNIST上的分类精度都超过了95%。为了更直观地观察算法…

人工智能 2023年7月2日
0062
LSTM模型预测新冠

LSTM是RNN的改进型，传统RNN模型会随着时间区间的增长，对早期的因素的权重越来越低，有可能会损失重要数据。而LSTM模型通过遗忘门、输入门、输出门三个逻辑，来筛选和保留数据…

人工智能 2023年6月15日
00109
【Complex-YOLO: 点云实时目标检测】

Complex-YOLO: 点云实时目标检测前言要点分析具体算法分析 * 点云转化鸟瞰图提取特征 B- Box损失回归前言 Complex-YOLO，论文中介绍是一种仅在…

人工智能 2023年7月9日
00130
机器学习笔记 – 基于tensorflow的人类行为检测

一、数据集概述人类行为数据集由外国人工智能工程师收集。我衷心感谢开拓者们的努力。该数据集的难点在于人类行为的多样性和背景的多重干扰，以及较多的类内变异。 [En] The hum…

人工智能 2023年5月24日
0079
Python selenium webdriver 基本使用

系列文章目录 selenium webdriver 的常用示例文章目录系列文章目录 * selenium webdriver 的常用示例前言一、Pip安装&创建Bo…

人工智能 2023年7月18日
0080
中文语音识别数据集总结

目录 OpenSLR国内镜像 1.Free ST Chinese Mandarin Corpus 2.Primewords Chinese Corpus Set 1 3.爱数智慧中…

人工智能 2023年7月28日
0068
关于python3.9版本在anaconda创建好的环境中安装opencv库、skimage库、sklearn库解决方法，同样适用于python3.10

目录问题的由来问题的检测问题的解决总结文件附予我是技术小白，但很愿意与大家分享相同的问题及解决的办法，有误望指点。问题的由来在参与图像去阴影/去噪/去雨滴/修…

人工智能 2023年6月19日
00103
【C++】list容器的基本操作

文章目录 list的介绍 list的使用 * list的构造 list iterator的使用 list capacity list element access list mod…

人工智能 2023年6月26日
0069
[Pandas] 数据迭代

df 1.迭代Series Series本身是一个可迭代的对象，可直接对Series使用for语句来遍历它的值 import pandas as pd df = pd.DataFr…

人工智能 2023年6月11日
0088
Canny边缘检测

; 边缘检测发展 Canny 边缘检测是一种从不同视觉对象中提取有用结构信息并显着减少要处理的数据量的技术。它已广泛应用于各种计算机视觉系统。 Canny 发现，在不同的视觉系统上…

人工智能 2023年6月18日
0053
【十七届恩智浦智能车】平衡单车——控制篇（串级）

【十七届恩智浦智能车】有刷平衡单车——控制篇（串级）写在前面有刷平衡单车全控制 * 单车平衡稳定 – 陀螺仪姿态解算增量式PID和位置式PID 电机串级调试 + …

人工智能 2023年6月24日
00165
安装Keras，tensorflow，并将虚拟环境添加到jupyter notebook

写在面前：最近需要用LSTM，今天开始搭环境，遇到了很多问题，其中主要是两个问题，不太懂装环境的朋友可以注意一下： 1、tensorflow和keras以及numpy等等版本的兼…

人工智能 2023年5月24日
00105
人工智能的三个发展阶段，机器学习问题的主要来源、分类与教学层面

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月2日
0077
手把手解决module ‘tensorflow‘ has no attribute ‘placeholder

1、问题背景：构建神经网络在加入卷积层时出现报错 face_recigntion_model.add(Conv2D(32,3,3,input_shape=(IMAGE_SIZE,I…

人工智能 2023年7月4日
00124
数据分析（5）merge()、groupby()、索引相关操作

1、join:默认情况下他是把行索引相同的数据合并到一起。 merge:按照指定的列把数据按照一定的方式合并到一起。通过merge函数合并两个DataFrame。on代表指明拿什…

人工智能 2023年7月8日
0049

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

进阶版的Pandas数据分析神器：Polars

; 模块的安装与导入

用 Pandas 读取文件

用 Polars 来读取操作文件

填充空值与数据的统计分析

数据的筛选与可视化

推荐文章

技术交流

大家都在看

用 `Pandas` 读取文件

用 `Polars` 来读取操作文件