PySpark和SQL中的pivot 最佳实践

2023年7月7日下午6:25 • 人工智能 • 阅读 58

例子及pivot参数介绍

【例1】如下表，将A表为3个用户在不同时间戳下的不同类型的交互，现在想统计每个用户在A表中每种行为的次数，如表B（B表通常在作为训练特征的一个统计类因子，或作为用户偏好的一个预处理因子）。

常规做法是，使用 groupby然后 case when过滤每个想要的行为。但使用 pivot就会方便很多。

pyspark.sql.GroupedData.pivot有两个参数：

pivot_col：要被pivot的列名，如A表中的 action
values：将要被转换为输出的DataFrame的列名列表。

我们以上述的【例1】为例，通过代码来看一下 pivot的用法及输出结果。

; 代码实践

首先，创建A的Spark DataFrame形式：


from pyspark.sql import SparkSession
import pyspark.sql.functions as F
spark=SparkSession.builder.appName("wrs_20220926A").enableHiveSupport().getOrCreate()
sc = spark.sparkContext

mydict = dict()
mydict['uid'] = ['Jack','Jack','Jack','Jack','Jack',
                 'Mary','Mary',"Mary","Mary",
                 'Andy','Andy','Andy','Andy']
mydict['action'] = ['click','click','like','click','share',
                    'click','share','click',"order",
                    'click','like','click','like']
mydict['date'] = ["2022-09-26","2022-09-27","2022-09-27","2022-09-28","2022-09-28",
                  "2022-09-28","2022-09-28","2022-09-29","2022-09-29",
                  "2022-09-30","2022-09-30","2022-09-30","2022-09-30"]
df_A = spark.createDataFrame(pd.DataFrame(mydict))

dfA.show()&#x53EF;&#x4EE5;&#x67E5;&#x770B;A&#x7684;&#x5185;&#x5BB9;&#x3002;
+----+------+----------+
| uid|action|      date|
+----+------+----------+
|Jack| click|2022-09-26|
|Jack| click|2022-09-27|
|Jack|  like|2022-09-27|
|Jack| click|2022-09-28|
|Jack| share|2022-09-28|
|Mary| click|2022-09-28|
|Mary| share|2022-09-28|
|Mary| click|2022-09-29|
|Mary| order|2022-09-29|
|Andy| click|2022-09-30|
|Andy|  like|2022-09-30|
|Andy| click|2022-09-30|
|Andy|  like|2022-09-30|
+----+------+----------+

其次，进行pivot操作。因为我们在uid维度对action进行统计，因此需要先对uid进行groupby生成GroupData，然后调用pivot并传入相应参数生成想要的矩阵B：

df_B = df_A.groupby("uid") \
           .pivot(pivot_col='action', values=['click', 'like', 'share', 'order']) \
           .count().fillna(0)

dfB.show()&#x53EF;&#x4EE5;&#x67E5;&#x770B;B&#x7684;&#x5185;&#x5BB9;&#x3002;
+----+-----+----+-----+-----+
| uid|click|like|share|order|
+----+-----+----+-----+-----+
|Andy|    2|   2|    0|    0|
|Jack|    3|   1|    1|    0|
|Mary|    2|   0|    1|    1|
+----+-----+----+-----+-----+

注意，代码中使用了fillna，因为pivot对于没有值的元素，会填充null。

结尾语

至此，pyspark.sql.GroupedData.pivot的介绍已经结束，由于我的集群不支持SQL版本的pivot，因此在此出放了SQL Server的相应代码：SQL Server PIVOT

但是通过官方文档可以发现，最新版的spark3.0支持直接对DataFrame进行pivot操作，并配有相关demo，可以尝试学习一下。
■ \blacksquare ■

Original: https://blog.csdn.net/u012762410/article/details/127048557
Author: November丶Chopin
Title: PySpark和SQL中的pivot 最佳实践

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/676822/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

今年，我只赚了一点点

大家好，我是 Jack。之前一直有小伙伴问我，有没有免费的股票信息查询的 API 接口？我看了一圈，很多免费的 API 接口都年久失修，失效了。那好吧，咱自己写一个。想要…

人工智能 2023年7月30日
0048
自动驾驶算法详解(1) : Apollo路径规划 Piecewise Jerk Path Optimizer的python实现

本文作为 Apollo Planning决策规划代码详细解析系列文章的补充，将使用Python代码以及anaconda环境，来实现Apollo 决策规划Planning 模块里的 …

人工智能 2023年7月27日
0065
CAU SUBMISSION TO DCASE 2021 TASK6: TRANSFORMER FOLLOWED BY TRANSFER LEARNING FOR AUDIO CAPTIONING

Abstract & Introduction & Related Work 研究任务 AAC（自动音频字幕）已有方法和相关工作面临挑战创新思路使用预训练模…

人工智能 2023年5月23日
0089
res2net

res2net是我目前各个项目中几乎是应用最广的backbone，无论是直接用来做分类任务，还是用来做图片的特征提取，这篇文章写的也很简单，理论上就一条充分利用多尺度信息，主要走实…

人工智能 2023年6月24日
0077
注意力机制：pytorch实现

注意力机制：pytorch实现查询（queries），键（keys）和值（Values）查询、键和值是注意力机制的基本三个关键词，注意力评分函数则是注意力机制建立的主要方式，注…

人工智能 2023年7月21日
0050
商务蓝牙耳机什么牌子的好？商务通话蓝牙耳机推荐

随着时代的发展，人们对自我享受的要求越来越高，宁可静下心来听音乐，也好过和三个朋友约会。当然，良好的享受需要性价比高的设备。如果你也想体验蓝牙耳机带来的安静纯粹的享受，这里有4款蓝…

人工智能 2023年5月25日
0063
Yolov5实例分割Tensorrt部署实战

0.引言 ultralytics在yolov5的6.2版本发布了实例分割模型，可实现快速实例分割，采用官方v5s-seg.pt效果如下图所示：本博客将以此为基础，开发c++版本的…

人工智能 2023年6月29日
0072
双目立体匹配入门【一】（理论）

文章目录 * – 参考文章 – 1 专有名词 – 2 双目视觉基础 – + 1 针孔摄像机模型 + 2 双目交会 + 3 立体测量的…

人工智能 2023年5月28日
0091
电影分析案例-分析导演、演员拍电影盈利和票房（2021/07/25）

次案例主要是对数据计算的应用。如题，数据还是movie数据，分别通过以下指标分析导演和演员的盈利能力 1.计算导演的总票房gross，排名 2.计算导演的总利润gross-bud…

人工智能 2023年7月9日
0065
直播预告 | AAAI 2022：融入知识图谱的分子对比学习

「AI Drive」是由 biendata 和 PaperWeekly 共同发起的学术直播间，旨在帮助更多的青年学者宣传其最新科研成果。我们一直认为，单向地输出知识并不是一个最…

人工智能 2023年6月1日
0065
半监督学习的数据预处理步骤有哪些

半监督学习的数据预处理步骤详解半监督学习是一种机器学习方法，其尝试在拥有小量标记数据和大量未标记数据的情况下进行模型训练。数据预处理是在使用半监督学习方法时必不可少的步骤，因为它…

人工智能 2024年1月1日
0031
快速学完OpenCV+python计算机视觉图像处理（四）

返回主目录 4 图像基本特效 4-1 图像特效介绍图像特效分为以下几个，分别是：灰度处理底板效果马赛克毛玻璃效果图像融合图片蓝色边缘检测浮雕效果 4-2 图像灰度…

人工智能 2023年6月18日
00114
【机器学习】9种回归算法及实例总结，建议学习收藏

我相信很多人跟我一样，学习机器学习和数据科学的第一个算法是线性回归，它简单易懂。由于其功能有限，它不太可能成为工作中的最佳选择。大多数情况下，线性回归被用作基线模型来评估和比较研究…

人工智能 2023年7月26日
0054
人工智能历史与研究

一、人工智能简介人工智能（英语：Artificial Intelligence，缩写为AI）亦称智械、机器智能，指由人制造出来的机器所表现出来的智能。通常人工智能是指通过普通计算机…

人工智能 2023年5月25日
0081
谐云课堂 | 浅谈智能语音技术在双录质检中的应用

01 双录质检场景介绍什么是双录？ “双录”是指对银行销售的每笔理财产品的过程进行录音和录像。双录的意义通过双录，可以实现对金融产品和代销的监管不存在真…

人工智能 2023年5月25日
0064
机器学习之回归

近期阅读了《白话机器学习的数学》，为了将所读的内容充分理解消化，故将整理一系列文章，该篇是上一篇文章的续篇。 1.设置问题基于广告费预测网站的点击量定义模型假设点击量只与广告…

人工智能 2023年6月18日
0038

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

PySpark和SQL中的pivot 最佳实践

目录

例子及pivot参数介绍

; 代码实践

结尾语

大家都在看