pyspark dataframe的常用操作

2023年7月9日上午12:54 • 人工智能 • 阅读 65

1、列重命名：

train_data = train_data.toDF('imei', 'pkgName', 'timestamp')

2、删除某一列：

df = df.drop('col')

3、选取list中指定的列：

df = spark_session.createDataFrame(
    [(1, 1.0, 5), (1, 2.0, 7), (2, 3.0, 9), (2, 5.0, 11), (2, 10.0, 13)],
    ("id", "v", 'c'))

df.show(5)

sel_list = ['id', 'c']

df.select(*sel_list).show()

4.1、自定义函数，使用udf，而且有多个输入量：

from pyspark.sql.functions import *
from pyspark.sql.types import *
from pyspark.sql.functions import udf
from pyspark.sql.types import IntegerType,StringType

def get_hours(cur_day, cur_hour):
    return cur_day * 24 + cur_hour

get_hours_udf = udf(get_hours,IntegerType())

train_data2 = train_data2.withColumn('hours',get_hours_udf(train_data2['day'],train_data2["hour"]))

4.2 自定义函数，基于pandas_udf。这里基于的是Pyspark2。需要安装pyarrow==0.14.1（需要指定版本，太高了不一定行）

import pandas as pd
from pyspark.sql.functions import col, pandas_udf
from pyspark.sql.types import LongType

df = spark_session.createDataFrame(
    [(1, 1.0), (1, 2.0), (2, 3.0), (2, 5.0), (2, 10.0)],
    ("id", "v"))

df.show(5)

@pandas_udf(LongType())     #输入一列。这种是返回Series的方法
def multiply_func1(all_data):
    def helper(input_data):
        return input_data * input_data
    res = [helper(d) for d in all_data]
    return pd.Series(res)

@pandas_udf(LongType())   #输入两列。这种是直接搞函数的方法。更加推荐这种写法
def multiply_func2(all_data1, all_data2):
    return all_data1 * all_data2 + 5

df = df.withColumn('test1', multiply_func1(col("v"))   )
df.show()
df = df.withColumn("ss2", multiply_func2((col("v")), col("test1")))
df.show()

输出如下：

+---+----+
| id|   v|
+---+----+
|  1| 1.0|
|  1| 2.0|
|  2| 3.0|
|  2| 5.0|
|  2|10.0|
+---+----+

+---+----+----+
| id|   v|test|
+---+----+----+
|  1| 1.0|   1|
|  1| 2.0|   4|
|  2| 3.0|   9|
|  2| 5.0|  25|
|  2|10.0| 100|
+---+----+----+

+---+----+----+----+
| id|   v|test|   t|
+---+----+----+----+
|  1| 1.0|   1|   1|
|  1| 2.0|   4|   8|
|  2| 3.0|   9|  27|
|  2| 5.0|  25| 125|
|  2|10.0| 100|1000|
+---+----+----+----+

注：如果如果输入或者输出包括String类型，似乎只能用返回Series的形式：

import pandas as pd
from pyspark.sql.functions import col, pandas_udf
from pyspark.sql.types import LongType

df = spark_session.createDataFrame(
    [(1, 1.0), (1, 2.0), (2, 3.0), (2, 5.0), (2, 10.0)],
    ("id", "v"))

df.show(5)

@pandas_udf(StringType())     #&#x8F93;&#x5165;&#x4E00;&#x5217;&#x3002;&#x8FD9;&#x79CD;&#x662F;&#x8FD4;&#x56DE;Series&#x7684;&#x65B9;&#x6CD5;
def multiply_func1(all_data):
    return str(all_data * 2)

df = df.withColumn('test1', multiply_func1(col("v"))   )
df.show()
df = df.withColumn("ss2", multiply_func2((col("v")), col("test1")))
df.show()

#&#x62A5;&#x9519;

import pandas as pd
from pyspark.sql.functions import col, pandas_udf
from pyspark.sql.types import LongType

df = spark_session.createDataFrame(
    [("1", 1.0), ("1", 2.0), ("2", 3.0), ("2", 5.0), ("2", 10.0)],
    ("height", "v"))

df.show(5)

@pandas_udf(IntegerType())     #输入一列。这种是返回Series的方法
def multiply_func1(all_data):
    return int(all_data)

df.withColumn('v', multiply_func1(col("height"))).show()  #不报错
df.withColumn('test1', multiply_func1(col("height"))).show()  #报错

5、groupby聚合并拼接：

from pyspark.sql.functions import window, column, desc, col,collect_list

u1 = train_data2.groupBy(['user','hour','day']).agg(collect_list(train_data2["pkgName"])).alias('pkgName_list')

#还有collect_set

6、列数据类型转换：


data_df = data_df.withColumn("APP_HOBY_CASH_LOAN", data_df["APP_HOBY_CASH_LOAN"].cast(StringType()))

7、从pyspark dataframe中抽取符合某条件的对象

train_data2= train_data.filter(train_data.day == "2020-05-04")

8、pyspark DataFrame存入hive的某个分区中

spark_df = spark_df.withColumn("day", F.lit("2021-11-11"))
spark_df.write.saveAsTable("DB.table", format="hive", mode="overwrite", partitionBy="day")
#DB.table为预期保存在数仓的位置和名称，day为分区。这样即可做到把2021-11-11的数据存在了指定分区

9、pyspark DataFrame将用分隔符分割的列表转换为vector（形如将13586*2变成1,3,5,8,6,2的vector）

from pyspark.ml.linalg import VectorUDT, Vectors

from pyspark.sql.functions import udf, col
from pyspark.sql.types import ArrayType, DoubleType,FloatType

#这里假定data_df的user_vector中每一列是形如1*3*5*8*6*2的string

def get_vector(user_vector_string):
    res = []
    u1 = user_vector_string.split("*")
    for u in u1:
        res.append(float(u))

    return res

get_vector_udf = udf(get_vector, ArrayType(FloatType()))
data_df2 = data_df.withColumn("vector", get_vector_udf(data_df['user_vector']))

list_to_vector_udf = udf(lambda l: Vectors.dense(l), VectorUDT())
data_df3= data_df2.withColumn("features",  list_to_vector_udf(data_df2['vector']))

#之后就可以对features中的值进行操作，比如kmeans聚类等

10、pyspark DataFrame，列名批量重新命名

res_col_list = [...,...,...,] #需要的列名

data_df = data_df.toDF(*res_col_list)

11、pyspark DataFrame，在udf中输入参数

from pyspark.sql import functions as F

#此函数的含义为用fill_data替换-7。
def nan_data_process_udf(fill_data):
    def nan_data_process(col_data, fill_data):
        if int(col_data) == -7:
            return fill_data
        else:
            return col_data

    return F.udf(lambda x: nan_data_process(x, fill_data))

#然后：
data_df = data_df.withColumn(cur_col, nan_data_process_udf(cur_avg)(F.col(cur_col)))
#其中cur_avg就是输入的入参

12、pyspark，选取某个list中的列

columns = ['home','house','office','work']

#select the list of columns
df_tables_full.select('time_event','kind','schema','table',*columns).show()

df_tables_full = df_tables_full.select('time_event','kind','schema','table',*columns)

Pyspark 3 专用的

1、使用apply处理，且在原来的基础上增加一列

import pyspark.pandas as ps

def func(s) -> str:
    return str(s) + "100"

df = ps.DataFrame({'A': range(10)})

#注意这里的df，是，而传统的从csv读取的dataFrame，是##。因此对于后者，需要调用.to_pandas_on_spark() 方#法进行转换。

print(df.head(5))
res = df.A.apply(func)
print(res)
print(type(res))
res.name = "func"  #重命名结果列
df = df.join(res)
print(df.head(5))

输出：
   A
0  0
1  1
2  2
3  3
4  4
   A  func
0  0  0100
1  1  1100
3  3  3100
2  2  2100
5  5  5100

Original: https://blog.csdn.net/leokingszx/article/details/114364273
Author: 码破苍穹
Title: pyspark dataframe的常用操作

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/679652/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

机器学习笔记（24）一种简单的半监督目标检测框架（1）

早上起来洗漱，昨晚没睡好，晕晕乎乎的，洗着洗着脑子中突然出现了下面的图2，这是很久之前看到的论文了，可能是因为最近看了些半监督学习的东西，就想起了这篇论文。忙里偷闲，翻译一下。首…

人工智能 2023年7月12日
0091
Python 斑点检测 SimpleBlobDetector

OpenCV 常用函数斑点检测 SimpleBlobDetector_create 定义斑点是指二维图像中和周围颜色有颜色差异和灰度差异的区域,因为斑点代表的是一个区域,所以其…

人工智能 2023年7月18日
0050
CVPR2022: Oriented RepPoints论文模型实践（用dota数据集）

CVPR2022: Oriented RepPoints论文模型实践（用dota数据集）论文：https://arxiv.org/abs/2105.11111github：htt…

人工智能 2023年7月6日
0045
uie模型微调个人总结

技巧：六月三十号补充，uie处理3000字的政策文件要占用12G左右的内存，uie处理一万字的文件时运行巅峰要占用28G左右内存，各位部署时，注意out of memory的错误…

人工智能 2023年6月25日
0075
OpenCV基础操作_视频读取

1.1 cv2. VideoCapture () 在OpenCV中，可以使用 VideoCapture来读取视频文件，或是摄像头数据。 Python: cv2. VideoCapt…

人工智能 2023年7月27日
0045
mmdetection2.11.0 模型测试评估及计算各个类别的map

1. 计算各个类别的map 1.1 方法1: 直接计算, 仅支持voc 数据集与 custom 数据集使用如下命令直接计算各个分类的map , 使用的图片为 config 配置中…

人工智能 2023年6月17日
00115
语音信号处理-概念（二）：幅度谱（短时傅里叶变换谱/STFT spectrum）、梅尔谱（Mel spectrum）【语音的深度学习主要用幅度谱、梅尔谱】【用librosa或torchaudio提取】

语音的深度学习使用了什么样的频谱？ [En] What kind of spectrum is used in the in-depth learning of speech? 答…

人工智能 2023年5月25日
0094
使用tensorflow神经网络预测房价模型

本例使用kaggle的”House Sales in King County, USA”数据集，共有21613笔房屋数据，每一笔数据有21个不同的信息，如图…

人工智能 2023年5月23日
0093
字典和dataFrame的相互转换

字典和dataFrame的相互转换一、字典转dataFrame 1、字典转dataFrame比较简单，直接给出示例： import pandas as pd dic = { ‘n…

人工智能 2023年7月18日
0053
DLA模型(分类模型+改进版分割模型) + 可变形卷积

Deep Layer Aggregation (DLA) 是一种网络特征融合方法，发表于CVPR 2018。相比传统串联的卷积网络，其典型特点是实现了不同层级的深度融合，相比目标检…

人工智能 2023年6月30日
0080
python数据分析 – 如何探索数据

python数据分析 1.数据的组成 * 1.1 非结构化数据 1.2 结构化数据 1.3 矩形数据 1.4 非矩形数据 2.位置估计 * 2.1 均值 2.2 中位数和稳健估计量…

人工智能 2023年7月17日
0035
【自然语言处理】【知识图谱】知识图谱表示学习(五)：【PairRE】基于成对关系向量的知识图谱嵌入

原始论文：https://arxiv.org/pdf/2011.03798.pdf 一、简介基于距离的知识图谱嵌入方法在链接预测任务上效果显著。在链接预测任务中，存在两个被广…

人工智能 2023年6月1日
0041
计算机视觉 – 图像增强应用实践 (基础篇）C++ OpenCV

环境配置我之前是跟着B站的一个UP主弄的：VS2019-Opencv4.5.2安装教程（win11上安装跟win10系统安装没有任何区别）_哔哩哔哩_bilibili （但是不知道…

人工智能 2023年6月18日
0070
06-TensorFlow 自制数据集

1.数据文件介绍数据集下载:https://download.csdn.net/download/qq_41865229/85254826训练集60000张数字图片, 测试集10…

人工智能 2023年5月24日
0086
OpenCV（十一）图像滤波(平滑处理)（平均、中值、高斯、双边滤波）

目录一、基础理论 1、图像噪声 1-1、椒盐噪声 1-2、高斯噪声 2、滤波 3、线性滤波 1、概述 2、线性滤波原理：二、均值滤波（cv::blur()）（简单滤波） 1、原…

人工智能 2023年6月20日
0099
微信小程序开发开启

小程序和普通网页开发的区别 1.运行环境不同小程序是运行在微信环境中，而网页是运行在浏览器环境中。 2.API不同由于运行环境不同，所以小程序中，无法调用DOM和BOM的API…

人工智能 2023年7月31日
0043

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

pyspark dataframe的常用操作

大家都在看