spark使用udf给dataFrame新增列

2023年6月2日上午7:01 • 人工智能 • 阅读 72

在 spark 中给 dataframe 增加一列的方法一般使用 withColumn

// &#x65B0;&#x5EFA;&#x4E00;&#x4E2A;dataFrame
val sparkconf = new SparkConf()
  .setMaster("local")
  .setAppName("test")
val spark = SparkSession.builder().config(sparkconf).getOrCreate()
val tempDataFrame = spark.createDataFrame(Seq(
  (1, "asf"),
  (2, "2143"),
  (3, "rfds")
)).toDF("id", "content")
// &#x589E;&#x52A0;&#x4E00;&#x5217;
val addColDataframe = tempDataFrame.withColumn("col", tempDataFrame("id")*0)
addColDataframe.show(10,false)

打印结果如下：

+---+-------+---+
|id |content|col|
+---+-------+---+
|1  |asf    |0  |
|2  |2143   |0  |
|3  |rfds   |0  |
+---+-------+---+

可以看到 withColumn 很依赖原来 dataFrame 的结构，但是假设没有 id 这一列，那么增加列的时候灵活度就降低了很多，假设原始 dataFrame 如下：

+---+-------+
| id|content|
+---+-------+
|  a|    asf|
|  b|   2143|
|  b|   rfds|
+---+-------+

这样可以用 udf 写自定义函数进行增加列：

import org.apache.spark.sql.functions.udf
// &#x65B0;&#x5EFA;&#x4E00;&#x4E2A;dataFrame
val sparkconf = new SparkConf()
  .setMaster("local")
  .setAppName("test")
val spark = SparkSession.builder().config(sparkconf).getOrCreate()
val tempDataFrame = spark.createDataFrame(Seq(
  ("a, "asf"),
  ("b, "2143"),
  ("c, "rfds")
)).toDF("id", "content")
// &#x81EA;&#x5B9A;&#x4E49;udf&#x7684;&#x51FD;&#x6570;
val code = (arg: String) => {
      if (arg.getClass.getName == "java.lang.String") 1 else 0
    }

val addCol = udf(code)
// &#x589E;&#x52A0;&#x4E00;&#x5217;
val addColDataframe = tempDataFrame.withColumn("col", addCol(tempDataFrame("id")))
addColDataframe.show(10, false)

得到结果：

+---+-------+---+
|id |content|col|
+---+-------+---+
|a  |asf    |1  |
|b  |2143   |1  |
|c  |rfds   |1  |
+---+-------+---+

还可以写下更多的逻辑判断：

// &#x65B0;&#x5EFA;&#x4E00;&#x4E2A;dataFrame
val sparkconf = new SparkConf()
  .setMaster("local")
  .setAppName("test")
val spark = SparkSession.builder().config(sparkconf).getOrCreate()
val tempDataFrame = spark.createDataFrame(Seq(
  (1, "asf"),
  (2, "2143"),
  (3, "rfds")
)).toDF("id", "content")

val code :(Int => String) = (arg: Int) => {if (arg < 2) "little" else "big"}
val addCol = udf(code)
val addColDataframe = tempDataFrame.withColumn("col", addCol(tempDataFrame("id")))
addColDataframe.show(10, false)

+---+-------+------+
|1  |asf    |little|
|2  |2143   |big   |
|3  |rfds   |big   |
+---+-------+------+

传入多个参数：

val sparkconf = new SparkConf()
  .setMaster("local")
  .setAppName("test")
val spark = SparkSession.builder().config(sparkconf).getOrCreate()
val tempDataFrame = spark.createDataFrame(Seq(
  ("1", "2"),
  ("2", "3"),
  ("3", "1")
)).toDF("content1", "content2")

val code = (arg1: String, arg2: String) => {
  Try(if (arg1.toInt > arg2.toInt) "arg1>arg2" else "arg1<=arg2").getorelse("error") } val compareudf="udf(code)" addcoldataframe="tempDataFrame.withColumn("compare"," compareudf(tempdataframe("content1"),tempdataframe("content2"))) addcoldataframe.show(10, false) < code></=arg2").getorelse("error")>

+--------+--------+----------+
|content1|content2|compare   |
+--------+--------+----------+
|1       |2       |arg1<=arg2| |2 |3 |arg1<="arg2|" |1 |arg1>arg2 |
+--------+--------+----------+
</=arg2|>

Original: https://www.cnblogs.com/TTyb/p/7169148.html
Author: ttyb
Title: spark使用udf给dataFrame新增列

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/560161/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

protege5 本体（2）本体构建入门

写在前面：当不小心关了某界面时，从windows – views或者tabs里找对应的！最终视图：项目流程：1、决定本体的领域和范围2、考虑使用已有的本体（操作参考上…

人工智能 2023年6月1日
0081
李沐——动手学深度学习课后作业

文章目录二、预备知识 * 2.2 数据预处理 2.3 线性代数 2.4 微积分 2.5 自动微分二、预备知识 2.2 数据预处理创建包含更多行和列的原始数据集。删除缺失值最…

人工智能 2023年7月16日
00104
【计算机视觉】简述对KPConv的理解

之前有篇博客介绍了自己对PointConv的理解，那篇文章虽然在某种程度上实现了高效卷积，并且利用了一种注意力的方法（密度加权），但是其分割的效果并不是特别的理想，miou并不是特…

人工智能 2023年5月26日
0053
AI：ModelScope(一站式开源的模型即服务共享平台)的简介、安装、使用方法之详细攻略

AI：ModelScope(一站式开源的模型即服务共享平台)的简介、安装、使用方法之详细攻略导读：ModelScope旨在打造下一代开源的模型即服务共享平台，汇集了行业领先的预…

人工智能 2023年6月23日
00640
BP神经网络

B P BP B P 神经网络的概念 B P BP B P神经网络是一种多层的前馈神经网络，其主要的特点是：信号是前向传播的，而误差是反向传播的。具体来说，BP神经网络的过程主要分…

人工智能 2023年7月14日
0079
贝叶斯统计韦来生课后题答案第三章

第三章常见模型统计参数的后验分布 2.设某校学生的身高（单位：cm)服从N(θ,25),今从该校学生中随机抽取10人测量其身高，其平均高度为 175.34cm,设平均高度θ的先验分…

人工智能 2023年7月15日
00143
蚁群算法解决旅行商问题Python

蚁群算法解决旅行商问题什么是旅行商问题蚁群算法概述代码实现蚁群算法学习视频YouTube：【数之道 04】解决最优路径问题的妙招-蚁群ACO算法什么是旅行商问题旅行商问…

人工智能 2023年7月26日
0046
将Labelme标注的数据做成COCO格式的数据集（实例分割的数据集）

这里说明一下： Labelme标注数据时候是用的多边形框，关于标注，可以看前面的博客文章下面制作的COCO数据集是用于实例分割的数据集。 COCO格式数据集的制作 1、label…

人工智能 2023年5月26日
0082
张量在数据预处理过程中的作用是什么

问题：张量在数据预处理过程中的作用是什么？介绍在数据预处理过程中，张量（tensor）是一种重要的数据结构，用于存储和处理数据。张量是一种多维数组，可以表示各种类型的数据，如图…

人工智能 2024年1月1日
0036
Android音频框架之三用户录音启动流程源码走读 startRecord

此篇是对《Android音频框架之一详解audioPolicy流程及HAL驱动加载》和《Android音频框架之二用户录音启动流程源码走读》的延续，此系列博文是记录在Andr…

人工智能 2023年5月23日
0075
机器学习基础知识

机器学习(Machine Learning) 是让计算机能够自动地从某些数据中总结出规律，并得出某种预测模型，进而利用该模型对未知数据进行预测的方法。它是一种实现人工智能的方式，是…

人工智能 2023年6月16日
0082
【matlab】LSTM/GRU网络回归/分类预测改进与优化合集(持续更新)

【MATLAB】LSTM/GRU网络回归/分类预测问题改进与优化合集(结合2021年新进化算法）#持续更新目录 * 一、进化算法-LSTM 1.金枪鱼算法TSO-LSTM 2.孔…

人工智能 2023年6月17日
00220
手写数字识别（识别纸上手写的数字）

说明使用pytorch框架，实现对MNIST手写数字数据集的训练和识别。重点是，自己手写数字，手机拍照后传入电脑，使用你自己训练的权重和偏置能够识别。数据预处理过程的代码是重点。…

人工智能 2023年6月16日
0071
2022-12-15 c++总结

根据之前学习的进行总结，温故而知新，理解有误请大佬们评论区指正，感谢～基本概念理解在整个代码编译过程中，除了语言上的标准外，对编译的概念理解通透也是必需的： #ifndef T…

人工智能 2023年7月30日
0039
哈工大提出ISTDU-Net:红外小目标检测U型网络

ISTDU-Net：Infrared Small-Target Detection U-Net(代码已开源) 作者单位：哈尔滨工业大学空间光学工程研究中心论文下载链接：https:…

人工智能 2023年7月9日
00127
从NAACL2021到ACL2022：两个信息抽取SOTA的比较分析（PURE vs PL-Marker）

从NAACL2021到ACL2022：两个信息抽取SOTA的比较分析（PURE vs PL-Marker） 1 前文 2 PURE 和 PL-Marker 3 PURE * 3.1…

人工智能 2023年5月27日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

spark使用udf给dataFrame新增列

大家都在看