spark DataFrame 常见操作

2023年6月2日上午5:13 • 人工智能 • 阅读 78

scala;gutter:true; spark dataframe派生于RDD类，但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。 在实际工作中会遇到这样的情况，主要是会进行两个数据集的筛选、合并，重新入库。 首先加载数据集，然后在提取数据集的前几行过程中，才找到limit的函数。 而合并就用到union函数，重新入库，就是registerTemple注册成表，再进行写入到HIVE中。 不得不赞叹dataframe的强大。 具体示例：为了得到样本均衡的训练集，需要对两个数据集中各取相同的训练样本数目来组成，因此用到了这个功能。 scala> val fes = hiveContext.sql(sqlss) fes: org.apache.spark.sql.DataFrame = [caller_num: string, is_sr: int, call_count: int, avg_talk_time: double, max_talk_time: int, min_talk_time: int, called_num_count: int, called_lsd: double, null_called_count: int] scala> val fcount = fes.count() fcount: Long = 4371029 scala> val zcfea = hiveContext.sql(sqls2) zcfea: org.apache.spark.sql.DataFrame = [caller_num: string, is_sr: int, call_count: int, avg_talk_time: double, max_talk_time: int, min_talk_time: int, called_num_count: int, called_lsd: double, null_called_count: int] scala> val zcount = zcfea.count() zcount: Long = 14208117 scala> val f01 = fes.limit(25000) f01: org.apache.spark.sql.DataFrame = [caller_num: string, is_sr: int, call_count: int, avg_talk_time: double, max_talk_time: int, min_talk_time: int, called_num_count: int, called_lsd: double, null_called_count: int] scala> val f02 = zcfea.limit(25000) f02: org.apache.spark.sql.DataFrame = [caller_num: string, is_sr: int, call_count: int, avg_talk_time: double, max_talk_time: int, min_talk_time: int, called_num_count: int, called_lsd: double, null_called_count: int] scala> val ff=f01.unionAll(f02) ff: org.apache.spark.sql.DataFrame = [caller_num: string, is_sr: int, call_count: int, avg_talk_time: double, max_talk_time: int, min_talk_time: int, called_num_count: int, called_lsd: double, null_called_count: int] scala> ff.registerTempTable("ftable01") scala> hiveContext.sql("create table shtrainfeature as select * from ftable01") res1: org.apache.spark.sql.DataFrame = [] 最后附上dataframe的一些操作及用法： DataFrame 的函数 Action 操作 1、 collect() ,返回值是一个数组，返回dataframe集合所有的行 2、 collectAsList() 返回值是一个java类型的数组，返回dataframe集合所有的行 3、 count() 返回一个number类型的，返回dataframe集合的行数 4、 describe(cols: String) 返回一个通过数学计算的类表值(count, mean, stddev, min, and max)，这个可以传多个参数，中间用逗号分隔，如果有字段为空，那么不参与运算，只这对数值类型的字段。例如df.describe("age", "height").show() 5、 first() 返回第一行，类型是row类型 6、 head() 返回第一行，类型是row类型 7、 head(n:Int)返回n行，类型是row 类型 8、 show()返回dataframe集合的值默认是20行，返回类型是unit 9、 show(n:Int)返回n行，，返回值类型是unit 10、 table(n:Int) 返回n行，类型是row 类型 dataframe的基本操作 1、 cache()同步数据的内存 2、 columns 返回一个string类型的数组，返回值是所有列的名字 3、 dtypes返回一个string类型的二维数组，返回值是所有列的名字以及类型 4、 explan()打印执行计划物理的 5、 explain(n:Boolean) 输入值为 false 或者true ，返回值是unit 默认是false ，如果输入true 将会打印逻辑的和物理的 6、 isLocal 返回值是Boolean类型，如果允许模式是local返回true 否则返回false 7、 persist(newlevel:StorageLevel) 返回一个dataframe.this.type 输入存储模型类型 8、 printSchema() 打印出字段名称和类型按照树状结构来打印 9、 registerTempTable(tablename:String) 返回Unit ，将df的对象只放在一张表里面，这个表随着对象的删除而删除了 10、 schema 返回structType 类型，将字段名称和类型按照结构体类型返回 11、 toDF()返回一个新的dataframe类型的 12、 toDF(colnames：String)将参数中的几个字段返回一个新的dataframe类型的， 13、 unpersist() 返回dataframe.this.type 类型，去除模式中的数据 14、 unpersist(blocking:Boolean)返回dataframe.this.type类型 true 和unpersist是一样的作用false 是去除RDD 集成查询： 1、 agg(expers:column) 返回dataframe类型，同数学计算求值 df.agg(max("age"), avg("salary")) df.groupBy().agg(max("age"), avg("salary")) 2、 agg(exprs: Map[String, String]) 返回dataframe类型，同数学计算求值 map类型的 df.agg(Map("age" -> "max", "salary" -> "avg")) df.groupBy().agg(Map("age" -> "max", "salary" -> "avg")) 3、 agg(aggExpr: (String, String), aggExprs: (String, String)) 返回dataframe类型，同数学计算求值 df.agg(Map("age" -> "max", "salary" -> "avg")) df.groupBy().agg(Map("age" -> "max", "salary" -> "avg")) 4、 apply(colName: String) 返回column类型，捕获输入进去列的对象 5、 as(alias: String) 返回一个新的dataframe类型，就是原来的一个别名 6、 col(colName: String) 返回column类型，捕获输入进去列的对象 7、 cube(col1: String, cols: String) 返回一个GroupedData类型，根据某些字段来汇总 8、 distinct 去重返回一个dataframe类型 9、 drop(col: Column) 删除某列返回dataframe类型 10、 dropDuplicates(colNames: Array[String]) 删除相同的列返回一个dataframe 11、 except(other: DataFrame) 返回一个dataframe，返回在当前集合存在的在其他集合不存在的 12、 explode<a href="inputColumn: String, outputColumn: String">A, B</a>(f: (A) ⇒ TraversableOnce[B])(implicit arg0: scala.reflect.api.JavaUniverse.TypeTag[B]) 返回值是dataframe类型，这个将一个字段进行更多行的拆分 df.explode("name","names") {name :String=> name.split(" ")}.show(); 将name字段根据空格来拆分，拆分的字段放在names里面 13、 filter(conditionExpr: String): 刷选部分数据，返回dataframe类型 df.filter("age>10").show(); df.filter(df("age")>10).show(); df.where(df("age")>10).show(); 都可以 14、 groupBy(col1: String, cols: String) 根据某写字段来汇总返回groupedate类型 df.groupBy("age").agg(Map("age" ->"count")).show();df.groupBy("age").avg().show();都可以 15、 intersect(other: DataFrame) 返回一个dataframe，在2个dataframe都存在的元素 16、 join(right: DataFrame, joinExprs: Column, joinType: String) 一个是关联的dataframe，第二个关联的条件，第三个关联的类型：inner, outer, left_outer, right_outer, leftsemi df.join(ds,df("name")===ds("name") and df("age")===ds("age"),"outer").show(); 17、 limit(n: Int) 返回dataframe类型去n 条数据出来 18、 na: DataFrameNaFunctions ，可以调用dataframenafunctions的功能区做过滤 df.na.drop().show(); 删除为空的行 19、 orderBy(sortExprs: Column) 做alise排序 20、 select(cols:string) dataframe 做字段的刷选 df.select($"colA", $"colB" + 1) 21、 selectExpr(exprs: String) 做字段的刷选 df.selectExpr("name","name as names","upper(name)","age+1").show(); 22、 sort(sortExprs: Column) 排序 df.sort(df("age").desc).show(); 默认是asc 23、 unionAll(other:Dataframe) 合并 df.unionAll(ds).show(); 24、 withColumnRenamed(existingName: String, newName: String) 修改列表 df.withColumnRenamed("name","names").show(); 25、 withColumn(colName: String, col: Column) 增加一列 df.withColumn("aa",df("name")).show(); 10、 dropDuplicates(colNames: Array[String]) 删除相同的列返回一个dataframe 这一个写错了吧 dropDuplicates 的官方API： dropDuplicates(scala.collection.Seq colNames) (Scala-specific) Returns a new DataFrame with duplicate rows removed, considering only the subset of columns. distinct的：官方API这么写的： Returns a new DataFrame that contains only the unique rows from this DataFrame. This is an alias for dropDuplicates.

Original: https://www.cnblogs.com/Frank99/p/8295949.html
Author: 拂髯客
Title: spark DataFrame 常见操作

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/559807/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

独家思维导图！让你秒懂李宏毅2020机器学习（一）—— Regression回归

独家思维导图！让你秒懂李宏毅2020机器学习（一）—— Regression回归前言：博主为一名大二本科生，最近决心开始看李宏毅的深度学习系列课程，每学一个阶段决定写篇博客来归纳…

人工智能 2023年6月18日
0093
yolo系列学习笔记—-yolov5

1，概述 YOLOv5的大小仅有 27 MB，而使用 darknet 架构的 YOLOv4 有 244 MB，对比之下小了近 90%，同时在准确度方面又与 YOLOv4 基准相当…

人工智能 2023年7月12日
0066
[图解]cv2.HoughLines() 和 cv2.HoughLinesP()原理和代码

理论如上图,左边a,b固定可以确定一条直线,线是() 组成的集合. 下面从xy空间变化到ab空间,此时给定一个绿点()可以确定一条绿色的线,给定一个蓝点 ()可以确定一条蓝色的线…

人工智能 2023年6月19日
0082
VLookup函数详细教程

Excel数据匹配：VLookup函数详解与实操引言实现效果 Vlookup函数实操提示引言在Excel中如果想要寻找某个数据，那很简单，直接运用Ctrl+F即可找到我们…

人工智能 2023年7月15日
0042
Jetson Nano（十一）Deepstream6.0 + yolov3/v5多路推理配置流程

Jetson Nano下Deepstream6.0 + yolov3/v5多路推理配置流程；并简单记录下deepstream的配置文件。一.环境 JP 4.6.1Deepstre…

人工智能 2023年5月26日
0081
推荐系统实践：基于数据集MovieLens构造简单推荐系统

摘要本文基于 MovieLens 数据集构造了用户-电影项目评价矩阵，并基于评价矩阵计算两用户间的相似度，取出相似度最高的 N 个用户作为候选用户序列。接着筛选出这 N 个候选用…

人工智能 2023年6月19日
0097
双边滤波opencv-python

双边滤波——非线性滤波虽然中值滤波作为典型的低通滤波器，可以在去除噪声的同时能够保护图像边缘。但是当中值滤波也会随着滤波模板的增大，使得图像变得模糊。为了更好的解决既要求去除噪音…

人工智能 2023年7月19日
0061
gensim提取一个句子的关键词_搜索引擎检索：Python和spaCy信息提取简介

概览像Google这样的搜索引擎如何理解我们的查询并提供相关结果？了解信息提取的概念我们将使用流行的spaCy库在Python中进行信息提取介绍作为一个数据科学家，在日常…

人工智能 2023年6月10日
0071
Anaconda创建Pytorch虚拟环境（排坑详细）

目录一.Pytorch虚拟环境简介二.CUDA简介三.Conda配置Pytorch环境 1.conda安装Pytorch环境 2.conda下载安装pytorch包 3.测试…

人工智能 2023年7月24日
0076
缺陷检测公开数据集大全

一、弱监督学习下的工业光学检测（DAGM 2007）数据下载链接：https://hci.iwr.uni-heidelberg.de/node/3616 数据集简介：主要针对纹…

人工智能 2023年6月24日
0087
手势识别（二） – 静态手势动作识别

我公司的科室开始在公众号上规划一些对外的技术文章了，包括实战项目、模型优化、端侧部署和一些深度学习任务基础知识，而我负责人体图象相关技术这一系列文章，偶尔也会出一些应用/代码解读等…

人工智能 2023年7月28日
0082
度量学习和pytorch-metric-learning的使用

度量学习是学习一种特征空间的映射，把特征映射到具有度量属性的空间中，所谓度量属性是指在某种度量距离（可以是欧氏距离、余弦相似性等）下类内距离更小，类间距离更大。有了这种属性之后，就…

人工智能 2023年5月28日
00107
协同过滤算法中是否考虑到时间维度进行推荐？如果是，如何处理

问题背景介绍协同过滤是一种常用的推荐算法，它基于用户之间的相似性或物品之间的相似性来进行推荐。在协同过滤算法中，我们通常考虑用户或物品的相似度计算，但是是否考虑时间维度对推荐的影…

人工智能 2024年1月4日
0035
利用python库 pandas完成数据分析（持续更新中~）

利用python库 pandas完成数据分析导读 Pandas是一个强大的分析结构化数据的工具集，它的使用基础是Numpy（提供高性能的矩阵运算），用于数据挖掘和数据分析，同时也…

人工智能 2023年7月16日
00112
LDA主题模型简介及Python实现

一、LDA主题模型简介 LDA主题模型主要用于推测文档的主题分布，可以将文档集中每篇文档的主题以概率分布的形式给出根据主题进行主题聚类或文本分类。 LDA主题模型不关心文档中单词的…

人工智能 2023年7月3日
0087
matlab入门命令分类集合——适合matlab初学者记忆整理

本文收录了常用的matlab命令，适合matlab初学者分类记忆，加深学习印象。注：本文目的在于为matlab初学者提供命令的分类记忆和参考，不适合小白直接阅读学习。 Conte…

人工智能 2023年7月2日
0076

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

spark DataFrame 常见操作

大家都在看