转】Spark SQL 之 DataFrame

2023年6月2日上午6:48 • 人工智能 • 阅读 63

Spark SQL是Spark的一个组件，用于结构化数据的计算。Spark SQL提供了一个称为DataFrames的编程抽象，DataFrames可以充当分布式SQL查询引擎。

DataFrame是一个分布式的数据集合，该数据集合以命名列的方式进行整合。DataFrame可以理解为关系数据库中的一张表，也可以理解为R/Python中的一个data frame。DataFrames可以通过多种数据构造，例如：结构化的数据文件、hive中的表、外部数据库、Spark计算过程中生成的RDD等。
DataFrame的API支持4种语言：Scala、Java、Python、R。

入口：SQLContext（Starting Point: SQLContext）

Spark SQL程序的主入口是SQLContext类或它的子类。创建一个基本的SQLContext，你只需要SparkContext，创建代码示例如下：

Scala
Java

除了基本的SQLContext，也可以创建HiveContext。SQLContext和HiveContext区别与联系为：

SQLContext现在只支持SQL语法解析器（SQL-92语法）
HiveContext现在支持SQL语法解析器和HiveSQL语法解析器，默认为HiveSQL语法解析器，用户可以通过配置切换成SQL语法解析器，来运行HiveSQL不支持的语法。
使用HiveContext可以使用Hive的UDF，读写Hive表数据等Hive操作。SQLContext不可以对Hive进行操作。
Spark SQL未来的版本会不断丰富SQLContext的功能，做到SQLContext和HiveContext的功能容和，最终可能两者会统一成一个Context

HiveContext包装了Hive的依赖包，把HiveContext单独拿出来，可以在部署基本的Spark的时候就不需要Hive的依赖包，需要使用HiveContext时再把Hive的各种依赖包加进来。

SQL的解析器可以通过配置spark.sql.dialect参数进行配置。在SQLContext中只能使用Spark SQL提供的”sql”解析器。在HiveContext中默认解析器为”hiveql”，也支持”sql”解析器。

创建DataFrames（Creating DataFrames）

使用SQLContext，spark应用程序（Application）可以通过RDD、Hive表、JSON格式数据等数据源创建DataFrames。下面是基于JSON文件创建DataFrame的示例：

Scala
Java

DataFrame操作（DataFrame Operations）

DataFrames支持Scala、Java和Python的操作接口。下面是Scala和Java的几个操作示例：

Scala
Java

运行SQL查询程序（Running SQL Queries Programmatically）

Spark Application可以使用SQLContext的sql()方法执行SQL查询操作，sql()方法返回的查询结果为DataFrame格式。代码如下：

Scala
Java

DataFrames与RDDs的相互转换（Interoperating with RDDs）

Spark SQL支持两种RDDs转换为DataFrames的方式：

使用反射获取RDD内的Schema
当已知类的Schema的时候，使用这种基于反射的方法会让代码更加简洁而且效果也很好。
通过编程接口指定Schema
通过Spark SQL的接口创建RDD的Schema，这种方式会让代码比较冗长。
这种方法的好处是，在运行时才知道数据的列以及列的类型的情况下，可以动态生成Schema

Spark SQL支持将JavaBean的RDD自动转换成DataFrame。通过反射获取Bean的基本信息，依据Bean的信息定义Schema。当前Spark SQL版本（Spark 1.5.2）不支持嵌套的JavaBeans和复杂数据类型（如：List、Array）。创建一个实现Serializable接口包含所有属性getters和setters的类来创建一个JavaBean。通过调用createDataFrame并提供JavaBean的Class object，指定一个Schema给一个RDD。示例如下：

当JavaBean不能被预先定义的时候，编程创建DataFrame分为三步：

从原来的RDD创建一个Row格式的RDD
创建与RDD中Rows结构匹配的StructType，通过该StructType创建表示RDD的Schema
通过SQLContext提供的createDataFrame方法创建DataFrame，方法参数为RDD的Schema

示例如下：

Original: https://www.cnblogs.com/zlslch/p/6041020.html
Author: 大数据和ai躺过的坑
Title: 转】Spark SQL 之 DataFrame

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/560087/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pandas.read_csv() 处理 CSV 文件的 6 个有用参数

pandas.read_csv 有很多有用的参数，你都知道吗？本文将介绍一些 pandas.read_csv()有用的参数，这些参数在我们日常处理CSV文件的时候是非常有用的。 p…

人工智能 2023年7月16日
0055
Tensorflow神经网络模型训练之Fashion Mnist

人工智能 2023年5月26日
0068
【图分析】逼近（Approximation）

目录 * – Connectivity – K-Components – Clique,apx-maximum independent set …

人工智能 2023年6月1日
0087
一次性彻底讲透 Python 中 pd.concat 与 pd.merge

数据的合并与关联是数据处理过程中经常遇到的问题，在SQL、HQL中大家可能都有用到 join、uion all 等，在 Pandas 中也有同样的功能，来满足数据处理需求，个人感…

人工智能 2023年7月14日
0036
YOLOV5超参数设置与数据增强解析

1、YOLOV5的超参数配置文件介绍 YOLOv5有大约30个超参数用于各种训练设置。它们在*xml中定义。/data目录下的Yaml文件。更好的初始猜测将产生更好的最终结果，因此…

人工智能 2023年7月30日
0055
GoogLeNet网络结构详解

GoogLeNet网络结构详解毋论版本，重在结构 Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott…

人工智能 2023年5月26日
0056
数据挖掘学习笔记4-神经网络

一、感知机（单层神经网络）采用梯度下降（gradient descend）方法进行训练，wi = wi – η Σ （t – o）xi单层神经网络无法处理线…

人工智能 2023年7月17日
0049
【建模算法】TOPSIS法（Python实现）

【建模算法】TOPSIS法（Python实现） Topsis法，全称为Technique for Order Preference by Similarity to an Idea…

人工智能 2023年7月17日
0052
决策树和随机森林、交叉验证

决策树是一种监督学习方法，能从有特征和标签的数据中总结出决策规则，并用树状图来呈现这些规则，以此解决分类和回归问题。决策树算法的两个核心问题如何从数据表中找出最佳节点和最佳分支如…

人工智能 2023年6月16日
0093
基于pytorch用yolov5算法实现目标检测与分割

适合新手入门玩一下目标的检测和分割，大概了解yolov5算法的一些基本操作。 1.1 课题背景目标检测的目的是判断在单张图片或者连续图片（视频）中，感兴趣的单个或者多个物体是否…

人工智能 2023年7月6日
0076
R语言计算欧几里得距离（Euclidean Distance）实战：两个向量的欧几里得距离、dataframe两个数据列的欧几里得距离

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月28日
0055
来自给大一新生的分享会——如何更好的学习专业知识

此文来自给学院大一的同学的分享~ 1 自我介绍全民制作人们大家好，我是练习时长两年半的个人练习生Barry Yan，喜欢唱、跳、Coding、羽毛球、写作，Music！因为近期…

人工智能 2023年6月26日
0066
2022 AI 岗位风向标

原创：晏茜资料来源：单博 ; 1. AI 算法岗能力需求 1.1 人工智能现在在哪里？人工智能无处不在，它早已融入我们日常生活的方方面面，人工智能的出现，彻底改变人们的工作和生活…

人工智能 2023年7月17日
0070
Amos初识及结构方程

想要学习更多SPSS、AMOS、R等软件操作，请关注”数据分析成长记”微信公众号，更多精彩文章等你来读！ Amos初识及结构方程 Amos的应用范围很广，主…

人工智能 2023年6月18日
00133
OpenCV57:级联分类器的训练

目的在本章中，将学习：级联分类器的训练过程学习函数： opencv_createsamples opencv_annotation opencv_traincascade o…

人工智能 2023年7月20日
0055
简单介绍一下tensorflow与pytorch的相互转换（主要是tensorflow转pytorch）

本文以一段代码为例，简单介绍一下tensorflow与pytorch的相互转换（主要是tensorflow转pytorch），可能介绍的没有那么详细，仅供参考。由于本人只熟悉py…

人工智能 2023年5月26日
0075

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30