Spark3学习【基于Java】2. Spark-Sql核心概念

2023年6月3日下午6:30 • 大数据 • 阅读 66

从Spark2开始，Spark-SQL引入了SparkSession这个核心类，它是处理DataSet等结构数据的入口。在2.0之前，使用的是spark-core里的SparkContext。从前面的例子里也可以看到，程序一上来就要先创建SparkSession对象：

如果是在Spark-shell中，默认提供了它的一个对象叫spark。

spark-shell&#x662F;&#x7ED9;scala&#x73AF;&#x5883;&#x4F7F;&#x7528;&#x7684;&#x4E00;&#x4E2A;&#x547D;&#x4EE4;&#x884C;&#x8C03;&#x8BD5;&#x5DE5;&#x5177;

SparkSession组合了2.0之前的几种上下文类，比如SQLContext和HiveContext，所以使用这些的地方原则上可以都用SparkSes来代替了。不过其他上下文类依然存在，就像RDD对于DataSet一样，它们依然功能完整操作细腻，比不过是Spark提供了新的API来封装、简化操作。

我们来看一下上面那条创建语句：最后的方法含义清晰，有就返回，没有就创建。master方法用来指明在集群环境下的master是谁。在Standalone 模式下传local或local[n]，n是spark执行任务时的期望分片数。

Resilient Distributed Datasets (RDD) 译成弹性分布式数据集，是Spark中的核心概念。前面说过这个概念现在被Dataset和DataFrame代替了，但它依然存在。由于它的一些”缺点”，导致Spark提供了更高级的API，但是在它之上构建的。

它是一组对象组成的不可变的分布式集合，里面的数据会被分成多个逻辑片在不同的节点上面计算。

在遇到RDD的时候，现在我们通常会将其转化为Dataset和DataFrame，因为DataFrame更好用，它提供了和关系表一样的具名列，更重要的是计算性能也更好。

&#x8F6C;&#x5316;&#x7684;&#x65B9;&#x6CD5;&#x4E5F;&#x5F88;&#x7B80;&#x5355;&#xFF0C;&#x4E4B;&#x524D;&#x6211;&#x4EEC;&#x7528;&#x5230;&#x4E86;&#xFF1A;toDF()&#x3002;

dataset和dataFrame的区别是，dataset的泛型类型是明确的，所以是类型安全的，编译的时候就能检查问题，风格也更接近面向对象。而dataframe的泛型类型是Row，里面有哪些列要主动探知。

因为它们的数据结构是同一个，所以优化方式是一致的：能够利用Catalyst 查询引擎，堆外存储机制等。

Spark&#x7A0B;&#x5E8F;&#x662F;&#x8FD0;&#x884C;&#x4E86;JVM&#x4E0A;&#x7684;&#xFF0C;&#x6240;&#x4EE5;&#x4F1A;&#x6709;&#x5783;&#x573E;&#x56DE;&#x6536;&#x7684;&#x8FC7;&#x7A0B;&#x3002;Spark&#x4E3A;&#x4E86;&#x4E0D;&#x5BF9;&#x8BA1;&#x7B97;&#x6570;&#x636E;&#x8FDB;&#x884C;GC&#x626B;&#x63CF;&#xFF0C;&#x901A;&#x8FC7;Unsafe&#x7C7B;&#x4F7F;&#x7528;&#x4E86;&#x975E;&#x5806;&#x5185;&#x5B58;

编码器是用来将Java对象转化为Spark的二进制格式的，我们前面的例子里也用了一些内置的编码器，非常方便但是不好看。

上面说了spark使用了堆外内存，所以会涉及大量的数据序列化。Spark提供的编码器有一个强大的地方是，不用反序列化就能访问属性。

Original: https://www.cnblogs.com/somefuture/p/15637298.html
Author: 老魏去东
Title: Spark3学习【基于Java】2. Spark-Sql核心概念

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/565582/

转载文章受原作者版权保护。转载请注明原作者出处！

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Spark3学习【基于Java】2. Spark-Sql核心概念

大家都在看