4.RDD操作

一、 RDD创建

从本地文件系统中加载数据创建RDD

4.RDD操作
* 本地文件系统中加载数据创建RDD

Spark采用textFile()方法来从文件系统中加载数据创建RDD
该方法把文件的URI作为参数,这个URI可以是:
– 本地文件系统的地址
– 或者是分布式文件系统HDFS的地址

4.RDD操作

从HDFS加载数据创建RDD

4.RDD操作
4.RDD操作
4.RDD操作
4. spark内加载文件
4.RDD操作
4.RDD操作

通过并行集合(列表)创建RDD

4.RDD操作

二、 RDD操作

转换操作

  • 对于RDD而言,每一次转换操作都会产生新的RDD,供给下一个”转换”使用
  • 转换得到的RDD是惰性求值的,也就是说,整个转换过程只是记录了转换的轨迹,并不会发生真正的计算,只有遇到行动操作时,才会发生真正的计算,开始从血缘关系源头开始,进行物理的转换操作

操作 含义

filter(func) 筛选出满足函数func的元素,并返回一个新的数据集 map(func) 将每个元素传递到函数func中,并将结果返回为一个新的数据集 flatMap(func) 与map()相似,但每个输入元素都可以映射到0或多个输出结果 groupByKey() 应用于(K,V)键值对的数据集时,返回一个新的(K, Iterable)形式的数据集 reduceByKey(func) 应用于(K,V)键值对的数据集时,返回一个新的(K, V)形式的数据集,其中每个值是将每个key传递到函数func中进行聚合后的结果

filter(func)

4.RDD操作
4.RDD操作

map(func)

  1. 字符串分词
    4.RDD操作
    4.RDD操作
  2. 数字加100
    4.RDD操作
    4.RDD操作
  3. 字符串加固定前缀
    4.RDD操作
    4.RDD操作

flatMap(func)

4.RDD操作
4.RDD操作

reduceByKey()

4.RDD操作
4.RDD操作

groupByKey()

4.RDD操作
4.RDD操作
4.RDD操作

sortByKey()

4.RDD操作

sortBy()

4.RDD操作

行动操作

行动操作是真正触发计算的地方。Spark程序执行到行动操作时,才会执行真正的计算,从文件中加载数据,完成一次又一次转换操作,最终,完成行动操作得到结果。
操作 含义

count() 返回数据集中的元素个数 collect() 以数组的形式返回数据集中的所有元素 first() 返回数据集中的第一个元素 take(n) 以数组的形式返回数据集中的前n个元素 foreach(func) 将数据集中的每个元素传递到函数func中运行 reduce(func) 通过函数func(输入两个参数并返回一个值)聚合数据集中的元素

foreach(func)

  • foreach(print) 4.RDD操作
  • foreach(lambda a:print(a.upper()) 4.RDD操作

collect()

4.RDD操作

count()

4.RDD操作

take(n)

4.RDD操作

reduce()

4.RDD操作
* 与reduceByKey区别 reduceByKey(func)应用于(K,V)键值对的数据集时,返回一个新的(K, V)形式的数据集,其中的每个值是将每个key传递到函数func中进行聚合后得到的结果

Original: https://www.cnblogs.com/DingyLand/p/homework_04_.html
Author: stu(dying)
Title: 4.RDD操作

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/522545/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球