一、 RDD创建
从本地文件系统中加载数据创建RDD
* 本地文件系统中加载数据创建RDD
Spark采用textFile()方法来从文件系统中加载数据创建RDD
该方法把文件的URI作为参数,这个URI可以是:
– 本地文件系统的地址
– 或者是分布式文件系统HDFS的地址
从HDFS加载数据创建RDD
4. spark内加载文件
通过并行集合(列表)创建RDD
二、 RDD操作
转换操作
- 对于RDD而言,每一次转换操作都会产生新的RDD,供给下一个”转换”使用
- 转换得到的RDD是惰性求值的,也就是说,整个转换过程只是记录了转换的轨迹,并不会发生真正的计算,只有遇到行动操作时,才会发生真正的计算,开始从血缘关系源头开始,进行物理的转换操作
操作 含义
filter(func) 筛选出满足函数func的元素,并返回一个新的数据集 map(func) 将每个元素传递到函数func中,并将结果返回为一个新的数据集 flatMap(func) 与map()相似,但每个输入元素都可以映射到0或多个输出结果 groupByKey() 应用于(K,V)键值对的数据集时,返回一个新的(K, Iterable)形式的数据集 reduceByKey(func) 应用于(K,V)键值对的数据集时,返回一个新的(K, V)形式的数据集,其中每个值是将每个key传递到函数func中进行聚合后的结果
filter(func)
map(func)
- 字符串分词
- 数字加100
- 字符串加固定前缀
flatMap(func)
reduceByKey()
groupByKey()
sortByKey()
sortBy()
行动操作
行动操作是真正触发计算的地方。Spark程序执行到行动操作时,才会执行真正的计算,从文件中加载数据,完成一次又一次转换操作,最终,完成行动操作得到结果。
操作 含义
count() 返回数据集中的元素个数 collect() 以数组的形式返回数据集中的所有元素 first() 返回数据集中的第一个元素 take(n) 以数组的形式返回数据集中的前n个元素 foreach(func) 将数据集中的每个元素传递到函数func中运行 reduce(func) 通过函数func(输入两个参数并返回一个值)聚合数据集中的元素
foreach(func)
- foreach(print)
- foreach(lambda a:print(a.upper())
collect()
count()
take(n)
reduce()
* 与reduceByKey区别 reduceByKey(func)应用于(K,V)键值对的数据集时,返回一个新的(K, V)形式的数据集,其中的每个值是将每个key传递到函数func中进行聚合后得到的结果
Original: https://www.cnblogs.com/DingyLand/p/homework_04_.html
Author: stu(dying)
Title: 4.RDD操作
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/522545/
转载文章受原作者版权保护。转载请注明原作者出处!