5.RDD操作综合实例

2023年6月3日下午2:12 • 大数据 • 阅读 72

一、词频统计

A. 分步骤实现

准备文件

下载小说或长篇新闻稿

上传到hdfs上

读文件创建RDD

>>> lines = sc.textFile("hdfs://localhost:9000/user/hadoop/my.txt")

>>> lines

分词

words = lines.flatMap(lambda a:a.split())

预处理

排除大小写lower()，map()

words2 = words.map(lambda a:a.lower())
words2.collect()

标点符号re.split(pattern,str)，flatMap()

import re
words3 = words2.flatMap(lambda a:re.split('\W+', a))
words3.collect()

words3 = words3.flatMap(lambda a:a.split())
words3.collect()

停用词,可网盘下载stopwords.txt,filter()

stopword = sc.textFile('stopwords.txt').flatMap(lambda a:a.split()).collect()
stopword

words4 = words3.filter(lambda a:a not in stopword)
words4.collect()

除去长度小于2的词 filter()

words5 = words4.filter(lambda a:len(a)>2)
words5.collect()

统计词频

// &#x5C06;&#x5404;&#x4E2A;&#x5355;&#x8BCD;&#x7EDF;&#x8BA1;&#x7ED3;&#x679C;&#x8F6C;&#x6362;&#x6210;&#x952E;&#x503C;&#x5BF9;
wordKV = words5.map(lambda word:(word,1))
wordKV.collect()

// &#x518D;&#x5C06;value&#x8FDB;&#x884C;&#x7D2F;&#x52A0;&#xFF0C;&#x628A;&#x76F8;&#x540C;Key&#x7684;value&#x8FDB;&#x884C;&#x7D2F;&#x52A0;
wc = wordKV.reduceByKey(lambda x,y:x+y)
wc.collect()

按词频排序

wcSort = wc.sortBy(lambda wc:wc[1], False)
wcSort.collect()

输出到文件

wcSort.saveAsTextFile("file:///home/hadoop/output/RDD5")
wcSort.saveAsTextFile("RDD5")

查看结果

hdfs dfs -ls ./RDD5
hdfs dfs -cat ./RDD5/part-00000 | head -10

B. 一句话实现：文件入文件出

sc.textFile("file:///home/hadoop/my.txt").flatMap(lambda line: line.split(" ")).map(lambda word : word.lower()).flatMap(lambda word:re.split('\W+', word)).flatMap(lambda word:word.split(" ")).filter(lambda word:len(word)>2).map(lambda word : (word,1)).reduceByKey(lambda x,y : x+y) .sortBy(lambda wc:wc[1],False).saveAsTextFile("RDD5_oneline")

C. 和作业2的”二、Python编程练习：英文文本的词频统计 “进行比较，理解并用自己话表达Spark编程的特点

Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作，还提供了多种数据集操作类型，编程模型比Hadoop MapReduce更灵活

Spark提供了内存计算，可将中间结果放到内存中，对于迭代运算效率更高

Spark基于DAG的任务调度执行机制，要优于Hadoop MapReduce的迭代执行机制

二、求Top值

网盘下载payment.txt文件，通过RDD操作实现选出最大支付额的用户

丢弃不合规范的行：

items = sc.textFile('payment.txt').map(lambda line:line.split(','))
items.collect()

items.map(lambda item:len(item)).collect()
items.count()

items.filter(lambda item:len(item)==4).collect()

// &#x4E22;&#x5F03;&#x7A7A;&#x884C;&#x3001;&#x5C11;&#x6570;&#x636E;&#x9879;&#x3001;&#x7F3A;&#x5931;&#x6570;&#x636E;
items.filter(lambda item:len([i for i in item if len(i)>0])==4).collect()
items.filter(lambda item:len([i for i in item if len(i)>0])==4).count()

按支付金额排序

// &#x6709;&#x6548;&#x8BB0;&#x5F55;
recs = items.filter(lambda item:len([i for i in item if len(i)>0])==4)
recs

// &#x8BB0;&#x5F55;&#x6309;&#x652F;&#x4ED8;&#x91D1;&#x989D;&#x6392;&#x5E8F;
recs.sortBy(lambda rec:int(rec[2]),False).collect()

取出Top3

top3=recs.sortBy(lambda rec:int(rec[2]),False).take(3)
top3

Original: https://www.cnblogs.com/DingyLand/p/homework_05_.html
Author: stu(dying)
Title: 5.RDD操作综合实例

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/565087/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

彻底理解线程

1 线程的意义操作系统支持多个应用程序同时执行，每个应用至少对应一个进程，彼此之间的操作和数据不受干扰。当一个进程需要磁盘IO的时候，CPU就切换到另外的进程，提高了CPU利用率…

大数据 2023年5月26日
0076
知乎利用 JuiceFS 给 Flink 容器启动加速实践

本文作者胡梦宇，知乎大数据架构开发工程师，主要负责知乎内部大数据组件的二次开发和数据平台建设。背景 Flink 因为其可靠性和易用性，已经成为当前最流行的流处理框架之一，在流计算…

大数据 2023年5月26日
0066
nanopi r2c上docker安装甜糖

1、拉取镜像 docker pull tiptime/ttnode 2、挂载硬盘 3、运行容器 docker run -d \-v /mnt/host/dir:/mnt/data/…

大数据 2023年5月29日
00117
KnowPrompt:Knowledge-aware Prompt-tuning with Synergistic Optimization for Relation Extraction

Abstract Prompt-tuning 的核心思想就是将文本块（ text pieces）插入到输入中并且将一个分类问题转换成一个掩码语言模型问题。在关系抽取任务中，决定一个…

大数据 2023年5月28日
0081
CV和NLP的区别

本质（根）上没有区别，都是信息信号处理，都是高维信号的分解和组合，但是信号的结构特征有区别，所以需要不同的策略来挖掘数据信息，即使用不同的分解和组合策略； CV：图像处理纹理信息…

大数据 2023年5月28日
0060
Tapdata Cloud 2.1.4 来啦：数据连接又上新，PolarDB MySQL、轻流开始接入，可自动标记不支持的字段类型

作为国内首家异构数据库实时同步云平台，Tapdata Cloud 不断拓展能够支持的数据连接版图，力求满足用户的多样化数据源和目标需求，真正实现数据实时同步”全面破壁&…

大数据 2023年6月3日
0067
一文看懂！百度对话系统PLATO家族

作者 | 高斯定理欢迎关注知乎”高斯定理”和他的专栏专栏”边走边看” 整理 | NewBeeNLP 前段时间有读者留言『怎么看最近…

大数据 2023年5月28日
0073
Sqlite进阶之–附加数据库关联查询以及Pragma的相关使用

数据库连接基本的 Data Source=c:\mydb.db;Version=3; 此类库不支持版本 2。内存数据库 Data Source=:memory:;Version…

大数据 2023年11月10日
0039
TCP/IP的Internet层

Internet层 Internet层相关协议 ICMP协议： Internet Control Message Protocol，用于探测网络中的状态，ping命令使用的就是ic…

大数据 2023年5月27日
0084
Ubuntu 18.04.4 安装docker18.09 (使用阿里云的源）

镜像下载、域名解析、时间同步请点击阿里云开源镜像站由于AI_Station 是使用容器构建环境的，而且只提供镜像上传下载功能，不为容易提供网络功能，因此需要在平台上把镜像拉取到本…

大数据 2023年5月27日
0082
hive的使用

大数据 2023年11月14日
0049
redis配置后台启动

大数据 2023年11月15日
0034
04．Mapreduce实例——单表join

04 ． Mapreduce 实例 —— 单表 join 实验原理以本实验的buyer1(buyer_id,friends_id)表为例来阐述单表连接的实验原理。单表连接，连接的…

大数据 2023年5月26日
0047
爬虫保姆级教程2：在visual studio中使用python项目连接SQLite数据库–爬虫数据保存之数据库

采用方法二：【SQLite】SqlLite在VisualStudio2017中C#的使用_Kevin’s life的博客-CSDN博客_vs2017sqlite插件h…

大数据 2023年11月10日
0053
Docker 在容器中运行springboot的jar包，挂载外部yml配置文件

FROM java:8：使用jdk8作为基础镜像EXPOSE 8900：暴露容器的8900端口ADD springboot.jar app.jar：将复制指定的java.jar为容…

大数据 2023年5月29日
00126
mysql数据备份与恢复和mysql多实例部署

1.1 数据库常用备份方案数据库备份方案：冷备份：先停止数据库服务，然后复制数据库目录中的文件进行物理备份 [En] Cold backup: first stop the d…

大数据 2023年5月27日
00106

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30