【赵渝强老师】Flink的DataSet算子

2023年7月24日下午6:11 • 技术杂谈 • 阅读 70

Flink为了能够处理有边界的数据集和无边界的数据集，提供了对应的DataSet API和DataStream API。我们可以开发对应的Java程序或者Scala程序来完成相应的功能。下面举例了一些DataSet API中的基本的算子。

下面我们通过具体的代码来为大家演示每个算子的作用。

1、Map、FlatMap与MapPartition

java;gutter:true; //获取运行环境 ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); ArrayList data = new ArrayList(); data.add("I love Beijing"); data.add("I love China"); data.add("Beijing is the capital of China"); DataSource text = env.fromCollection(data); DataSet> mapData = text.map(new MapFunction>() { <pre><code>public List map(String data) throws Exception { String[] words = data.split(" "); //创建一个List List result = new ArrayList(); for(String w:words){ result.add(w); } return result; } </code></pre> }); mapData.print(); System.out.println("*******"); DataSet flatMapData = text.flatMap(new FlatMapFunction() { <pre><code>public void flatMap(String data, Collector collection) throws Exception { String[] words = data.split(" "); for(String w:words){ collection.collect(w); } } </code></pre> }); flatMapData.print(); System.out.println("******"); / new MapPartitionFunction 第一个String：表示分区中的数据元素类型第二个String：表示处理后的数据元素类型*/ DataSet mapPartitionData = text.mapPartition(new MapPartitionFunction() { <pre><code>public void mapPartition(Iterable values, Collector out) throws Exception { //针对分区进行操作的好处是：比如要进行数据库的操作，一个分区只需要创建一个Connection //values中保存了一个分区的数据 Iterator it = values.iterator(); while (it.hasNext()) { String next = it.next(); String[] split = next.split(" "); for (String word : split) { out.collect(word); } } //关闭链接 } </code></pre> }); mapPartitionData.print(); <pre><code> 2、Filter与Distinct;gutter:true;
//获取运行环境
ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

ArrayList data = new ArrayList();
data.add("I love Beijing");
data.add("I love China");
data.add("Beijing is the capital of China");
DataSource text = env.fromCollection(data);

DataSet flatMapData = text.flatMap(new FlatMapFunction() {

public void flatMap(String data, Collector collection) throws Exception {
String[] words = data.split(" ");
for(String w:words){
collection.collect(w);
}
}
});

//去掉重复的单词
flatMapData.distinct().print();
System.out.println("*********************");

//选出长度大于3的单词
flatMapData.filter(new FilterFunction() {

public boolean filter(String word) throws Exception {
int length = word.length();
return length>3?true:false;
}
}).print();

3、Join操作

java;gutter:true; //获取运行的环境 ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); //创建第一张表：用户ID 姓名 ArrayList> data1 = new ArrayList>(); data1.add(new Tuple2(1,"Tom")); data1.add(new Tuple2(2,"Mike")); data1.add(new Tuple2(3,"Mary")); data1.add(new Tuple2(4,"Jone")); //创建第二张表：用户ID 所在的城市 ArrayList> data2 = new ArrayList>(); data2.add(new Tuple2(1,"北京")); data2.add(new Tuple2(2,"上海")); data2.add(new Tuple2(3,"广州")); data2.add(new Tuple2(4,"重庆")); //实现join的多表查询：用户ID 姓名所在的程序 DataSet> table1 = env.fromCollection(data1); DataSet> table2 = env.fromCollection(data2); table1.join(table2).where(0).equalTo(0) /第一个Tuple2：表示第一张表 * 第二个Tuple2：表示第二张表 * Tuple3：多表join连接查询后的返回结果 / .with(new JoinFunction, Tuple2, Tuple3>() { public Tuple3 join(Tuple2 table1, Tuple2 table2) throws Exception { return new Tuple3(table1.f0,table1.f1,table2.f1); } }).print(); <pre><code> 4、笛卡尔积;gutter:true;
ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

//创建第一张表：用户ID 姓名
ArrayList> data1 = new ArrayList>();
data1.add(new Tuple2(1,"Tom"));
data1.add(new Tuple2(2,"Mike"));
data1.add(new Tuple2(3,"Mary"));
data1.add(new Tuple2(4,"Jone"));

//创建第二张表：用户ID 所在的城市
ArrayList> data2 = new ArrayList>();
data2.add(new Tuple2(1,"北京"));
data2.add(new Tuple2(2,"上海"));
data2.add(new Tuple2(3,"广州"));
data2.add(new Tuple2(4,"重庆"));

//实现join的多表查询：用户ID 姓名所在的程序
DataSet> table1 = env.fromCollection(data1);
DataSet> table2 = env.fromCollection(data2);

//生成笛卡尔积
table1.cross(table2).print();

5、First-N

java;gutter:true; ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); //这里的数据是：员工姓名、薪水、部门号 DataSet> grade = env.fromElements(new Tuple3("Tom",1000,10), new Tuple3("Mary",1500,20), new Tuple3("Mike",1200,30), new Tuple3("Jerry",2000,10)); //按照插入顺序取前三条记录 grade.first(3).print(); System.out.println("****"); //先按照部门号排序，在按照薪水排序 grade.sortPartition(2, Order.ASCENDING).sortPartition(1, Order.ASCENDING).print(); System.out.println("****"); //按照部门号分组，求每组的第一条记录 grade.groupBy(2).first(1).print(); <pre><code> 6、外链接操作;gutter:true;
ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

//创建第一张表：用户ID 姓名
ArrayList> data1 = new ArrayList>();
data1.add(new Tuple2(1,"Tom"));
data1.add(new Tuple2(3,"Mary"));
data1.add(new Tuple2(4,"Jone"));

//创建第二张表：用户ID 所在的城市
ArrayList> data2 = new ArrayList>();
data2.add(new Tuple2(1,"北京"));
data2.add(new Tuple2(2,"上海"));
data2.add(new Tuple2(4,"重庆"));

//实现join的多表查询：用户ID 姓名所在的程序
DataSet> table1 = env.fromCollection(data1);
DataSet> table2 = env.fromCollection(data2);

//左外连接
table1.leftOuterJoin(table2).where(0).equalTo(0)
.with(new JoinFunction, Tuple2, Tuple3>() {

public Tuple3 join(Tuple2 table1,
Tuple2 table2) throws Exception {
// 左外连接表示等号左边的信息会被包含
if(table2 == null){
return new Tuple3(table1.f0,table1.f1,null);
}else{
return new Tuple3(table1.f0,table1.f1,table2.f1);
}
}
}).print();

System.out.println("***********************************");
//右外连接
table1.rightOuterJoin(table2).where(0).equalTo(0)
.with(new JoinFunction, Tuple2, Tuple3>() {

public Tuple3 join(Tuple2 table1,
Tuple2 table2) throws Exception {
//右外链接表示等号右边的表的信息会被包含
if(table1 == null){
return new Tuple3(table2.f0,null,table2.f1);
}else{
return new Tuple3(table2.f0,table1.f1,table2.f1);
}
}
}).print();

System.out.println("***********************************");

//全外连接
table1.fullOuterJoin(table2).where(0).equalTo(0)
.with(new JoinFunction, Tuple2, Tuple3>() {

public Tuple3 join(Tuple2 table1, Tuple2 table2)
throws Exception {
if(table1 == null){
return new Tuple3(table2.f0,null,table2.f1);
}else if(table2 == null){
return new Tuple3(table1.f0,table1.f1,null);
}else{
return new Tuple3(table1.f0,table1.f1,table2.f1);
}
}

}).print();

Original: https://www.cnblogs.com/collen7788/p/13784743.html
Author: 赵渝强老师
Title: 【赵渝强老师】Flink的DataSet算子

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/713279/

转载文章受原作者版权保护。转载请注明原作者出处！

技术杂谈

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

linux服务器端多进程代码-服务器/客户端一对多

一、多进程服务器代码 #include #include #include #include<string.h> #include /* See NOTES */ #i…

技术杂谈 2023年7月11日
0084
快速创建测试数据集，批量生成，导出多种数据格式

为任何开发、测试或演示目的生成大量、异构、真实的数据，而不是仅仅通过复制和粘贴创建重复的不切实际的文本字段。官网地址：http://www.redisant.cn/da 主要特点…

技术杂谈 2023年7月23日
00105
OpenSSL命令—pkcs7

用途：用于处理DER或者PEM格式的pkcs#7文件。用法： openssl pkcs7 [-inform PEM|DER] [-outform PEM|DER] [-in f…

技术杂谈 2023年5月31日
0087
Django点击图片缩放

参考信息用 zoom.js 给博客园中博文的图片添加单击时弹出放大效果：https://www.cnblogs.com/mingc/p/7446492.html 使用 1. 下载…

技术杂谈 2023年6月21日
00111
python数据可视化-matplotlib入门(1)–安装及绘制简单的曲线

一、安装matplotlib 1）由于已安装anaconda，可直接打开anaconda prompt，再用命令pip install matplotlib进行安装，因镜像问题，可…

技术杂谈 2023年7月25日
0088
HashMap源码个人理解

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

技术杂谈 2023年7月11日
0065
Upload 组件报错 — [object File]

博客园：当前访问的博文已被密码保护请输入阅读密码: Original: https://www.cnblogs.com/crazycode2/p/16538707.htmlAu…

技术杂谈 2023年5月31日
0087
Exchange配置

Exchange2019安装前准备： 1.安装.net4.82.安装vcredist3.安装UcmaRuntime4.安装rewrite_amd64_zh-CN 5.准备DAG I…

技术杂谈 2023年5月31日
0085
统计本周每天的数据

MySQL5.7 目前有两个思路: 穷举本周每天的日期，left join 数据表指定统计的时间范围、按照时间间隔进行统计（类似ES桶聚合date_histogram）思路一(…

技术杂谈 2023年7月25日
0081
高危！Fastjson反序列化远程代码执行漏洞风险通告，请尽快升级

据国家网络与信息安全信息通报中心监测发现，开源Java开发组件Fastjson存在反序列化远程代码执行漏洞。攻击者可利用上述漏洞实施任意文件写入、服务端请求伪造等攻击行为，造成服务…

技术杂谈 2023年5月31日
00105
整合SSM框架

具体步骤准备工作创建一个maven项目改成web工程 WEB-INF下建一个jsp文件夹在pox.xml先导入依赖和静态资源过滤 junit junit 4.12 mysql…

技术杂谈 2023年7月11日
0091
Python爬虫__微博某个话题的内容数据

1 # -*- coding: utf-8 -*- 2 # @Time : 2020/8/18 15:39 3 # @Author : Chunfang 4 # @Email : …

技术杂谈 2023年7月24日
0069
MAC MySQL安装配置

1. 下载注意选择对应的版本，M系列芯片对应ARM 2. 安装一直点击继续即可，注意要记住root用户端密码 3. 配置在 ~/.bash_profile 增加 4. 服务…

技术杂谈 2023年6月21日
00102
从OC角度思考OKR的底层逻辑

原创不易，求分享、求一键三连扩展阅读：什么是OKR OC：Organization Cultrue即组织文化，标题用OC纯粹为了装逼… 自从接受公司文化建设工作后，…

技术杂谈 2023年6月1日
00121
LeetCode35.搜索插入位置

给定一个排序数组和一个目标值，在数组中找到目标值，并返回其索引。如果目标值不存在于数组中，返回它将会被按顺序插入的位置。请必须使用时间复杂度为 O(log n) 的算法。示例 …

技术杂谈 2023年7月24日
0070
【数据结构】11.java源码关于TreeMap

目录 1.TreehMap的内部结构2.TreehMap构造函数3.元素新增策略4.元素删除5.元素修改和查找6.特殊操作7.扩容8.总结 1.TreeMap的内部结构首先确认一…

技术杂谈 2023年7月24日
0098

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【赵渝强老师】Flink的DataSet算子

大家都在看