目录
原创声明:本创作是本人的原创内容,未经授权及禁止肆意转载。此外并未与任何机构合作,原创不易,尊重原创
一、平台简介
- Apache DolphinScheduler(目前处在孵化阶段)是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统,其致力于解决数据处理流程中错综复杂的依赖关系,使易于使用,开发人员可以通过非常简单的拖拽操作构建ETL过程。不仅对于ETL开发人员,无法编写代码的人也可以使用此工具进行ETL操作,例如系统管理员和分析师;
- 解决”复杂任务依赖”问题,并且可以实时监视ETL运行状态;
- 支持多租户;
- 支持许多任务类型:Shell,MR,Spark,SQL(mysql,postgresql,hive,sparksql),Python,Sub_Process,Procedure等;
- 支持HA和线性可扩展性
调度系统在数据处理流程中开箱即用。
二、竞品软件分析
DolphinScheduler
Azkaban
Oozie
定位
解决数据处理流程中错综复杂的依赖关系
为了解决Hadoop的任务依赖关系问题
管理Hdoop作业(job)的工作流程调度管理系统
任务类型支持
支持传统的shell任务,同时支持大数据平台任务调度:MR、Spark、SQL(mysql、postgresql、hive/sparksql)、python、procedure、sub_process
ommand、HadoopShell、Java、HadoopJava、Pig、Hive等,支持插件式扩展
统一调度hadoop系统中常见的mr任务启动、Java MR、Streaming MR、Pig、Hive、Sqoop、Spark、Shell等
可视化流程定义
所有流、定时操作都是可视化的,通过拖拽来绘制DAG,配置数据源及资源,同时对于第三方系统,提供api方式的操作。
通过自定义DSL绘制DAG并打包上传
配置相关的调度任务复杂,依赖关系、时间触发、事件触发使用xml语言进行表达
任务监控支持
任务状态、任务类型、重试次数、任务运行机器、可视化变量,以及任务流执行日志
只能看到任务状态
任务状态、任务类型、任务运行机器、创建时间、启动时间、完成时间等。
暂停/恢复/补数
支持暂停、恢复 补数操作
只能先将工作流杀死在重新运行
支持启动/停止/暂停/恢复/重新运行:支持启动/停止/暂停/恢复/重新运行:
Oozie支持Web,RestApi,Java API操作
高可用支持
支持HA,去中心化的多Master和多Worker
通过DB支持HA,-但Web Server存在单点故障风险
通过DB支持HA
多租户支持
dolphinscheduler上的用户可以通过租户和hadoop用户实现多对一或一对一的映射关系。无法做到细节的权限管控。
——
——
过载处理能力
任务队列机制,单个机器上可调度的任务数量可以灵活配置,当任务过多时会缓存在任务队列中,不会操作机器卡死
任务太多时会卡死服务器
调度任务时可能出现死锁
集群扩展支持
调度器使用分布式调度,整体的调度能力会随集群的规模线性正常,Master和Worker支持动态上下线,可以自由进行配置
只Executor水平扩展
参照集群标准
文件管理
支持,可视化管理文件,及相关udf函数等。
——
——
邮件报警
支持
支持
支持
权限控制
可以通过对用户进行资源、项目、数据源的访问授权
——
——
版本更新迭代
持续发展中,升级不会影响当前集群,升级方式操作简单
——
依赖当前集群版本,如更新最新版,易于现阶段集群不兼容
三、安装部署
安装部署文档使用的dolphinscheduler版本为1.3.8,如需升级至最新版2.0以上版本可参照官网升级操作。upgrade
3.1 基础环境
MySQL5.7以上
JDK1.8
zookeeper
Python
其余配置要求参照官网内容即可。
3.2 安装前操作
- 建议直接使用root用户进行安装部署,如使用普通用户部署,需将该用户开启sudo免密及集群内免密。
- 配置/etc/hosts文件,集群内主机名及IP之间映射
- 安装ds的各台机器须配置部署用户免密登录
- ds 的安装节点与hdfs 和yarn 所在节点没有关系,只须要保证ds 的worker 所在节点有hadoop、hive 的安装目录并配置环境变量便可,由于要做为客户端提交命令
3.3具体安装操作步骤
0.下载安装包
- 修改源码中配置文件信息
1)点开根目录下的pom文件,修改里面的集群版本信息,修改为现有集群的信息。
主要修改集群版本、Hadoop及hive版本信息
Original: https://blog.csdn.net/qq_35429938/article/details/123514162
Author: 初夏gg、
Title: DolphinScheduler——流程调度工具
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/818382/
转载文章受原作者版权保护。转载请注明原作者出处!