DolphinScheduler——流程调度工具

目录

一、平台简介

二、竞品软件分析

三、安装部署

3.1 基础环境

3.2 安装前操作

3.3具体安装操作步骤

3.4 名词解释

四.功能介绍

4.1 首页&项目管理

4.1.1 首页

4.1.2 项目管理

4.1.3 任务节点类型和参数设置

4.2 资源中心

4.2.1文件管理

4.2.2 UDF管理

4.3 数据源中心

4.4 监控中心

4.5 安全中心

4.5.1 租户管理

4.5.2 用户管理

4.5.3 告警组管理

4.5.4 Worker分组管理

4.5.5 队列管理

4.5.6 令牌管理

五、参数设置

5.1系统参数

5.2 时间自定义参数

5.3 用户自定义参数

六、平台升级

6.1 升级流程

6.2 升级内容

6.3 新版本问题

七、常见问题

7.1 jar包问题

7.2 权限问题

附录:平台元数据表信息

原创声明:本创作是本人的原创内容,未经授权及禁止肆意转载。此外并未与任何机构合作,原创不易,尊重原创

一、平台简介

  • Apache DolphinScheduler(目前处在孵化阶段)是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统,其致力于解决数据处理流程中错综复杂的依赖关系,使易于使用,开发人员可以通过非常简单的拖拽操作构建ETL过程。不仅对于ETL开发人员,无法编写代码的人也可以使用此工具进行ETL操作,例如系统管理员和分析师;
  • 解决”复杂任务依赖”问题,并且可以实时监视ETL运行状态;
  • 支持多租户;
  • 支持许多任务类型:Shell,MR,Spark,SQL(mysql,postgresql,hive,sparksql),Python,Sub_Process,Procedure等;
  • 支持HA和线性可扩展性

调度系统在数据处理流程中开箱即用。

二、竞品软件分析

DolphinScheduler

Azkaban

Oozie

定位

解决数据处理流程中错综复杂的依赖关系

为了解决Hadoop的任务依赖关系问题

管理Hdoop作业(job)的工作流程调度管理系统

任务类型支持

支持传统的shell任务,同时支持大数据平台任务调度:MR、Spark、SQL(mysql、postgresql、hive/sparksql)、python、procedure、sub_process

ommand、HadoopShell、Java、HadoopJava、Pig、Hive等,支持插件式扩展

统一调度hadoop系统中常见的mr任务启动、Java MR、Streaming MR、Pig、Hive、Sqoop、Spark、Shell等

可视化流程定义

所有流、定时操作都是可视化的,通过拖拽来绘制DAG,配置数据源及资源,同时对于第三方系统,提供api方式的操作。

通过自定义DSL绘制DAG并打包上传

配置相关的调度任务复杂,依赖关系、时间触发、事件触发使用xml语言进行表达

任务监控支持

任务状态、任务类型、重试次数、任务运行机器、可视化变量,以及任务流执行日志

只能看到任务状态

任务状态、任务类型、任务运行机器、创建时间、启动时间、完成时间等。

暂停/恢复/补数

支持暂停、恢复 补数操作

只能先将工作流杀死在重新运行

支持启动/停止/暂停/恢复/重新运行:支持启动/停止/暂停/恢复/重新运行:

Oozie支持Web,RestApi,Java API操作

高可用支持

支持HA,去中心化的多Master和多Worker

通过DB支持HA,-但Web Server存在单点故障风险

通过DB支持HA

多租户支持

dolphinscheduler上的用户可以通过租户和hadoop用户实现多对一或一对一的映射关系。无法做到细节的权限管控。

——

——

过载处理能力

任务队列机制,单个机器上可调度的任务数量可以灵活配置,当任务过多时会缓存在任务队列中,不会操作机器卡死

任务太多时会卡死服务器

调度任务时可能出现死锁

集群扩展支持

调度器使用分布式调度,整体的调度能力会随集群的规模线性正常,Master和Worker支持动态上下线,可以自由进行配置

只Executor水平扩展

参照集群标准

文件管理

支持,可视化管理文件,及相关udf函数等。

——

——

邮件报警

支持

支持

支持

权限控制

可以通过对用户进行资源、项目、数据源的访问授权

——

——

版本更新迭代

持续发展中,升级不会影响当前集群,升级方式操作简单

——

依赖当前集群版本,如更新最新版,易于现阶段集群不兼容

三、安装部署

安装部署文档使用的dolphinscheduler版本为1.3.8,如需升级至最新版2.0以上版本可参照官网升级操作。upgrade

3.1 基础环境

MySQL5.7以上

JDK1.8

zookeeper

Python

其余配置要求参照官网内容即可。

3.2 安装前操作

  1. 建议直接使用root用户进行安装部署,如使用普通用户部署,需将该用户开启sudo免密及集群内免密。
  2. 配置/etc/hosts文件,集群内主机名及IP之间映射
  3. 安装ds的各台机器须配置部署用户免密登录
  4. ds 的安装节点与hdfs 和yarn 所在节点没有关系,只须要保证ds 的worker 所在节点有hadoop、hive 的安装目录并配置环境变量便可,由于要做为客户端提交命令

3.3具体安装操作步骤

0.下载安装包

DolphinScheduler——流程调度工具
  1. 修改源码中配置文件信息

DolphinScheduler——流程调度工具

1)点开根目录下的pom文件,修改里面的集群版本信息,修改为现有集群的信息。

主要修改集群版本、Hadoop及hive版本信息

Original: https://blog.csdn.net/qq_35429938/article/details/123514162
Author: 初夏gg、
Title: DolphinScheduler——流程调度工具

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/818382/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球