DataX使用入门

DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高效的数据同步功能。

一、datax需要python环境,需要先安装python
打开官网 https://www.python.org/downloads/windows/ 下载中心

DataX使用入门
此处下载2.6.5版本安装
安装完成后使用python -V查看是否已安装成功

DataX使用入门

二、下载datax
方法一、直接下载DataX工具包:DataX下载地址
http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

下载后解压至本地某个目录,进入bin目录,即可运行同步作业:

$ cd  {YOUR_DATAX_HOME}/bin
$ python datax.py {YOUR_JOB.json}

方法二、下载DataX源码,自己编译:DataX源码
https://github.com/alibaba/DataX

datax的目录结构

DataX使用入门
bin目录下是pytho脚本文件,主要用来执行job文件(默认需要依赖Python2的环境,也可以修改为Python3)

conf目录存放一些配置文件

job目录下存放了一个job测试文件(我们通过datax-web生成的临时job文件不会放在这里,而是在data-web里边自己配置存放目录)

lib是依赖的一些jar包

log目录存放job文件的执行日志

plugin目录存放的是对不同数据源读取(Reader)和写入(Writer)的插件支持

如果没有在plugin目录下发现自己需要的Reader或者Writer则需要自己手动安装(比如ES的Reader和Writer)。

使用Datax执行job文件

python datax.py job文件

txt文件传向mysql的Job文件模板如下(Mysql为例):

{
    "job": {
        "content": [{
            "reader": {
                "name": "txtfilereader",
                "parameter": {
                    "column": [{
                            "index": 0,
                            "type": "long"
                        },
                        {
                            "index": 1,
                            "type": "string"
                        },
                        {
                            "index": 2,
                            "type": "string"
                        },
                        {
                            "index": 3,
                            "type": "string"
                        },
                        {
                            "index": 4,
                            "type": "string"
                        },
                        {
                            "index": 5,
                            "type": "string"
                        },
                        {
                            "index": 6,
                            "type": "string"
                        },
                        {
                            "index": 7,
                            "type": "string"
                        },
                        {
                            "index": 8,
                            "type": "string"
                        },
                        {
                            "index": 9,
                            "type": "date",
                            "format": "yyyy-MM-dd HH:mm:ss"
                        },
                        {
                            "index": 10,
                            "type": "string"
                        },
                        {
                            "index": 11,
                            "type": "date",
                            "format": "yyyy-MM-dd HH:mm:ss"
                        },
                        {
                            "index": 12,
                            "type": "long"
                        }
                    ],
                    "encoding": "UTF-8",
                    "fieldDelimiter": ",",
                    "path": [
                        "C:/Users/jxk/Desktop/tst.txt"
                    ]
                }
            },
            "writer": {
                "name": "mysqlwriter",
                "parameter": {
                    "column": [
                        "id",
                        "project_type",
                        "attach_type",
                        "attach_name",
                        "attach_url",
                        "attach_key",
                        "attach_hash",
                        "attach_size",
                        "created_by",
                        "created_date",
                        "last_updated_by",
                        "last_updated_date",
                        "version"
                    ],
                    "connection": [{
                        "jdbcUrl": "jdbc:mysql://8.68.24.3:3306/testkettle?characterEncoding=utf-8&serverTimezone=Asia/Shanghai",
                        "table": [
                            "comm_attachment"
                        ]
                    }],
                    "password": "274100",
                    "preSql": [
                        "delete from comm_attachment"
                    ],
                    "session": [

                    ],
                    "username": "root",
                    "writeMode": "insert"
                }
            }
        }],
        "setting": {
            "speed": {
                "channel": "5"
            }
        }
    }
}

C:/Users/jxk/Desktop/tst.txt文件内容如下

1,sunnyDay,image/png,ttt.png,http://qyn6nlamm.hd-bkt.clouddn.com/Frv7wnlpCWpjlUq-qWFPrjQdm1A, tst,Frv7wnlpCWpjlUq-qWFPrjQdm1AI,44kb,anonymous,2021-09-16 16:52:38,anonymous,2021-09-16 16:52:38,0
2,sunnyDay,image/png,ttb.png,http://qyn6nlamm.hd-bkt.clouddn.com/Frv7wnlpCWpjlUq-qWFPrjQdm1A, tsb,Frv7wnlpCWpjlUq-qWFPrjQdm1AI,44kb,anonymous,2021-09-16 16:52:38,anonymous,2021-09-16 16:52:38,0

数据库建库脚本如下

CREATE TABLE comm_attachment (
  id int NOT NULL AUTO_INCREMENT COMMENT '主键',
  project_type varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '项目名-说明该附件是属于哪个项目的',
  attach_type varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件类型',
  attach_name varchar(200) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件名',
  attach_url varchar(500) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件下载地址',
  attach_key varchar(500) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件key',
  attach_hash varchar(500) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件hash',
  attach_size varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件大小',
  created_by varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '创建人',
  created_date timestamp NULL DEFAULT NULL COMMENT '创建时间',
  last_updated_by varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '最后修改人',
  last_updated_date timestamp NULL DEFAULT NULL COMMENT '最后修改时间',
  version int DEFAULT NULL COMMENT '乐观锁-版本号',
  PRIMARY KEY (id)
) ENGINE=InnoDB AUTO_INCREMENT=3 DEFAULT CHARSET=utf8mb3 COLLATE=utf8_unicode_ci COMMENT='附件表'

python执行语句

DataX使用入门

python datax.py C:\Users\jxk\Desktop\abc.json

执行结果:

DataX使用入门
在数据库查看数据:
DataX使用入门

语句执行过程中可能遇到的问题:
问题描述:在使用Datax插件将数据从hive导入mysql时,发现写入MySQL报错 :Could not retrieve transation read-only status server
匹配数据库和应用中数据库驱动版本(mysql驱动版本不一致) —-
-查看MySQL版本:

mysql> select version();
+------------+
| VERSION()  |
+------------+
| 8.0.16     |
+------------+

-查看Datax插件MySQL驱动版本:

/datax/plugin/writer/mysqlwriter/libs$ ls mysql-connector*
mysql-connector-java-5.1.34.jar

下载对应的MySQL驱动版本:https://static.runoob.com/download/mysql-connector-java-8.0.16.jar

Illegalunsupported escape sequence near index 3
注意json文件中的路径书写
正确解析:

C:/Users/jxk/Desktop/tst.txt

错误写法:

C:\\Users\\jxk\\Desktop\\tst.txt

Original: https://blog.csdn.net/mynameisjinxiaokai/article/details/128716467
Author: mynameisjinxiaokai
Title: DataX使用入门

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/812724/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球