- 1.实操项目业务场景说明。
- 采集 商品表、会员表、商品购买表 这三个表的数据,通过三者之间的关联关系,合并汇总成 ‘商品出售明细表‘,为后续数据计算提供数据支撑
- 采集 商品表、会员表、商品购买表 这三个表的数据,通过三者之间的关联关系,合并汇总成 ‘商品出售明细表‘,为后续数据计算提供数据支撑
- 步骤大纲
- 1.注册数据源 —让中台识别到业务系统的数据库 和 数据仓库的数据库
- 2.挂靠数据源 — 将注册进中台的数据源分类存储起来
- 3.注册表并设置安全等级 — 让中台识别到数据库中的表 ,并设置表的安全等级
- 4.低代码化采集配置 — 建立数据传输通道
- 5.配置工作流 — 建立数据处理逻辑
- 6.工作流运维 — 监控工作流运行状况并设置告警策略
- 1.注册数据源
- 1.1数据准备
- 1.2将上述两个数据库注册进入数据中台
- 1.2.1 依次点击 数据资产管理 -> 数据源管理 -> 新增数据源
- 1.2.2 新增hive数据源信息,让中台能识别到这个hive数据库,从而实现从该hive数据库中提取数据
- 1.2.3 新增mysql数据源信息,让中台能识别到这个mysql数据库,从而实现从该mysql数据库中提取数据
- 2.挂靠数据源
- 2.1挂靠mysql演示业务数据库
- 因为中台会对接集团内成百上千个业务数据库,所以需要对数据源信息进行有条理的管理
- 2.2分别挂靠演示mysql和hive测试数据库
- 选定业务数据库所在目录,并设置好相应描述,方便其他同事查看
- 3.注册表并设置安全等级
- 依次点击 数据资产管理 -> 数据资产 找到上述中测试数据库所挂靠的文件夹
- 3.1 注册mysql业务数据库中的表
- 依次点击 mysql数据源 -> 数据注册
- 按上图依次选择 表的安全等级 (1,2,3级,1级最高,3级最低),选定需要被中台识别到的表,将选定的表按 ”>>“ 推送到右侧 。点击保存
- 下图表示注册成功
- 依次点击 mysql数据源 -> 数据注册
- 3.2 注册hive测试数据库的表
- 依次点击 hive数据源 -> 数据注册
- 按上图依次选择 表的安全等级 (1,2,3级,1级最高,3级最低),选定需要被中台识别到的表,将选定的表按 ”>>“ 推送到右侧 。点击保存
- 下图表示注册成功
- 依次点击 hive数据源 -> 数据注册
- 依次点击 数据资产管理 -> 数据资产 找到上述中测试数据库所挂靠的文件夹
- 4.低代码化采集配置 — 建立数据传输通道
- 依次点击数据采集管理 -> 采集配置 -> 新增源数据配置 进入数据采集配置界面
- 配置采集任务的基本信息(名称和备注),读取配置中需要选定数据从哪里来
- 首先选择数据库类型,本次实验中是从mysql数据库中读取数据,故此处选择mysql
- 点击连接方式,选中具体是哪一个mysql数据库
- 点击选择表,选中这个mysql数据库中能被中台识别到的表(上文3数据注册时,注册进入数据中台的表,才能被中台识别)
- 选定读取类型,全量还是增量等方式读取
- 至此,数据读取部分的信息已经配置完毕
- 下面开始配置数据写入配置
- 首选选定数据需要被 写入到那种数据库类型中,本次实验数据写入到hive,故选择hive
- 点击连接方式,选定具体的哪一个hive数据库
- 点击选择表,选定数据写入具体的哪一个表
- 剩余的hdfs文件系统信息,数据中台会自动读取,无需配置。
- 至此,数据读取配置和数据写入配置均配置完毕。会自动生成数据从 源头表 到 目标表 的字段匹配信息
- 点击保存即可将该页面配置信息生成数据采集的配置文件,以便后续使用
- 依次点击数据采集管理 -> 采集配置 -> 新增源数据配置 进入数据采集配置界面
- 5.配置工作流
- 依次点击数据开发管理 -> 批量计算 -> 项目管理 -> 新建项目。创建一个管理工作流的项目(可以理解为是一个文件夹)
- 对新增的项目命名
- 点击查看,进入工作流管理界面
- 点击创建工作流
- 拖拽工作流编辑界面左侧的工作节点模块,生成数据处理的工作流
- 本次项目工作流逻辑说明:
- 将mysql数据库中的 商品表 、会员表、商品购买表 数据采集到hive中。采用全量采集的方案。
- 第一步:先清空hive中这三个表的数据
- 第二步:将mysql中这三个表的数据采集到hive中对应三个表中
- 第三步:在hive中编写sql计算逻辑,实现数据汇总,生成商品销售明细表
- 模块配置介绍:
- SQL模块
- 数据源:需要选定要操作的数据库类型,以及具体是哪一个数据库。
- 本例中要删除hive数据库中的数据,故选定hive数据库类型,选定本次测试hive数据(’hive数据源‘)
- 由于要执行的是truncate 语句,属于非查询类型
- 在sql语句框中写入要执行的Sql语句(注,因为选择的是hive数据库,所以需要使用hive数据库的语法)
- Datax模块
- 选择数据集类型,即数据是从哪种数据库中读取而来,本例中是要采集mysql数据库的数据,故选择 mysql
- 选择上文(4.低代码化采集配置)中配置的采集任务的名称,中台会自动将数据采集的配置文件生成
- Datax模块配置完毕,点击确定即可
- 6.工作流运维 — 监控工作流运行状况并设置告警策略
- 回到工作流定义的界面,找到需要监控的工作流,点击工作流实例
- 可以监控任务运行时长和状态
- 还可查看工作流运行时的甘特图,通过可视化的方式监控工作流每个结点的运行情况
- 点击任务实例可以查看任务运行日志,方便定位问题
- 回到工作流定义的界面,找到需要监控的工作流,点击工作流实例
- 对工作流设置定时任务和告警策略
- 配置好定时运行规则,选择告警组,一旦任务运行失败或运行 异常,将自动发送邮件给指定工程师,让问题得到及时处理。
- 告警策略的设置:
- 1.告警实例的设置
- 依次点击数据开发管理,批量计算,告警实例管理 -> 创建告警实例。 参照系统 自带的 四个告警实例模板,写入 相应参数 即可
- 依次点击数据开发管理,批量计算,告警实例管理 -> 创建告警实例。 参照系统 自带的 四个告警实例模板,写入 相应参数 即可
- 1.告警实例的设置
- 以邮件告警 模板为例,修改接受告警的 邮箱地址 即可
- 2.告警组的设置:
- 依次点击数据开发管理 -> 批量计算 -> 告警组管理 -> 创建告警组
- 选择告警实例
- 依次点击数据开发管理 -> 批量计算 -> 告警组管理 -> 创建告警组
- 2.告警组的设置:
- 配置好我们自定义的告警实例和告警组 之后,在定时任务 时 选择我们自定义的告警组即可