• 1.实操项目业务场景说明。
    • 采集 商品表、会员表、商品购买表 这三个表的数据,通过三者之间的关联关系,合并汇总成 ‘商品出售明细表‘,为后续数据计算提供数据支撑
  • 步骤大纲
    • 1.注册数据源 —让中台识别到业务系统的数据库 和 数据仓库的数据库
    • 2.挂靠数据源 — 将注册进中台的数据源分类存储起来
    • 3.注册表并设置安全等级 — 让中台识别到数据库中的表 ,并设置表的安全等级
    • 4.低代码化采集配置 — 建立数据传输通道
    • 5.配置工作流 — 建立数据处理逻辑
    • 6.工作流运维 — 监控工作流运行状况并设置告警策略
  • 1.注册数据源
    • 1.1数据准备
    • 1.2将上述两个数据库注册进入数据中台
      • 1.2.1 依次点击 数据资产管理 -> 数据源管理 -> 新增数据源
      • 1.2.2 新增hive数据源信息,让中台能识别到这个hive数据库,从而实现从该hive数据库中提取数据
      • 1.2.3 新增mysql数据源信息,让中台能识别到这个mysql数据库,从而实现从该mysql数据库中提取数据
  • 2.挂靠数据源
  • 2.1挂靠mysql演示业务数据库
  • 因为中台会对接集团内成百上千个业务数据库,所以需要对数据源信息进行有条理的管理
  • 2.2分别挂靠演示mysql和hive测试数据库
  • 选定业务数据库所在目录,并设置好相应描述,方便其他同事查看
  • 3.注册表并设置安全等级
    • 依次点击 数据资产管理 -> 数据资产 找到上述中测试数据库所挂靠的文件夹
    • 3.1 注册mysql业务数据库中的表
      • 依次点击 mysql数据源 -> 数据注册
      • 按上图依次选择 表的安全等级 (1,2,3级,1级最高,3级最低),选定需要被中台识别到的表,将选定的表按 ”>>“ 推送到右侧 。点击保存
      • 下图表示注册成功
    • 3.2 注册hive测试数据库的表
      • 依次点击 hive数据源 -> 数据注册
      • 按上图依次选择 表的安全等级 (1,2,3级,1级最高,3级最低),选定需要被中台识别到的表,将选定的表按 ”>>“ 推送到右侧 。点击保存
      • 下图表示注册成功
  • 4.低代码化采集配置 — 建立数据传输通道
    • 依次点击数据采集管理 -> 采集配置 -> 新增源数据配置 进入数据采集配置界面
    • 配置采集任务的基本信息(名称和备注),读取配置中需要选定数据从哪里来
    • 首先选择数据库类型,本次实验中是从mysql数据库中读取数据,故此处选择mysql
    • 点击连接方式,选中具体是哪一个mysql数据库
    • 点击选择表,选中这个mysql数据库中能被中台识别到的表(上文3数据注册时,注册进入数据中台的表,才能被中台识别)
    • 选定读取类型,全量还是增量等方式读取
    • 至此,数据读取部分的信息已经配置完毕
    • 下面开始配置数据写入配置
    • 首选选定数据需要被 写入到那种数据库类型中,本次实验数据写入到hive,故选择hive
    • 点击连接方式,选定具体的哪一个hive数据库
    • 点击选择表,选定数据写入具体的哪一个表
    • 剩余的hdfs文件系统信息,数据中台会自动读取,无需配置。
    • 至此,数据读取配置和数据写入配置均配置完毕。会自动生成数据从 源头表 到 目标表 的字段匹配信息
    • 点击保存即可将该页面配置信息生成数据采集的配置文件,以便后续使用
  • 5.配置工作流
  • 依次点击数据开发管理 -> 批量计算 -> 项目管理 -> 新建项目。创建一个管理工作流的项目(可以理解为是一个文件夹)
  • 对新增的项目命名
  • 点击查看,进入工作流管理界面
  • 点击创建工作流
  • 拖拽工作流编辑界面左侧的工作节点模块,生成数据处理的工作流
  • 本次项目工作流逻辑说明:
    • 将mysql数据库中的 商品表 、会员表、商品购买表 数据采集到hive中。采用全量采集的方案。
    • 第一步:先清空hive中这三个表的数据
    • 第二步:将mysql中这三个表的数据采集到hive中对应三个表中
    • 第三步:在hive中编写sql计算逻辑,实现数据汇总,生成商品销售明细表
  • 模块配置介绍:
    • SQL模块
    • 数据源:需要选定要操作的数据库类型,以及具体是哪一个数据库。
    • 本例中要删除hive数据库中的数据,故选定hive数据库类型,选定本次测试hive数据(’hive数据源‘)
    • 由于要执行的是truncate 语句,属于非查询类型
    • 在sql语句框中写入要执行的Sql语句(注,因为选择的是hive数据库,所以需要使用hive数据库的语法)
  • Datax模块
  • 选择数据集类型,即数据是从哪种数据库中读取而来,本例中是要采集mysql数据库的数据,故选择 mysql
  • 选择上文(4.低代码化采集配置)中配置的采集任务的名称,中台会自动将数据采集的配置文件生成
  • Datax模块配置完毕,点击确定即可
  • 6.工作流运维 — 监控工作流运行状况并设置告警策略
    • 回到工作流定义的界面,找到需要监控的工作流,点击工作流实例
    • 可以监控任务运行时长和状态
    • 还可查看工作流运行时的甘特图,通过可视化的方式监控工作流每个结点的运行情况
    • 点击任务实例可以查看任务运行日志,方便定位问题
  • 对工作流设置定时任务和告警策略
  • 配置好定时运行规则,选择告警组,一旦任务运行失败或运行 异常,将自动发送邮件给指定工程师,让问题得到及时处理。
  • 告警策略的设置:
    • 1.告警实例的设置
      • 依次点击数据开发管理,批量计算,告警实例管理 -> 创建告警实例。 参照系统 自带的 四个告警实例模板,写入 相应参数 即可
  • 以邮件告警 模板为例,修改接受告警的 邮箱地址 即可
    • 2.告警组的设置:
      • 依次点击数据开发管理 -> 批量计算 -> 告警组管理 -> 创建告警组
      • 选择告警实例
  • 配置好我们自定义的告警实例和告警组 之后,在定时任务 时 选择我们自定义的告警组即可

作者 admin

张宴银,大数据开发工程师

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注