- 1: 数据资产盘点管理需求 :元数据管理
- 通过对业务的具体划分,将数据按主题域 、专题域进行分别管理、存储,实现元数据管理的需求。
- 案例1:
- 案例2:
- 2: 业务系统全部打通 : 数据集成
- 目前微品数据中台已支持几乎所有的关系型数据库、influxdb、mongodb等非关系型数据库的接入。所有业务系统均可通过微品数据中台进行接入。
- 海外业务数据,钻井等非标数据的采集与存储
- 提供具体的数据对接方式,完全可以实现数据的采集接入。
- 通过在数据中台中进行主题域、专题域建设,将这些非标数据进行合理存储。
- 目前微品数据中台已支持几乎所有的关系型数据库、influxdb、mongodb等非关系型数据库的接入。所有业务系统均可通过微品数据中台进行接入。
- 3: 征信模型 :数据开发功能 python 机器学习
- 通过配置好工作流节点,实现模型运算的功能,目前已支持shell、python、spark、sql、datax等脚本的运行,能满足几乎所有数据开发需求。
- 通过配置好工作流节点,实现模型运算的功能,目前已支持shell、python、spark、sql、datax等脚本的运行,能满足几乎所有数据开发需求。
- 4: 监管报送 :数据共享
- 1.通过建立kafka消息队列的形式,将数据传输给用户
- 2.通过发布api的形式将数据传输给用户
- 1.通过建立kafka消息队列的形式,将数据传输给用户
- 5: 国外数据接入 : 异构数据采集
- 需要具体沟通。总体来看 还是数据传输问题,难度不大,可以处理。
- 6: 可视化图表,管理驾驶舱
- 数据中台内置了一个开源的 davinci可视化工具,可以完成可视化需求。
- 数据中台内置了一个开源的 davinci可视化工具,可以完成可视化需求。
- 7: 数据存储 : 数仓架构 hive数仓,数仓建模理论
- 8: 数据修改功能,以及数据修改记录监控(定制功能)
- 我方初步给出的方案是通过监控数据库的binlog文件,即数据操作记录 表,找到update数据的记录数据。通过这个方式来监控业务系统中 数据的修改操作。
- binlog文件,记录的是数据库操作 记录信息
- binlog文件,记录的是数据库操作 记录信息
- 对数据修改记录的监控,是在上述方案的情况下将查询 出来的update数据 记录存储在拉链表中。
- 通过拉链表就可以将每张表的数据改动历史情况以及最新数据状态进行存储、监控
- 我方初步给出的方案是通过监控数据库的binlog文件,即数据操作记录 表,找到update数据的记录数据。通过这个方式来监控业务系统中 数据的修改操作。
- 元数据监控。(定制功能)
- 元数据监控,即表结构信息的监控。
- 我方给出的初步方案是:将中台识别到的所有表,将其表结构信息存储到专用数据库表中。每次表结构发生变动,将发生变动的表的表结构信息增量 追加到这个专用表中。
- 通过将每版表结构信息进行存储并比对,处理之后将发生变动的信息 展示到界面。
- 元数据监控,即表结构信息的监控。
- 运维监控
- 1.海豚调度器资源监控
- 2.工作流整体任务状态监控
- 3.工作流中 每一个节点运行情况的监控
- 4.大数据集群组件及资源监控
- 1.海豚调度器资源监控
- 数据安全性
- 通过配置加密方式对数据进行加密操作,保证数据的安全性
- 通过配置加密方式对数据进行加密操作,保证数据的安全性
- 系统自检自查,发送告警信息
- 由于微品数据中台的系统是通过rancher + k8s进行 部署的,我们有对系统进行grafana监控,通过配置阈值告警 策略,进行告警及时下发。
- 由于微品数据中台的系统是通过rancher + k8s进行 部署的,我们有对系统进行grafana监控,通过配置阈值告警 策略,进行告警及时下发。
- 数据性能
- 数据采集效率及对应服务器配置信息如下:
- 测试环境中服务器资源为8核32G,运行效率为并行度为12线程的 单线程4万4千行每秒
- 生产环境效率会比测试环境高出3-4倍,生产环境架构如下
- 数据权限
- 表在注册进中台时,就可以设置表的安全等级
- 对外分享的可视化报表也可以设置口令访问