- 1.数据中台的优势
- 简单易用
- 低代码
- 拖拽式开发
- 数据一站式管理
- 支持海量数据处理
- 兼容几乎所有其他厂商的数据可视化工具
- 2.简单易用的架构
- 2.1 Ambari管理的HDP分布式大数据集群
- HDP大数据集群的优劣势
- HDP分布式大数据集群的优点
- 使用Hadoop集群最大的好处在于它非常适合大数据分析
- Hadoop集群的另外一个优点在于可扩展性,可以随时新增节点以应对突增的数据存储与计算需求
- Hadoop集群的确是一个高性价比的解决方案(软件是开源的,这样就可以降低成本;Hadoop集群通过支持商用硬件控制了成本。不必购买服务器级硬件,便可以搭建一个强大的Hadoop集群)
- Hadoop集群的另一个优点在于故障容错
- HDP分布式大数据集群的缺点
- HDP主要用于数据量比较大的场景
- 使用Hadoop集群的另外一个缺点在于集群解决方案是建立在数据“可分”以及可在独立节点上进行并行处理的基础之上的。如果要做的分析不适应于并行处理环境,那么Hadoop集群就不是完成这项任务的合适工具。
- 使用Hadoop集群最显著的缺点在于集群的搭建、运维和支持是一个陡峭的曲线。除非恰好在你的IT部门里有Hadoop专家,否则学习如何搭建集群和执行所需的数据分析任务需耗费些时日
- HDP分布式大数据集群的优点
- HDP大数据集群的优劣势
- 2.2 微服务架构数据中台服务
- k8s + rancher + docker 的部署模式,前后端代码一键式部署。方便维护和更新代码。
- 2.3 机器学习算法模型平台
- 数据分析 、机器学习和数据挖掘方案
- 使用python3语言,集成jupyternotebook代码编辑界面,结合pandas、numpy、matplotlib、seaborn等常用机器学习模块,进行数据挖掘、数据分析的开发。
- 使用python语言的操纵spark (pyspark)进行数据批量计算,实现海量数据模型训练
- 数据分析 、机器学习和数据挖掘方案
- 2.1 Ambari管理的HDP分布式大数据集群
- 3.低代码架构
- 3.1海豚调度器的优劣势
- Apache DolphinScheduler是一个分布式去中心化,易扩展的可视化DAG工作流任务调度系统
- 海豚调度器的优势
- 3.1.1.分布式 :就是可以这个组件不同的部分可以分布在不同的机器上,整体的协调工作完成任务调度;
- 3.1.2.去中心化:DolphinScheduler有多台master(负责发号施令,布置任务,接受成果)
- 3.1.3.易扩展:既然master,worker可以有多个,那可不可有更多,所以DolphinScheduler是支持扩容的,反之,实践中发现太败家了,需要回收一些机器,也是可以支持缩容的;
- 3.1.4.可视化DAG工作流任务调度:就是除了提供查看日志来查看任务和工作流的运行情况,还有个有序无环图可查看任务和工作流的运行情况;
- 3.1.5.处理流程中错综复杂的依赖关系:不论是工作流之间,项目之间都支持复杂依赖关系;
- 3.1.6.拖拉拽的形式编辑工作流,方便快捷,低代码化
- 海豚调度器的劣势
- 缺点:相对而言目前(20210605)比较年轻,还在持续更新中,还需要与大家共同成长,个别功能不完善,如虽然支持多个Master节点,但是不自带Master之间的自动故障转移,即你在用API访问时,需要自己配置反向代理;支持的数据源比较单一,如Presto,ElasticSearch等暂不支持;任务类型的控件还较少。
- 3.2 内置流批一体方案streampark + flink + spark
- 让流处理更简单
- Streamx的优势
- 使用 StreamPark 开发,可以极大降低学习成本和开发门槛,让开发者只用关心最核心的业务。StreamPark 规范了项目的配置,鼓励函数式编程,定义了最佳的编程方式,提供了一系列开箱即用的 Connectors,标准化了配置、开发、测试、部署、监控、运维的整个过程,提供了 Scala/Java 两套 API,其最终目的是打造一个一站式大数据平台,流批一体、湖仓一体的解决方案。
- Streamx的劣势
- 一个新生事物,还在持续迭代进化中
- 3.3 数据采集方案Datax的优劣势
- Datax DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
- 我们对Datax进行了二次开发,通过页面点选的方式,进行Datax采集配置,实现了低代码化。
- Datax的优势
- 1.支持多种数据库的数据同步
- 2.支持高并发数据读写
- 3.支持大批量数据批量读写
- 4.支持多种关系型及非关系型数据库
- 可支持的数据库类型与举例
- 关系型数据库
- 1. mysql
- 2. oracle
- 3. postgresql
- 4. hive
- 5. spark
- 6. clickhouse
- 7. sqlserver
- 8. db2
- 9. presto
- 10. greenplum
- 非关系型数据库
- 1. mongodb
- 2. redis
- 3. hbase
- 时序性数据库
- Influxdb
- 关系型数据库
- 可支持的数据库类型与举例
- 3.1海豚调度器的优劣势
- 4.半小时计算一次的案例分析
- 数据量很大
- 实时采集方案
- 当数据量太大,以致于通过离线采集无法实现半小时内完成数据采集和数据计算。只能采用实时方案进行有状态的流式计算
- 通过flink的window 窗口,进行半小时内的数据计算
- 根据语义可以选择滚动窗口,每半小时计算一次近半小时内的目标值。
- 可以选择滑动窗口,每隔几分钟计算一次半小时内的目标值
- 实时采集方案
- 数据量较小
- 离线采集方案
- 当数据量较小时,可以实现半小时内完成数据采集和数据计算过程。采用离线方案,进行半小时调度一次的方式,实现需求。
- 离线采集方案
- 数据量很大