• 1.数据中台的优势
    • 简单易用
    • 低代码
    • 拖拽式开发
    • 数据一站式管理
    • 支持海量数据处理
    • 兼容几乎所有其他厂商的数据可视化工具
  • 2.简单易用的架构
    • 2.1 Ambari管理的HDP分布式大数据集群
      • HDP大数据集群的优劣势
        • HDP分布式大数据集群的优点
          • 使用Hadoop集群最大的好处在于它非常适合大数据分析
          • Hadoop集群的另外一个优点在于可扩展性,可以随时新增节点以应对突增的数据存储与计算需求
          • Hadoop集群的确是一个高性价比的解决方案(软件是开源的,这样就可以降低成本;Hadoop集群通过支持商用硬件控制了成本。不必购买服务器级硬件,便可以搭建一个强大的Hadoop集群)
          • Hadoop集群的另一个优点在于故障容错
        • HDP分布式大数据集群的缺点
          • HDP主要用于数据量比较大的场景
          • 使用Hadoop集群的另外一个缺点在于集群解决方案是建立在数据“可分”以及可在独立节点上进行并行处理的基础之上的。如果要做的分析不适应于并行处理环境,那么Hadoop集群就不是完成这项任务的合适工具。
          • 使用Hadoop集群最显著的缺点在于集群的搭建、运维和支持是一个陡峭的曲线。除非恰好在你的IT部门里有Hadoop专家,否则学习如何搭建集群和执行所需的数据分析任务需耗费些时日
    • 2.2 微服务架构数据中台服务
      • k8s + rancher + docker 的部署模式,前后端代码一键式部署。方便维护和更新代码。
    • 2.3 机器学习算法模型平台
      • 数据分析 、机器学习和数据挖掘方案
        • 使用python3语言,集成jupyternotebook代码编辑界面,结合pandas、numpy、matplotlib、seaborn等常用机器学习模块,进行数据挖掘、数据分析的开发。
        • 使用python语言的操纵spark (pyspark)进行数据批量计算,实现海量数据模型训练
  • 3.低代码架构
    • 3.1海豚调度器的优劣势
      • Apache DolphinScheduler是一个分布式去中心化,易扩展的可视化DAG工作流任务调度系统
      • 海豚调度器的优势
        • 3.1.1.分布式 :就是可以这个组件不同的部分可以分布在不同的机器上,整体的协调工作完成任务调度;
        • 3.1.2.去中心化:DolphinScheduler有多台master(负责发号施令,布置任务,接受成果)
        • 3.1.3.易扩展:既然master,worker可以有多个,那可不可有更多,所以DolphinScheduler是支持扩容的,反之,实践中发现太败家了,需要回收一些机器,也是可以支持缩容的;
        • 3.1.4.可视化DAG工作流任务调度:就是除了提供查看日志来查看任务和工作流的运行情况,还有个有序无环图可查看任务和工作流的运行情况;
        • 3.1.5.处理流程中错综复杂的依赖关系:不论是工作流之间,项目之间都支持复杂依赖关系;
        • 3.1.6.拖拉拽的形式编辑工作流,方便快捷,低代码化
      • 海豚调度器的劣势
        • 缺点:相对而言目前(20210605)比较年轻,还在持续更新中,还需要与大家共同成长,个别功能不完善,如虽然支持多个Master节点,但是不自带Master之间的自动故障转移,即你在用API访问时,需要自己配置反向代理;支持的数据源比较单一,如Presto,ElasticSearch等暂不支持;任务类型的控件还较少。
    • 3.2 内置流批一体方案streampark + flink + spark
      • 让流处理更简单
      • Streamx的优势
      • 使用 StreamPark 开发,可以极大降低学习成本和开发门槛,让开发者只用关心最核心的业务。StreamPark 规范了项目的配置,鼓励函数式编程,定义了最佳的编程方式,提供了一系列开箱即用的 Connectors,标准化了配置、开发、测试、部署、监控、运维的整个过程,提供了 Scala/Java 两套 API,其最终目的是打造一个一站式大数据平台,流批一体、湖仓一体的解决方案。
      • Streamx的劣势
        • 一个新生事物,还在持续迭代进化中
    • 3.3 数据采集方案Datax的优劣势
      • Datax DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
      • 我们对Datax进行了二次开发,通过页面点选的方式,进行Datax采集配置,实现了低代码化。
      • Datax的优势
        • 1.支持多种数据库的数据同步
        • 2.支持高并发数据读写
        • 3.支持大批量数据批量读写
        • 4.支持多种关系型及非关系型数据库
          • 可支持的数据库类型与举例
            • 关系型数据库
              • 1. mysql
              • 2. oracle
              • 3. postgresql
              • 4. hive
              • 5. spark
              • 6. clickhouse
              • 7. sqlserver
              • 8. db2
              • 9. presto
              • 10. greenplum
            • 非关系型数据库
              • 1. mongodb
              • 2. redis
              • 3. hbase
            • 时序性数据库
              • Influxdb
  • 4.半小时计算一次的案例分析
    • 数据量很大
      • 实时采集方案
        • 当数据量太大,以致于通过离线采集无法实现半小时内完成数据采集和数据计算。只能采用实时方案进行有状态的流式计算
        • 通过flink的window 窗口,进行半小时内的数据计算
          • 根据语义可以选择滚动窗口,每半小时计算一次近半小时内的目标值。
          • 可以选择滑动窗口,每隔几分钟计算一次半小时内的目标值
    • 数据量较小
      • 离线采集方案
        • 当数据量较小时,可以实现半小时内完成数据采集和数据计算过程。采用离线方案,进行半小时调度一次的方式,实现需求。

作者 admin

张宴银,大数据开发工程师

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注