周三. 12 月 17th, 2025

大数据架构

数据中台的优劣势分析

作者admin

6 月 11, 2024

1.数据中台的优势
- 简单易用
- 低代码
- 拖拽式开发
- 数据一站式管理
- 支持海量数据处理
- 兼容几乎所有其他厂商的数据可视化工具
2.简单易用的架构
- 2.1 Ambari管理的HDP分布式大数据集群
  - HDP大数据集群的优劣势
    - HDP分布式大数据集群的优点
      - 使用Hadoop集群最大的好处在于它非常适合大数据分析
      - Hadoop集群的另外一个优点在于可扩展性，可以随时新增节点以应对突增的数据存储与计算需求
      - Hadoop集群的确是一个高性价比的解决方案（软件是开源的，这样就可以降低成本；Hadoop集群通过支持商用硬件控制了成本。不必购买服务器级硬件，便可以搭建一个强大的Hadoop集群）
      - Hadoop集群的另一个优点在于故障容错
    - HDP分布式大数据集群的缺点
      - HDP主要用于数据量比较大的场景
      - 使用Hadoop集群的另外一个缺点在于集群解决方案是建立在数据“可分”以及可在独立节点上进行并行处理的基础之上的。如果要做的分析不适应于并行处理环境，那么Hadoop集群就不是完成这项任务的合适工具。
      - 使用Hadoop集群最显著的缺点在于集群的搭建、运维和支持是一个陡峭的曲线。除非恰好在你的IT部门里有Hadoop专家，否则学习如何搭建集群和执行所需的数据分析任务需耗费些时日
- 2.2 微服务架构数据中台服务
  - k8s + rancher + docker 的部署模式，前后端代码一键式部署。方便维护和更新代码。
- 2.3 机器学习算法模型平台
  - 数据分析、机器学习和数据挖掘方案
    - 使用python3语言,集成jupyternotebook代码编辑界面,结合pandas、numpy、matplotlib、seaborn等常用机器学习模块,进行数据挖掘、数据分析的开发。
    - 使用python语言的操纵spark (pyspark)进行数据批量计算，实现海量数据模型训练
3.低代码架构
- 3.1海豚调度器的优劣势
  - Apache DolphinScheduler是一个分布式去中心化，易扩展的可视化DAG工作流任务调度系统
  - 海豚调度器的优势
    - 3.1.1.分布式：就是可以这个组件不同的部分可以分布在不同的机器上，整体的协调工作完成任务调度；
    - 3.1.2.去中心化：DolphinScheduler有多台master(负责发号施令，布置任务，接受成果)
    - 3.1.3.易扩展：既然master，worker可以有多个，那可不可有更多，所以DolphinScheduler是支持扩容的，反之，实践中发现太败家了，需要回收一些机器，也是可以支持缩容的；
    - 3.1.4.可视化DAG工作流任务调度：就是除了提供查看日志来查看任务和工作流的运行情况，还有个有序无环图可查看任务和工作流的运行情况；
    - 3.1.5.处理流程中错综复杂的依赖关系：不论是工作流之间，项目之间都支持复杂依赖关系；
    - 3.1.6.拖拉拽的形式编辑工作流，方便快捷，低代码化
  - 海豚调度器的劣势
    - 缺点:相对而言目前(20210605)比较年轻，还在持续更新中，还需要与大家共同成长，个别功能不完善，如虽然支持多个Master节点，但是不自带Master之间的自动故障转移，即你在用API访问时，需要自己配置反向代理；支持的数据源比较单一，如Presto，ElasticSearch等暂不支持；任务类型的控件还较少。
- 3.2 内置流批一体方案streampark + flink + spark
  - 让流处理更简单
  - Streamx的优势
  - 使用 StreamPark 开发，可以极大降低学习成本和开发门槛，让开发者只用关心最核心的业务。StreamPark 规范了项目的配置，鼓励函数式编程，定义了最佳的编程方式，提供了一系列开箱即用的 Connectors，标准化了配置、开发、测试、部署、监控、运维的整个过程，提供了 Scala/Java 两套 API，其最终目的是打造一个一站式大数据平台，流批一体、湖仓一体的解决方案。
  - Streamx的劣势
    - 一个新生事物，还在持续迭代进化中
- 3.3 数据采集方案Datax的优劣势
  - Datax DataX 是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
  - 我们对Datax进行了二次开发，通过页面点选的方式，进行Datax采集配置，实现了低代码化。
  - Datax的优势
    - 1.支持多种数据库的数据同步
    - 2.支持高并发数据读写
    - 3.支持大批量数据批量读写
    - 4.支持多种关系型及非关系型数据库
      - 可支持的数据库类型与举例
        
        关系型数据库
        
        1. mysql
        
        2. oracle
        
        3. postgresql
        
        4. hive
        
        5. spark
        
        6. clickhouse
        
        7. sqlserver
        
        8. db2
        
        9. presto
        
        10. greenplum
        
        非关系型数据库
        
        1. mongodb
        
        2. redis
        
        3. hbase
        
        时序性数据库
        
        Influxdb
4.半小时计算一次的案例分析
- 数据量很大
  - 实时采集方案
    - 当数据量太大，以致于通过离线采集无法实现半小时内完成数据采集和数据计算。只能采用实时方案进行有状态的流式计算
    - 通过flink的window 窗口，进行半小时内的数据计算
      - 根据语义可以选择滚动窗口，每半小时计算一次近半小时内的目标值。
      - 可以选择滑动窗口，每隔几分钟计算一次半小时内的目标值
- 数据量较小
  - 离线采集方案
    - 当数据量较小时，可以实现半小时内完成数据采集和数据计算过程。采用离线方案，进行半小时调度一次的方式，实现需求。

作者 admin

张宴银，大数据开发工程师

相关文章

业务知识大数据架构学习笔记数仓建模

数仓建模 – 互联网营销业务 – 数仓开发

8 月 19, 2024 张, 宴银

flink hive 大数据架构学习笔记

Flink 与 Hive集成

6 月 30, 2024 张, 宴银

flink 大数据架构学习笔记

Flink编程模型与API

6 月 23, 2024 admin

发表回复取消回复

You missed

AI 机器学习

python高级

2025 年 12 月 16 日 admin

AI 机器学习

机器学习 – 支持向量机SVM

2025 年 12 月 16 日 admin

AI 机器学习

机器学习 – 特征降维

2025 年 12 月 14 日 admin

AI 机器学习

机器学习 – 朴素贝叶斯

2025 年 12 月 14 日 admin