周三. 9 月 10th, 2025

大数据架构数据中台

数据中台Streamx简介及用法

作者admin

6 月 11, 2024

Streamx简介
- streamx官方文档案例：使用案例 | Apache StreamPark (incubating)
- 实时即未来,在实时处理流域 Apache Spark 和 Apache Flink 是一个伟大的进步,尤其是Apache Flink被普遍认为是下一代大数据流计算引擎, 我们在使用 Flink & Spark 时发现从编程模型, 启动配置到运维管理都有很多可以抽象共用的地方, 我们将一些好的经验固化下来并结合业内的最佳实践, 通过不断努力终于诞生了今天的框架 —— StreamPark, 项目的初衷是 —— 让流处理更简单, 使用StreamPark开发,可以极大降低学习成本和开发门槛, 让开发者只用关心最核心的业务,StreamPark 规范了项目的配置,鼓励函数式编程,定义了最佳的编程方式,提供了一系列开箱即用的Connectors,标准化了配置、开发、测试、部署、监控、运维的整个过程, 提供了scala和java两套api, 其最终目的是打造一个一站式大数据平台,流批一体,湖仓一体的解决方案
用法篇：
- 写Flink代码的方式实现流式计算需求
- 操作步骤
- 1.在本地代码编辑器中写好代码，测试运行，没问题之后将代码发送至git远程仓库
- 2.在数据中台 -> 流式计算界面新增一个项目（这个项目指的其实是一个idea中的project，即代码文件夹）
  - 示例配置方式如下
- 3.配置完成后点击确定。返回流式计算 -》项目管理界面，点击‘闪电’符号，进行代码构建操作（后台实质为拉取远程仓库中的代码，对代码进行打包操做）
- 每次代码做出修改后，只需要推送至远程仓库，回到数据中台-》流式计算 -》项目管理界面，再次点击‘闪电’符号，进行代码构建操作，即可拉取最新代码，并打包上传
- 4.新建一个流式任务
- 注：主要程序指的是main class（主类）
  - 主类路径获取方式为：
- 并发性、任务数量、故障重启次数需要自定义。
- 需要在动态选项中设置队列
  - 本次示例中使用的是pro环境，查看pro环境中 yarn的scheduler可以看见yarn队列情况。目前有production / hive / spark三个队列
    - -Dyarn.application.queue=production 表示新建的这个流式任务运行队列指定为 production
- 运行 flinK任务时的内存控制通过修改此处的内存参数进行调控
- 配置完成后，点击提交
- 回到应用列表界面,执行流式工作流，查看运行状况
- 注意：flinK既可以实现批计算，也可以进行流计算。所以如果编辑的是批计算，那么任务运行成功后，会展示为finished状态。如果是流式计算，则会一直处于running状态
- 点击应用程序名称，可以跳转到流式计算任务对应的flink web界面，查看流式任务的实际运行状况
- 一些flink web界面的关键信息
查看流式任务输出信息
写flink sql的方式实现流式需求
1.新增流式任务
2.选择flinksql的方式，写入flinksql代码
配置示例
指定运行内存大小和流式任务运行队列
编辑完后点击提交
运行新增的流式任务，通过点击应用程序连接（自带超链接），跳转到 flink web界面，查看相关流式任务运行信息
流式任务flink web 界面信息
streamx官方文档案例：使用案例 | Apache StreamPark (incubating) 此处有flink sql参考代码

作者 admin

张宴银，大数据开发工程师

相关文章

业务知识大数据架构学习笔记数仓建模

数仓建模 – 互联网营销业务 – 数仓开发

8 月 19, 2024 张, 宴银

flink hive 大数据架构学习笔记

Flink 与 Hive集成

6 月 30, 2024 张, 宴银

flink 大数据架构学习笔记

Flink编程模型与API

6 月 23, 2024 admin

发表回复取消回复

You missed

业务知识学习笔记

物流知识讲堂 – 物流业务知识

2025 年 5 月 13 日 admin

零基础学习数据治理 – 黎山

2025 年 2 月 27 日张, 宴银

AI大模型工具

2025 年 2 月 25 日张, 宴银

AI 机器学习

机器学习 – Numpy

2025 年 2 月 11 日张, 宴银