跳至内容
- Streamx简介
- streamx官方文档案例:使用案例 | Apache StreamPark (incubating)

- 实时即未来,在实时处理流域 Apache Spark 和 Apache Flink 是一个伟大的进步,尤其是Apache Flink被普遍认为是下一代大数据流计算引擎, 我们在使用 Flink & Spark 时发现从编程模型, 启动配置到运维管理都有很多可以抽象共用的地方, 我们将一些好的经验固化下来并结合业内的最佳实践, 通过不断努力终于诞生了今天的框架 —— StreamPark, 项目的初衷是 —— 让流处理更简单, 使用StreamPark开发,可以极大降低学习成本和开发门槛, 让开发者只用关心最核心的业务,StreamPark 规范了项目的配置,鼓励函数式编程,定义了最佳的编程方式,提供了一系列开箱即用的Connectors,标准化了配置、开发、测试、部署、监控、运维的整个过程, 提供了scala和java两套api, 其最终目的是打造一个一站式大数据平台,流批一体,湖仓一体的解决方案
- 用法篇 :
- 写Flink代码的方式实现流式计算需求
- 操作步骤
- 1.在本地代码 编辑器中写好代码,测试运行,没问题之后将代码发送至git远程仓库

- 2.在数据中台 -> 流式计算界面 新增一个项目(这个项目指的其实是一个idea中的project,即代码文件夹)
- 示例配置方式如下

- 3.配置完成后点击确定。返回 流式计算 -》 项目管理界面,点击‘闪电’符号,进行代码构建操作(后台实质为拉取远程仓库中的代码,对代码进行打包操做)

- 每次代码做出修改后,只需要推送至远程仓库,回到数据中台-》流式计算 -》项目管理界面,再次点击‘闪电’符号,进行代码构建操作,即可拉取最新代码,并打包上传
- 4.新建一个流式任务


- 注:主要程序指的是main class(主类)
- 主类路径获取方式为:


- 并发性、任务数量、故障重启次数需要自定义。

- 需要在动态选项中设置队列
- 本次示例中使用的是pro环境,查看pro环境中 yarn的scheduler可以看见yarn队列情况。目前有production / hive / spark三个队列
- -Dyarn.application.queue=production 表示新建的这个流式任务运行队列指定为 production

- 运行 flinK任务时的内存控制通过修改此处的内存参数进行调控

- 配置完成后,点击提交
- 回到应用列表界面,执行流式工作流,查看运行状况

- 注意:flinK既可以实现批计算,也可以进行流计算。所以如果编辑的是批计算,那么任务运行成功后,会展示为finished状态。如果是流式计算,则会一直处于running状态
- 点击应用程序名称,可以跳转到流式计算任务对应的flink web界面,查看流式任务的实际运行状况

- 一些flink web界面的关键信息





- 查看流式任务输出信息

- 写flink sql的方式实现流式需求
- 1.新增流式任务

- 2.选择flinksql的方式,写入flinksql代码

- 配置示例


- 指定运行内存大小和流式任务运行队列
- 编辑完后点击提交
- 运行新增的流式任务,通过点击应用程序连接(自带超链接),跳转到 flink web界面,查看相关流式任务运行信息

- 流式任务flink web 界面信息


- streamx官方文档案例:使用案例 | Apache StreamPark (incubating) 此处有flink sql参考代码