跳至内容
- 1:请简单的做一个自我介绍
- 2:请说一下最近的项目
- 3:请说一下自己的强项
- 4:是否具备大数据组件二次开发能力? 比如datax reader,writer . 或者hue界面展示结果栏滑动框
- 5: 是否了解数据治理
- 数据质量体系应该如何设计? 应该如何落地?
- 数据血缘应该如何建设?应该如何落地?
- 数据安全应该如何设计?应该如何落地?
- 了解主数据吗?企业主数据服务应该如何建设?
- HDFS的数据备份应该如何做?
- 7:请说一下离线批处理技术架构
- 覆盖写入过程中的短暂空白如何处理?
- 无增量字段的源表,如何高效的得到它的增量数据?
- 8:请说一下实时技术架构
- 9:请问会使用k8s和docker容器技术吗?
- 10:是否会大数据底层调优?
- 11:大数据集群运维能力
- 部署过哪些组件?
- 运维过多大体量的大数据集群?
- yarn有几种调度器?分别是什么?各自有什么优势?
- yarn的队列应该如何设计?
- 12:ETL过程的数据清洗应该怎么做?使用什么技术?需要注意哪些事项?怎么制定告警规则?怎么实现告警?
- 13:了解机器学习?
- 14:当前有7台服务器,每台56核256G,需要建设离线与实时的大数据架构。应该如何规划服务和资源
- 15:spark sql 和 hive on spark的区别是什么?哪个性能更好 ?
- 16:请说一下 yarn中,nodemanager,container,spark driver,spark excutor,map ,reduce 的关系
- 17:请描述一下hdfs有哪几种压缩格式?有哪几种数据格式,应该如何搭配使用?
- 18: 现有一张210W的表,使用spark采集,写入目标表时,发现目标表数据格式为orc,相比于textfile的目标表,运行时长明显更长。请问是何原因?
- 19. 如果常见关系型数据库中的数据量过大,Spark如何进行jdbc性能调优,缩短数据的读取时间?
- 20. 如何保证kafka的数据一致性
- 21. flink如何保证Exactly-once