• 1:请简单的做一个自我介绍
  • 2:请说一下最近的项目
  • 3:请说一下自己的强项
  • 4:是否具备大数据组件二次开发能力? 比如datax reader,writer . 或者hue界面展示结果栏滑动框
  • 5: 是否了解数据治理
    • 数据质量体系应该如何设计? 应该如何落地?
    • 数据血缘应该如何建设?应该如何落地?
    • 数据安全应该如何设计?应该如何落地?
    • 了解主数据吗?企业主数据服务应该如何建设?
    • HDFS的数据备份应该如何做?
  • 7:请说一下离线批处理技术架构
    • 覆盖写入过程中的短暂空白如何处理?
    • 无增量字段的源表,如何高效的得到它的增量数据?
  • 8:请说一下实时技术架构
  • 9:请问会使用k8s和docker容器技术吗?
  • 10:是否会大数据底层调优?
    • spark调优思路
    • sql调优思路
  • 11:大数据集群运维能力
    • 部署过哪些组件?
    • 运维过多大体量的大数据集群?
    • yarn有几种调度器?分别是什么?各自有什么优势?
    • yarn的队列应该如何设计?
  • 12:ETL过程的数据清洗应该怎么做?使用什么技术?需要注意哪些事项?怎么制定告警规则?怎么实现告警?
  • 13:了解机器学习?
    • 请说一下机器学习的几种算法,分别有何用途?
  • 14:当前有7台服务器,每台56核256G,需要建设离线与实时的大数据架构。应该如何规划服务和资源
  • 15:spark sql 和 hive on spark的区别是什么?哪个性能更好 ?
  • 16:请说一下 yarn中,nodemanager,container,spark driver,spark excutor,map ,reduce 的关系
  • 17:请描述一下hdfs有哪几种压缩格式?有哪几种数据格式,应该如何搭配使用?
  • 18: 现有一张210W的表,使用spark采集,写入目标表时,发现目标表数据格式为orc,相比于textfile的目标表,运行时长明显更长。请问是何原因?
  • 19. 如果常见关系型数据库中的数据量过大,Spark如何进行jdbc性能调优,缩短数据的读取时间?
  • 20. 如何保证kafka的数据一致性
  • 21. flink如何保证Exactly-once

作者 admin

张宴银,大数据开发工程师

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注