• 1:请做一下简单的自我介绍
  • 28:请描述一下最近一个项目的工作内容
  • 2:使用的ETL技术栈是哪些?
  • 3:使用的调度工具是哪些?
  • 4:请简要描述一下数据采集规范
  • 5:请简要描述一下采集流程
  • 23:假设目前只有生产库,要进行数据抽取,应该注意哪些问题?
  • 24:如果只能抽取生产库的数据,请给出一个采集方案,保证采集过程中不影响到生产库的安全
  • 25:假设目前只有sqlserver数据库的备份文件,要进行数据采集,有什么解决方案?
  • 28:假设目前只有oracle数据库的备份文件,要进行数据采集,有什么解决方案?
  • 26:如何实现mysql -> mysql数据库的实时数据采集?
  • 27:源端mysql是多张表,目标端mysql是一张表,如何实现mysql -> mysql数据库的实时数据采集?
  • 6:使用的数仓吗?数仓分层是怎么样的?数仓底层
  • 7:每层的作用是啥?
  • 8:ETL任务调度时间如何规划?
  • 9:ETL任务数据质量如何监控?
    • 数据质量检查项有哪些?
    • 怎么评判数据质量的高低?
    • 使用什么方法进行数据质量校验? 写shell脚本?python脚本?sql脚本?
    • 每日调度数据质量检查任务吗?
    • 怎么保证数据质量任务的运行效率?
  • 10:ETL任务运行效率低如何排查?
  • 11:ETL任务运行失败如何排查原因?
  • 12:如果需要采集一个新型数据库,当前已有的ETL工具无法实现采集,应当如何处理?
  • 13:使用过的ETL任务都有哪些类型?(shell脚本,python脚本,datax,spark?)
  • 14:开启了kerberos安全认证的大数据集群,如何进行ETL?
  • 15:ETL任务的并发度如何确定?超过并发度会发生什么问题?应该如何调高ETL任务的并发度?
  • 16:数据清洗做过吗?应该如何做数据清洗?
  • 17:hive sql写过吗?能否进行数仓层级间的ETL操作?
  • 18:是否使用过堡垒机,linux环境?
  • 19:任务调度时出现kill的情况?什么原因?应该如何处理?
  • 20:spark程序调优做过吗?
  • 21:了解项目整体技术架构吗?
  • 22:脚本代码如何管理?存储在服务器上的指定路径吗?

作者 admin

张宴银,大数据开发工程师

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注