跳至内容
- 1:请做一下简单的自我介绍
- 28:请描述一下最近一个项目的工作内容
- 2:使用的ETL技术栈是哪些?
- 3:使用的调度工具是哪些?
- 4:请简要描述一下数据采集规范
- 5:请简要描述一下采集流程
- 23:假设目前只有生产库,要进行数据抽取,应该注意哪些问题?
- 24:如果只能抽取生产库的数据,请给出一个采集方案,保证采集过程中不影响到生产库的安全
- 25:假设目前只有sqlserver数据库的备份文件,要进行数据采集,有什么解决方案?
- 28:假设目前只有oracle数据库的备份文件,要进行数据采集,有什么解决方案?
- 26:如何实现mysql -> mysql数据库的实时数据采集?
- 27:源端mysql是多张表,目标端mysql是一张表,如何实现mysql -> mysql数据库的实时数据采集?
- 6:使用的数仓吗?数仓分层是怎么样的?数仓底层
- 7:每层的作用是啥?
- 8:ETL任务调度时间如何规划?
- 9:ETL任务数据质量如何监控?
- 数据质量检查项有哪些?
- 怎么评判数据质量的高低?
- 使用什么方法进行数据质量校验? 写shell脚本?python脚本?sql脚本?
- 每日调度数据质量检查任务吗?
- 怎么保证数据质量任务的运行效率?
- 10:ETL任务运行效率低如何排查?
- 11:ETL任务运行失败如何排查原因?
- 12:如果需要采集一个新型数据库,当前已有的ETL工具无法实现采集,应当如何处理?
- 13:使用过的ETL任务都有哪些类型?(shell脚本,python脚本,datax,spark?)
- 14:开启了kerberos安全认证的大数据集群,如何进行ETL?
- 15:ETL任务的并发度如何确定?超过并发度会发生什么问题?应该如何调高ETL任务的并发度?
- 16:数据清洗做过吗?应该如何做数据清洗?
- 17:hive sql写过吗?能否进行数仓层级间的ETL操作?
- 18:是否使用过堡垒机,linux环境?
- 19:任务调度时出现kill的情况?什么原因?应该如何处理?
- 20:spark程序调优做过吗?
- 21:了解项目整体技术架构吗?
- 22:脚本代码如何管理?存储在服务器上的指定路径吗?