周三. 12 月 17th, 2025

大数据架构

ETL工程师面试问题清单

作者admin

6 月 11, 2024

1：请做一下简单的自我介绍
28：请描述一下最近一个项目的工作内容
2：使用的ETL技术栈是哪些？
3：使用的调度工具是哪些？
4：请简要描述一下数据采集规范
5：请简要描述一下采集流程
23：假设目前只有生产库，要进行数据抽取，应该注意哪些问题？
24：如果只能抽取生产库的数据，请给出一个采集方案，保证采集过程中不影响到生产库的安全
25：假设目前只有sqlserver数据库的备份文件，要进行数据采集，有什么解决方案？
28：假设目前只有oracle数据库的备份文件，要进行数据采集，有什么解决方案？
26：如何实现mysql -> mysql数据库的实时数据采集？
27：源端mysql是多张表，目标端mysql是一张表，如何实现mysql -> mysql数据库的实时数据采集？
6：使用的数仓吗？数仓分层是怎么样的？数仓底层
7：每层的作用是啥?
8：ETL任务调度时间如何规划？
9：ETL任务数据质量如何监控？
- 数据质量检查项有哪些？
- 怎么评判数据质量的高低？
- 使用什么方法进行数据质量校验? 写shell脚本？python脚本？sql脚本？
- 每日调度数据质量检查任务吗？
- 怎么保证数据质量任务的运行效率？
10：ETL任务运行效率低如何排查?
11：ETL任务运行失败如何排查原因？
12：如果需要采集一个新型数据库，当前已有的ETL工具无法实现采集，应当如何处理？
13：使用过的ETL任务都有哪些类型？（shell脚本，python脚本，datax,spark?）
14：开启了kerberos安全认证的大数据集群，如何进行ETL？
15：ETL任务的并发度如何确定？超过并发度会发生什么问题？应该如何调高ETL任务的并发度？
16：数据清洗做过吗？应该如何做数据清洗？
17：hive sql写过吗？能否进行数仓层级间的ETL操作？
18：是否使用过堡垒机，linux环境？
19：任务调度时出现kill的情况？什么原因？应该如何处理？
20：spark程序调优做过吗？
21：了解项目整体技术架构吗？
22：脚本代码如何管理？存储在服务器上的指定路径吗？

作者 admin

张宴银，大数据开发工程师

相关文章

业务知识大数据架构学习笔记数仓建模

数仓建模 – 互联网营销业务 – 数仓开发

8 月 19, 2024 张, 宴银

flink hive 大数据架构学习笔记

Flink 与 Hive集成

6 月 30, 2024 张, 宴银

flink 大数据架构学习笔记

Flink编程模型与API

6 月 23, 2024 admin

发表回复取消回复

You missed

AI 机器学习

python高级

2025 年 12 月 16 日 admin

AI 机器学习

机器学习 – 支持向量机SVM

2025 年 12 月 16 日 admin

AI 机器学习

机器学习 – 特征降维

2025 年 12 月 14 日 admin

AI 机器学习

机器学习 – 朴素贝叶斯

2025 年 12 月 14 日 admin