周一. 12 月 15th, 2025

大数据架构

2024-04-15数仓经理面试问题清单

作者admin

6 月 11, 2024

1：请简单的做一个自我介绍
2：请说一下最近的项目
3：请说一下自己的强项
4：是否具备大数据组件二次开发能力? 比如datax reader,writer . 或者hue界面展示结果栏滑动框
5: 是否了解数据治理
- 数据质量体系应该如何设计？应该如何落地？
- 数据血缘应该如何建设？应该如何落地？
- 数据安全应该如何设计？应该如何落地？
- 了解主数据吗？企业主数据服务应该如何建设？
- HDFS的数据备份应该如何做？
7：请说一下离线批处理技术架构
- 覆盖写入过程中的短暂空白如何处理？
- 无增量字段的源表，如何高效的得到它的增量数据？
8：请说一下实时技术架构
9：请问会使用k8s和docker容器技术吗？
10：是否会大数据底层调优？
- spark调优思路
- sql调优思路
11：大数据集群运维能力
- 部署过哪些组件？
- 运维过多大体量的大数据集群？
- yarn有几种调度器？分别是什么？各自有什么优势？
- yarn的队列应该如何设计？
12：ETL过程的数据清洗应该怎么做？使用什么技术？需要注意哪些事项？怎么制定告警规则？怎么实现告警？
13：了解机器学习？
- 请说一下机器学习的几种算法，分别有何用途？
14：当前有7台服务器，每台56核256G，需要建设离线与实时的大数据架构。应该如何规划服务和资源
15：spark sql 和 hive on spark的区别是什么？哪个性能更好？
16：请说一下 yarn中，nodemanager,container,spark driver,spark excutor,map ,reduce 的关系
17：请描述一下hdfs有哪几种压缩格式？有哪几种数据格式，应该如何搭配使用？
18: 现有一张210W的表，使用spark采集，写入目标表时，发现目标表数据格式为orc，相比于textfile的目标表，运行时长明显更长。请问是何原因？
19. 如果常见关系型数据库中的数据量过大，Spark如何进行jdbc性能调优，缩短数据的读取时间？
20. 如何保证kafka的数据一致性
21. flink如何保证Exactly-once

作者 admin

张宴银，大数据开发工程师

相关文章

业务知识大数据架构学习笔记数仓建模

数仓建模 – 互联网营销业务 – 数仓开发

8 月 19, 2024 张, 宴银

flink hive 大数据架构学习笔记

Flink 与 Hive集成

6 月 30, 2024 张, 宴银

flink 大数据架构学习笔记

Flink编程模型与API

6 月 23, 2024 admin

发表回复取消回复

You missed

AI 机器学习

机器学习 – 特征降维

2025 年 12 月 14 日 admin

AI 机器学习

机器学习 – 朴素贝叶斯

2025 年 12 月 14 日 admin

AI 机器学习

机器学习 – 集成学习 04-Xgboost 代码实操

2025 年 12 月 11 日 admin

AI 机器学习

机器学习 – 集成学习 03-GBDT 代码实操

2025 年 12 月 11 日 admin