周三. 9 月 10th, 2025

大数据架构

组件、架构方面的问题

作者admin

6 月 11, 2024

实际开发中遇到的难点问题
1.ambari集成Impala时，报jar包冲突，应当如何处理？
2.集群组件及各组件资源如何分配？有什么规则和依据？（比如：五台服务器的HDP集群，单台配置16核64G，500G磁盘）
3.impala如何才能实时刷新获取hive的元数据？
4.怎样监控每个Hive任务使用的内存使用情况？
5.yarn队列设置规则，容量调度器和公平调度器的区别？
- （示例场景：云创希望分两条队列，一条用于工作流定时调度，一条用于测试开发。应当选用那种调度规则？如何设置才能实现这个需求？
  - 能否对这个需求进行优化？比如划分为更多条队列，应当如何设置？
  - 怎么判断设置的队列规则能否充分利用集群资源）
6.运行Hive脚本时，无法设置为Spark引擎，应当如何处理？
7.distcp命令只会同步数据吗？会不会把表结构一并同步？（如果只同步了数据，而不同步表结构，那么在同步完数据之后，创建这张表的表结构，能否查询出数据？）
8.怎样实现两个HDP集群的数据迁移？（表结构同步和数据同步，有哪些方案？要求：快捷，批量化）
9.数据仓库之范式建模和维度建模区别?
10.数仓项目的实施步骤？
11.flink有几种部署方式？通常使用哪一种？为什么？
12.spark运行效率优化规则？
13.spark配置文件层面，可以设置哪些参数实现spark的运行效率优化？
14.flink的时间语义有哪些？
15.flink的watermark机制是什么？
16.如何保证数据治理？规则是什么？方法是什么？
17.大数据集群中有哪些组件是必须存在的？（zookeeper?hdfs?mapreduce?hive?yarn?）
18.orc、parquet、textfile文件格式的区别是什么？（能否将已有集群HDFS中的数据文件格式都从textfile修改为orc或者parquet，可以的话，如何实现？）
网上找到的面试题经典问题：
1.使用 linux命令查看集群资源
2.如何使用shell脚本检查上一个脚本是否执行完成
3.HDFS的一致性是指什么？有几种语义？
4.基于Yarn的推测执行是怎么实现的？描述其大致算法
5.MR 源码介绍熟悉的一部分？
6.MR 数据倾斜处理方案？
7.集群节点有多少？项目的架构和流程？
8.项目中如何收集的数据？
9.项目中 Spark 集群有多少台？每天数据量多大？流式处理秒流量多大？
10.项目中的 Spark 每个 worker 有多少资源，如何分配的？
11.项目中的原数据管理工具？
12.简写出你在项目中用到的 hive 调优方法？
13.项目中流数据处理场景？
14.数据清洗需要对数据做哪些处理，数据存储格式有哪些？

作者 admin

张宴银，大数据开发工程师

相关文章

业务知识大数据架构学习笔记数仓建模

数仓建模 – 互联网营销业务 – 数仓开发

8 月 19, 2024 张, 宴银

flink hive 大数据架构学习笔记

Flink 与 Hive集成

6 月 30, 2024 张, 宴银

flink 大数据架构学习笔记

Flink编程模型与API

6 月 23, 2024 admin

发表回复取消回复

You missed

业务知识学习笔记

物流知识讲堂 – 物流业务知识

2025 年 5 月 13 日 admin

零基础学习数据治理 – 黎山

2025 年 2 月 27 日张, 宴银

AI大模型工具

2025 年 2 月 25 日张, 宴银

AI 机器学习

机器学习 – Numpy

2025 年 2 月 11 日张, 宴银