跳至内容
- 实际开发中遇到的难点问题
- 1.ambari集成Impala时,报jar包冲突,应当如何处理?
- 2.集群组件及各组件资源如何分配?有什么规则和依据?(比如:五台服务器的HDP集群,单台配置16核64G,500G磁盘)
- 3.impala如何才能实时刷新获取hive的元数据?
- 4.怎样监控每个Hive任务使用的内存使用情况?
- 5.yarn队列设置规则,容量调度器和公平调度器的区别?
- (示例场景:云创希望分两条队列,一条用于工作流定时调度,一条用于测试开发。应当 选用那种调度规则?如何设置才能实现这个需求?
- 能否对这个需求进行优化?比如划分为更多条队列,应当如何设置?
- 怎么判断设置的队列规则能否充分利用集群资源)
- 6.运行Hive脚本时,无法设置为Spark引擎,应当如何处理?
- 7.distcp命令只会同步数据吗?会不会把表结构一并同步?(如果只同步了数据,而不同步表结构,那么在同步完数据之后,创建这张表的表结构,能否查询出数据?)
- 8.怎样实现两个HDP集群的数据迁移?(表结构同步和数据同步,有哪些方案?要求:快捷,批量化)
- 9.数据仓库之范式建模和维度建模区别?
- 10.数仓项目的实施步骤?
- 11.flink有几种部署方式?通常使用哪一种?为什么?
- 12.spark运行效率优化规则?
- 13.spark配置文件层面,可以设置哪些参数实现spark的运行效率优化?
- 14.flink的时间语义有哪些?
- 15.flink的watermark机制是什么?
- 16.如何保证数据治理?规则是什么?方法是什么?
- 17.大数据集群中有哪些组件是必须存在的 ?(zookeeper?hdfs?mapreduce?hive?yarn?)
- 18.orc、parquet、textfile文件格式的区别是什么?(能否将已有集群HDFS中的数据文件格式都从textfile修改为orc或者parquet,可以的话,如何实现?)
- 网上找到的面试题经典问题:
- 1.使用 linux命令查看集群资源
- 2.如何使用shell脚本检查上一个脚本是否执行完成
- 3.HDFS的一致性是指什么?有几种语义?
- 4.基于Yarn的推测执行是怎么实现的 ?描述其大致算法
- 5.MR 源码介绍熟悉的一部分?
- 6.MR 数据倾斜处理方案?
- 7.集群节点有多少?项目的架构和流程?
- 8.项目中如何收集的数据?
- 9.项目中 Spark 集群有多少台?每天数据量多大?流式处理秒流量多大?
- 10.项目中的 Spark 每个 worker 有多少资源,如何分配的?
- 11.项目中的原数据管理工具?
- 12.简写出你在项目中用到的 hive 调优方法?
- 13.项目中流数据处理场景?
- 14.数据清洗需要对数据做哪些处理,数据存储格式有哪些?