• 实际开发中遇到的难点问题
  • 1.ambari集成Impala时,报jar包冲突,应当如何处理?
  • 2.集群组件及各组件资源如何分配?有什么规则和依据?(比如:五台服务器的HDP集群,单台配置16核64G,500G磁盘)
  • 3.impala如何才能实时刷新获取hive的元数据?
  • 4.怎样监控每个Hive任务使用的内存使用情况?
  • 5.yarn队列设置规则,容量调度器和公平调度器的区别?
    • (示例场景:云创希望分两条队列,一条用于工作流定时调度,一条用于测试开发。应当 选用那种调度规则?如何设置才能实现这个需求?
      • 能否对这个需求进行优化?比如划分为更多条队列,应当如何设置?
      • 怎么判断设置的队列规则能否充分利用集群资源)
  • 6.运行Hive脚本时,无法设置为Spark引擎,应当如何处理?
  • 7.distcp命令只会同步数据吗?会不会把表结构一并同步?(如果只同步了数据,而不同步表结构,那么在同步完数据之后,创建这张表的表结构,能否查询出数据?)
  • 8.怎样实现两个HDP集群的数据迁移?(表结构同步和数据同步,有哪些方案?要求:快捷,批量化)
  • 9.数据仓库之范式建模和维度建模区别?
  • 10.数仓项目的实施步骤?
  • 11.flink有几种部署方式?通常使用哪一种?为什么?
  • 12.spark运行效率优化规则?
  • 13.spark配置文件层面,可以设置哪些参数实现spark的运行效率优化?
  • 14.flink的时间语义有哪些?
  • 15.flink的watermark机制是什么?
  • 16.如何保证数据治理?规则是什么?方法是什么?
  • 17.大数据集群中有哪些组件是必须存在的 ?(zookeeper?hdfs?mapreduce?hive?yarn?)
  • 18.orc、parquet、textfile文件格式的区别是什么?(能否将已有集群HDFS中的数据文件格式都从textfile修改为orc或者parquet,可以的话,如何实现?)
  • 网上找到的面试题经典问题:
  • 1.使用 linux命令查看集群资源
  • 2.如何使用shell脚本检查上一个脚本是否执行完成
  • 3.HDFS的一致性是指什么?有几种语义?
  • 4.基于Yarn的推测执行是怎么实现的 ?描述其大致算法
  • 5.MR 源码介绍熟悉的一部分?
  • 6.MR 数据倾斜处理方案?
  • 7.集群节点有多少?项目的架构和流程?
  • 8.项目中如何收集的数据?
  • 9.项目中 Spark 集群有多少台?每天数据量多大?流式处理秒流量多大?
  • 10.项目中的 Spark 每个 worker 有多少资源,如何分配的?
  • 11.项目中的原数据管理工具?
  • 12.简写出你在项目中用到的 hive 调优方法?
  • 13.项目中流数据处理场景?
  • 14.数据清洗需要对数据做哪些处理,数据存储格式有哪些?

作者 admin

张宴银,大数据开发工程师

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注