跳至内容
- 1.介绍一下最近的项目
- 2. 介绍一下数仓的分层情况,以及技术架构
- 3. 说说各层的命名规范、分区情况
- mysql事务隔离级别,索引,B+树
- yarn的资源调度又哪几种方式,yarn的监控怎么做?
- 数据治理相关内容
- 用过哪些数据采集工具
- 2.结合项目说说dm层的建模,有哪些维度表,事实表,设计的依据是什么
- 3.主题域设计有做过吗?讲讲其中一个主题域的设计流程
- 4.有参与过指标体系的构建吗? 简单说一下其中的流程,说说你所做的指标,是否有对指标进行过梳理
- 5.业务数据梳理有做吗,包括哪些内容
- 6.说说你们平时做过的一些指标
- 7.你们项目有做数据质量吗?结合业务说说质量规则的设计
- 8.能讲讲你们项目组的一些开发规范吗?
- 8.linux, yarn日志查看,任务查看,查看任务资源使用情况(资源管理器)
- 9.结合业务说说为什么要使用拉链表?
- 10.sql题
- 11.平时工作中有接触过数据治理吗?
- 12.数据量、集群规模、小组成员分工;数据调研有参与过吗?
- 13.平时如何学习新的技术?
- 14.职业规划
- 。:
- 技术问题 linux 网络命令 、 进程查看 、端口占用查看 等
- 1. 确定是否有相关技能
- 2. 确定学习能力
- 3. 确定熟练程度
- 业务梳理,主题划分,模型建设,开发规范等方面回答
- 业务系统有哪些
- 使用过哪些数据库?
- 对于没有接触过的内容,如何学习?
- 数据ETL过程怎么做的?使用到了哪些技术栈 ?
- 工作流如何调度的 ?数据量有多少?
- 数仓模型设计的方法和步骤能简单说一下吗?各个层级的作用和规范是怎样的 ?
- 是否搭建或者运维过hadoop大数据集群?
- 使用Impala进行数据存储 ?能否讲一下 impala和 hive的区别?