周三. 9 月 10th, 2025

大数据集群

CDH6.3.2 安装时bug处理清单

作者admin

6 月 11, 2024

1.网络接口未全速运行的问题处理
- 报错
- 解决方法
  - CDH 以下网络接口似乎未全速运行，virbr-nic。 4主机接口网络似乎为全速运行，cloudera manager agent 无法确定双工模式或接口速度_会飞的鹅_的博客-CSDN博客
  - （修改了hadoopS04的网络配置为 ^virbr 之后，只剩下余下几台还在报错）
2.主机名称中包含大写，kerberos无法正常工作
- 1
  - 解决方案 Host has upper-case characters in its name. Authentication through Kerberos will not work correctly_东北偏西的博客-CSDN博客
  - 重启每台机器的cdh-agent : sudo systemctl restart cloudera-scm-agent
3. yarn node节点日志访问无法通过kerberos认证的问题
- kerberos权限控制
- 把从节点的主机名也配置到火狐浏览器network.negotiate-auth.trusted-uris 就可以了
4.hue提交的任务运行完毕后，yarn上没有实时同步运行记录，啥原因？
- hue提交到yarn任务队列需要强制指定，应该如何处理？\
- 这样改过也不行
5.容量调度器设置
- 上半部分
  {
  “property”:[
  {
  “name”:”yarn.scheduler.capacity.maximum-am-resource-percent”,
  “value”:”0.6″,
  “description”:”yarn最大资源控制”
  },
  {
  “name”:”yarn.scheduler.capacity.root.queues”,
  “value”:”default,users,hive,spark,flink”,
  “description”:”根队列”
  },
  {
  “name”:”yarn.scheduler.capacity.root.capacity”,
  “value”:”100″
  },
  {
  “name”:”yarn.scheduler.capacity.root.acl_administer_queue”,
  “value”:”admin”
  },
  {
  “name”:”yarn.scheduler.capacity.root.acl_submit_applications”,
  “value”:”*”
  },
  {
  “name”:”yarn.scheduler.capacity.root.default.capacity”,
  “value”:”15″,
  “description”:”default队列可以占用所有yarn资源的15%”
  },
  {
  “name”:”yarn.scheduler.capacity.root.default.maximum-capacity”,
  “value”:”35″
  },
  {
  “name”:”yarn.scheduler.capacity.root.users.capacity”,
  “value”:”10″,
  “description”:”users队列可以占用yarn资源的10%”
  },
  {
  “name”:”yarn.scheduler.capacity.root.users.maximum-capacity”,
  “value”:”20″
  },
  {
  “name”:”yarn.scheduler.capacity.root.hive.capacity”,
  “value”:”40″,
  “description”:”hive队列可以占用yarn资源的40%”
  },
  {
  “name”:”yarn.scheduler.capacity.root.hive.maximum-capacity”,
  “value”:”50″
  },
- 下半部分
  {
  “name”:”yarn.scheduler.capacity.root.spark.capacity”,
  “value”:”30″,
  “description”:”spark队列可以占用yarn资源的30%”
  },
  {
  “name”:”yarn.scheduler.capacity.root.spark.maximum-capacity”,
  “value”:”30″
  },
  {
  “name”:”yarn.scheduler.capacity.root.flink.capacity”,
  “value”:”5″,
  “description”:”flink队列可以占用yarn资源的5%”
  },
  {
  “name”:”yarn.scheduler.capacity.root.flink.maximum-capacity”,
  “value”:”10″
  },
  {
  “name”:”yarn.scheduler.capacity.root.default.acl_administer_queue”,
  “value”:”admin”
  },
  {
  “name”:”yarn.scheduler.capacity.root.default.acl_submit_applications”,
  “value”:”*”
  },
  {
  “name”:”yarn.scheduler.capacity.root.hive.acl_administer_queue”,
  “value”:”admin,hive”
  },
  {
  “name”:”yarn.scheduler.capacity.root.hive.acl_submit_applications”,
  “value”:”*”
  },
  {
  “name”:”yarn.scheduler.capacity.root.spark.acl_administer_queue”,
  “value”:”admin,hive,spark”
  },
  {
  “name”:”yarn.scheduler.capacity.root.spark.acl_submit_applications”,
  “value”:”*”
  },
  {
  “name”:”yarn.scheduler.capacity.root.users.acl_administer_queue”,
  “value”:”admin”
  },
  {
  “name”:”yarn.scheduler.capacity.root.users.acl_submit_applications”,
  “value”:”*”
  },
  {
  “name”:”yarn.scheduler.capacity.root.flink.acl_administer_queue”,
  “value”:”admin,flink”
  },
  {
  “name”:”yarn.scheduler.capacity.root.flink.acl_submit_applications”,
  “value”:”*”
  }
  ]
  }
6.hive on spark时，如何设置spark的相关参数
- https://blog.csdn.net/Yellow_python/article/details/124921416?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_baidulandingword~default-1-124921416-blog-105898501.235^v38^pc_relevant_sort_base1&spm=1001.2101.3001.4242.1&utm_relevant_index=4
- 注意：spark调优的相关设置有问题，会导致spark和hive之间的联系断开，hive on spark任务运行会失败
7.cloudera启动kerberos和sentry之后，至少需要TLS 一级及以上，如何开启TLS？
- Cloudera recommends also enabling TLS when Kerberos is enabled for CDH clusters.
8.hadoopm02机器上没有jdk，记得装一下
9. 启用kerberos后，访问hive的方法
- https://edu.csdn.net/learn/10528/233831 付费课程 118
- 先在机器上进行用户认证
  - kinit hive/hive@HADOOP.COM
  - 密码 Fuda@2023
  - 然后输入hive就可以访问hive了
10.堡垒机抢占问题，需开通部门十多个账号的访问权限，且需要能同时在线
11.网络安全控制，后续整体环境断开公网吗？对外的BI工具部分，网络安全是否有既定方案\
- BI工具安装在虚拟机上，只通过这个虚拟机全开放一个端口对外提供报表服务
12.启动spark历史服务，在hdfs创建spark history文件夹
- 在CDH管理界面即可实现
13.使用spark submit提交任务时，也需要先进行kerberos安全认证、
- kinit hive/hive@HADOOP.COM
- 密码 Fuda@2023
- 输入spark-submit命令即可正常运行
  bin/spark-submit \
  –class org.apache.spark.examples.SparkPi \
  –master yarn \
  –deploy-mode cluster \
  ./examples/jars/spark-examples_2.11-2.4.0-cdh6.3.2.jar \
  10
hue安装管理员账号密码 hive Fuda@2023
admin账号密码： admin Inspur@123
访问hdfs之前的kerberos认证账号密码
- hive/hive@HADOOP.COM
- Fuda@2023

作者 admin

张宴银，大数据开发工程师

相关文章

hive 复习大数据集群学习笔记性能调优数据治理

数据治理 – 常用的hive调优参数

8 月 14, 2024 张, 宴银

大数据集群

Linux中安装python3

6 月 11, 2024 admin

大数据开发bug日记大数据集群

修改mysql的binlog日志保存天数和大小限制

6 月 11, 2024 admin

发表回复取消回复

You missed

业务知识学习笔记

物流知识讲堂 – 物流业务知识

2025 年 5 月 13 日 admin

零基础学习数据治理 – 黎山

2025 年 2 月 27 日张, 宴银

AI大模型工具

2025 年 2 月 25 日张, 宴银

AI 机器学习

机器学习 – Numpy

2025 年 2 月 11 日张, 宴银