- 推测原因1:
- 所有的脚本全部放在data-01-test服务器上了,所有脚本均为ssh data-01-test的方式去远程调用,是否导致data-01-test节点的impala负载过高
- 解决方案:将脚本分散到data-01-test data-02-test …. data-05-test五台大数据集群服务器上
- 已分散,但依旧导致除data-02-test之外节点均挂掉
- 原因分析及解决思路:
- 1.impala工作流任务数超过某一临界界限,导致impala超负荷宕机(已分散到各服务器节点运行,还会超过负载?可能性较低)
- 解决思路 :
- 排查impala宕机时间,统计宕机时间点左右运行的impala工作流清单和数量,以及impala任务数
- 解决思路 :
- 2.impala代码中,有某几个特定代码或impala特定语法,导致Impala运行宕机(可能性较低,因为所有代码都有试运行过)
- 3.为何偏偏data-02-test没挂?也许是个突破点
- 4.从日志角度查看报错原因,解决日志报错,看下是否会继续宕机
- 5.尝试逐条工作流运行,排查定位到能触发宕机的工作流
- 监控运行失败的工作流即可
- 监控运行失败的工作流即可
- 6.监控impala服务的各项资源利用情况
- 1.impala工作流任务数超过某一临界界限,导致impala超负荷宕机(已分散到各服务器节点运行,还会超过负载?可能性较低)
- vim /etc/default/impala
- 查看linux系统中被系统杀掉的任务进程pid
- grep -i ‘killed process’ /var/log/messages.
- 2022年10月9日,修改了impala-limit参数为5g(每台单节点5g),截至2022年10月10日下午17:00未再出现报错宕机的情况。