• 推测原因1:
    • 所有的脚本全部放在data-01-test服务器上了,所有脚本均为ssh data-01-test的方式去远程调用,是否导致data-01-test节点的impala负载过高
    • 解决方案:将脚本分散到data-01-test data-02-test …. data-05-test五台大数据集群服务器上
    • 已分散,但依旧导致除data-02-test之外节点均挂掉
    • 原因分析及解决思路:
      • 1.impala工作流任务数超过某一临界界限,导致impala超负荷宕机(已分散到各服务器节点运行,还会超过负载?可能性较低)
        • 解决思路 :
          • 排查impala宕机时间,统计宕机时间点左右运行的impala工作流清单和数量,以及impala任务数
      • 2.impala代码中,有某几个特定代码或impala特定语法,导致Impala运行宕机(可能性较低,因为所有代码都有试运行过)
      • 3.为何偏偏data-02-test没挂?也许是个突破点
      • 4.从日志角度查看报错原因,解决日志报错,看下是否会继续宕机
      • 5.尝试逐条工作流运行,排查定位到能触发宕机的工作流
        • 监控运行失败的工作流即可
      • 6.监控impala服务的各项资源利用情况
    • vim /etc/default/impala
  • 查看linux系统中被系统杀掉的任务进程pid
    • grep -i ‘killed process’ /var/log/messages.
  • 2022年10月9日,修改了impala-limit参数为5g(每台单节点5g),截至2022年10月10日下午17:00未再出现报错宕机的情况。

作者 admin

张宴银,大数据开发工程师

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注