• 1.101-104四台服务器的昨日磁盘使用增长量变化趋势基本一致
  • 2. 6-17日开始有暴增的情况出现
  • 3.6-18又比6-17多了一倍磁盘使用量
  • 4.6-22又降下去了
  • 5.7-15有个突降
  • 6.7-19有个突增
  • 7.8-3号磁盘使用量再次暴增,翻倍
  • 8.8-04日磁盘空间又几乎没变
  • 9.8-11暴增,8-12又几乎不变
  • 10.9-3日磁盘空间负增长-3.4G,9月4日几乎不变。
  • 11.9-5日、9-6日磁盘空间上涨至15G
  • 12.9-7一直到9-18磁盘空间增长量一直是4g左右,即正常的状态
  • 13.9-19的磁盘空间几乎无增长,247M左右
  • 14.9-20->9-29日磁盘每日新增依旧是10G
  • 15.9-30日磁盘新增暴跌 – 277.28G
  • 16.10-1 -> 10-10 磁盘空间新增一直是10G左右
  • 17.10-11磁盘空间暴跌86G(原因是昨天暴跌的这个时间点,重启了pg数仓)

工作流比对排查

  • 6-16
  • 6-17
  • 6-18
  • 6-19

工作流调度记录表

  • select instance.id, instance.process_definition_id, instance.command_type, instance.executor_id,
  • instance.name, instance.state, instance.schedule_time, instance.start_time, instance.end_time,
  • instance.run_times, instance.recovery, instance.host, pro.name as projectName
  • from t_ds_process_instance instance
  • join t_ds_process_definition define ON instance.process_definition_id = define.id
  • join t_ds_project pro on pro.id=define.project_id
  • where instance.is_sub_process=0

可以测试vacumm full释放磁盘空间的表清单

  • table_full_name size
  • ods.my_s_opp2gjjl 762 GB 已锁表,无法解锁
  • ods.my_s_getin 152 GB
  • ods.my_s_fee 69 GB
  • ods.my_s_ocdiscount 60 GB 未锁表
  • ods.my_s_order 55 GB
  • ods.my_s_oc2sale 26 GB
  • ods.my_s_saleservice 21 GB 已锁表,无法解锁
  • ods.my_s_saleserviceproc 17 GB
  • ods.my_s_booking 15 GB 已锁表,无法解锁
  • ods.my_s_trade 15 GB
  • vacuum告警?
  • 1.2022年10月12日下午15:30许
    • 对原本243G的ods.oa_db_flowstat_flow_work_item执行vacuum full @table,释放磁盘后,该表只剩下2048M,即2G(101,103上)
  • 2.2022年10月12日下午17:30许
    • 243G的ods.my_s_getin执行vacuum full @table,释放磁盘后,该表只剩下2429M,即2G多(4台都存了)
  • 3.2022年10月13日上午10:00许
    • 118G的ods.oa_lbpm_audit_note执行vacuum full @table,释放磁盘后,该表只剩下10G
  • 排查过程中的信息记录
    • 1.
    • 2.
    • 重启服务器的话
    • 只有昨天下午重启过管理节点(10.0.0.109)
    • 重启数据库进程的话
    • 最近一次是在9月6日 10:55左右
      • 8月12日 18:00左右
    • 排查思路:
      • 1.找到磁盘使用量突变时间节点
      • 2.排查这些突变时间点的工作流运行情况,数量,名称等。与非特殊时间节点的工作流数量,名称是否一致。再深入查看工作流内部情况
      • 3.统计表空间大小,测试vacumm方案
      • 4.定位磁盘空间目录中,哪个文件夹下的磁盘使用量最大,定位到占用磁盘空间比较大的文件夹的磁盘空间
      • 5.写脚本监控前20大表的size以及其对应增长率
      • 6.定位日志磁盘空间,监控其size是否异常增长
    • 发现经delete -> truncate 后,102-103-104的每日新增磁盘使用量都变得比较平缓,只有101还是很陡峭。说明主要的磁盘使用量来自101
    • 发现9-5日11点左右开始调度的一个工作流,导致101磁盘空间异常增长,9-20日开始回到之前的每日新增磁盘使用量
    • 猜测:有几张张需要vacumm的表,主要存储在101,102上,占用了过多磁盘空间
    • 6-17号才开始出现磁盘空间异常增长的情况,看一下为啥会出现这个问题
    • 鸿荣源问题停一下

作者 admin

张宴银,大数据开发工程师

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注