- 1.101-104四台服务器的昨日磁盘使用增长量变化趋势基本一致
- 2. 6-17日开始有暴增的情况出现
- 3.6-18又比6-17多了一倍磁盘使用量
- 4.6-22又降下去了
- 5.7-15有个突降
- 6.7-19有个突增
- 7.8-3号磁盘使用量再次暴增,翻倍
- 8.8-04日磁盘空间又几乎没变
- 9.8-11暴增,8-12又几乎不变
- 10.9-3日磁盘空间负增长-3.4G,9月4日几乎不变。
- 11.9-5日、9-6日磁盘空间上涨至15G
- 12.9-7一直到9-18磁盘空间增长量一直是4g左右,即正常的状态
- 13.9-19的磁盘空间几乎无增长,247M左右
- 14.9-20->9-29日磁盘每日新增依旧是10G
- 15.9-30日磁盘新增暴跌 – 277.28G
- 16.10-1 -> 10-10 磁盘空间新增一直是10G左右
- 17.10-11磁盘空间暴跌86G(原因是昨天暴跌的这个时间点,重启了pg数仓)
工作流比对排查
- 6-16
- 6-17
- 6-18
- 6-19
工作流调度记录表
- select instance.id, instance.process_definition_id, instance.command_type, instance.executor_id,
- instance.name, instance.state, instance.schedule_time, instance.start_time, instance.end_time,
- instance.run_times, instance.recovery, instance.host, pro.name as projectName
- from t_ds_process_instance instance
- join t_ds_process_definition define ON instance.process_definition_id = define.id
- join t_ds_project pro on pro.id=define.project_id
- where instance.is_sub_process=0
可以测试vacumm full释放磁盘空间的表清单
- table_full_name size
- ods.my_s_opp2gjjl 762 GB 已锁表,无法解锁
- ods.my_s_getin 152 GB
- ods.my_s_fee 69 GB
- ods.my_s_ocdiscount 60 GB 未锁表
- ods.my_s_order 55 GB
- ods.my_s_oc2sale 26 GB
- ods.my_s_saleservice 21 GB 已锁表,无法解锁
- ods.my_s_saleserviceproc 17 GB
- ods.my_s_booking 15 GB 已锁表,无法解锁
- ods.my_s_trade 15 GB
- vacuum告警?
- 1.2022年10月12日下午15:30许
- 对原本243G的ods.oa_db_flowstat_flow_work_item执行vacuum full @table,释放磁盘后,该表只剩下2048M,即2G(101,103上)
- 对原本243G的ods.oa_db_flowstat_flow_work_item执行vacuum full @table,释放磁盘后,该表只剩下2048M,即2G(101,103上)
- 2.2022年10月12日下午17:30许
- 243G的ods.my_s_getin执行vacuum full @table,释放磁盘后,该表只剩下2429M,即2G多(4台都存了)
- 243G的ods.my_s_getin执行vacuum full @table,释放磁盘后,该表只剩下2429M,即2G多(4台都存了)
- 3.2022年10月13日上午10:00许
- 118G的ods.oa_lbpm_audit_note执行vacuum full @table,释放磁盘后,该表只剩下10G
- 118G的ods.oa_lbpm_audit_note执行vacuum full @table,释放磁盘后,该表只剩下10G
- 排查过程中的信息记录
- 1.
- 2.
- 重启服务器的话
- 只有昨天下午重启过管理节点(10.0.0.109)
- 重启数据库进程的话
- 最近一次是在9月6日 10:55左右
- 8月12日 18:00左右
- 排查思路:
- 1.找到磁盘使用量突变时间节点
- 2.排查这些突变时间点的工作流运行情况,数量,名称等。与非特殊时间节点的工作流数量,名称是否一致。再深入查看工作流内部情况
- 3.统计表空间大小,测试vacumm方案
- 4.定位磁盘空间目录中,哪个文件夹下的磁盘使用量最大,定位到占用磁盘空间比较大的文件夹的磁盘空间
- 5.写脚本监控前20大表的size以及其对应增长率
- 6.定位日志磁盘空间,监控其size是否异常增长
- 发现经delete -> truncate 后,102-103-104的每日新增磁盘使用量都变得比较平缓,只有101还是很陡峭。说明主要的磁盘使用量来自101
- 发现9-5日11点左右开始调度的一个工作流,导致101磁盘空间异常增长,9-20日开始回到之前的每日新增磁盘使用量
- 猜测:有几张张需要vacumm的表,主要存储在101,102上,占用了过多磁盘空间
- 6-17号才开始出现磁盘空间异常增长的情况,看一下为啥会出现这个问题
- 鸿荣源问题停一下
- 1.