周一. 12 月 15th, 2025

大数据架构

pg大数据集群数据量暴涨问题排查

作者admin

6 月 11, 2024

1.101-104四台服务器的昨日磁盘使用增长量变化趋势基本一致
2. 6-17日开始有暴增的情况出现
3.6-18又比6-17多了一倍磁盘使用量
4.6-22又降下去了
5.7-15有个突降
6.7-19有个突增
7.8-3号磁盘使用量再次暴增，翻倍
8.8-04日磁盘空间又几乎没变
9.8-11暴增，8-12又几乎不变
10.9-3日磁盘空间负增长-3.4G,9月4日几乎不变。
11.9-5日、9-6日磁盘空间上涨至15G
12.9-7一直到9-18磁盘空间增长量一直是4g左右，即正常的状态
13.9-19的磁盘空间几乎无增长，247M左右
14.9-20->9-29日磁盘每日新增依旧是10G
15.9-30日磁盘新增暴跌 – 277.28G
16.10-1 -> 10-10 磁盘空间新增一直是10G左右
17.10-11磁盘空间暴跌86G(原因是昨天暴跌的这个时间点，重启了pg数仓)

工作流比对排查

6-16
6-17
6-18
6-19

工作流调度记录表

select instance.id, instance.process_definition_id, instance.command_type, instance.executor_id,
instance.name, instance.state, instance.schedule_time, instance.start_time, instance.end_time,
instance.run_times, instance.recovery, instance.host, pro.name as projectName
from t_ds_process_instance instance
join t_ds_process_definition define ON instance.process_definition_id = define.id
join t_ds_project pro on pro.id=define.project_id
where instance.is_sub_process=0

可以测试vacumm full释放磁盘空间的表清单

table_full_name size
ods.my_s_opp2gjjl 762 GB 已锁表，无法解锁
ods.my_s_getin 152 GB
ods.my_s_fee 69 GB
ods.my_s_ocdiscount 60 GB 未锁表
ods.my_s_order 55 GB
ods.my_s_oc2sale 26 GB
ods.my_s_saleservice 21 GB 已锁表，无法解锁
ods.my_s_saleserviceproc 17 GB
ods.my_s_booking 15 GB 已锁表，无法解锁
ods.my_s_trade 15 GB
vacuum告警？
1.2022年10月12日下午15:30许
- 对原本243G的ods.oa_db_flowstat_flow_work_item执行vacuum full @table，释放磁盘后，该表只剩下2048M，即2G(101,103上)
2.2022年10月12日下午17:30许
- 243G的ods.my_s_getin执行vacuum full @table，释放磁盘后，该表只剩下2429M，即2G多（4台都存了）
3.2022年10月13日上午10：00许
- 118G的ods.oa_lbpm_audit_note执行vacuum full @table，释放磁盘后，该表只剩下10G
排查过程中的信息记录
- 1.
- 2.
- 重启服务器的话
- 只有昨天下午重启过管理节点（10.0.0.109）
- 重启数据库进程的话
- 最近一次是在9月6日 10:55左右
  - 8月12日 18:00左右
- 排查思路：
  - 1.找到磁盘使用量突变时间节点
  - 2.排查这些突变时间点的工作流运行情况，数量，名称等。与非特殊时间节点的工作流数量，名称是否一致。再深入查看工作流内部情况
  - 3.统计表空间大小，测试vacumm方案
  - 4.定位磁盘空间目录中，哪个文件夹下的磁盘使用量最大，定位到占用磁盘空间比较大的文件夹的磁盘空间
  - 5.写脚本监控前20大表的size以及其对应增长率
  - 6.定位日志磁盘空间，监控其size是否异常增长
- 发现经delete -> truncate 后，102-103-104的每日新增磁盘使用量都变得比较平缓，只有101还是很陡峭。说明主要的磁盘使用量来自101
- 发现9-5日11点左右开始调度的一个工作流，导致101磁盘空间异常增长，9-20日开始回到之前的每日新增磁盘使用量
- 猜测：有几张张需要vacumm的表，主要存储在101，102上，占用了过多磁盘空间
- 6-17号才开始出现磁盘空间异常增长的情况，看一下为啥会出现这个问题
- 鸿荣源问题停一下

作者 admin

张宴银，大数据开发工程师

相关文章

业务知识大数据架构学习笔记数仓建模

数仓建模 – 互联网营销业务 – 数仓开发

8 月 19, 2024 张, 宴银

flink hive 大数据架构学习笔记

Flink 与 Hive集成

6 月 30, 2024 张, 宴银

flink 大数据架构学习笔记

Flink编程模型与API

6 月 23, 2024 admin

发表回复取消回复

You missed

AI 机器学习

机器学习 – 特征降维

2025 年 12 月 14 日 admin

AI 机器学习

机器学习 – 朴素贝叶斯

2025 年 12 月 14 日 admin

AI 机器学习

机器学习 – 集成学习 04-Xgboost 代码实操

2025 年 12 月 11 日 admin

AI 机器学习

机器学习 – 集成学习 03-GBDT 代码实操

2025 年 12 月 11 日 admin