调研网址和方案
大数据集群监控系统待解决问题
- 1.集群各组件运行状态监控
- 使用up_time心跳机制的上报时间来监控服务的运行状态是否dead
- Ambari 服务配置以及 Alert 详解-Harries Blog™ (liuhaihua.cn)(可以考虑直接在ambari网页端进行监控各组件的运行状态)
- (216条消息) ambari邮件告警配置_smarthhl的博客-CSDN博客(直接配置ambari网页端的alert邮箱告警)(可行!)
- 可行!
- 可行!
- 使用up_time心跳机制的上报时间来监控服务的运行状态是否dead
- 2.flink,kafka任务阻塞监控
- 需要调研技术方案
- prometheus监控flink,kafka
- (216条消息) [metric]使用Prometheus监控flink1.13org.apache.flink.metrics_bigdata王一的博客-CSDN博客_prometheus监控flink
- (216条消息) Flink 任务实时监控最佳实践(Prometheus + Grafana)打造企业级监控方案_JasonLee实时计算的博客-CSDN博客_flink prometheus
- (216条消息) Prometheus监控平台配置kafka_exporter_Word哥的博客-CSDN博客_kafka_exporter
- Kafka运维小贴士 | Kafka 消息监控_9918699的技术博客_51CTO博客
- (216条消息) Kafka常用监控_Impl_Sunny的博客-CSDN博客_kafka 监控
- 《Kafka监控工具Kafka Eagle》https://blog.csdn.net/weixin_45367149/article/details/108398580
- (216条消息) 可直接拿来用的kafka+prometheus+grafana监控告警配置_不识君的荒漠的博客-CSDN博客
- 3.告警设置,告警规则,告警模板
- 使用睿象云可以便捷管理告警模块和告警策略,问题在于睿象云非免费。可以使用alertmanager替换,需要投入时间学习alertmanager,第二个替换方案prometheusAlert
- 使用睿象云可以便捷管理告警模块和告警策略,问题在于睿象云非免费。可以使用alertmanager替换,需要投入时间学习alertmanager,第二个替换方案prometheusAlert
- 【尚硅谷】Prometheus+Grafana+睿象云的监控告警系统_哔哩哔哩_bilibili(使用alertmanager作为告警装置)
- 配置告警规则
- 配置告警模板
- 总结:遇到问题,先网上找视频教程。