Cloud Alert 的部分应用部署在阿里云上,使用了多方面的监控服务:
阿里自身的ECS服务器和网站。
Zabbix 监控服务器应用程序。
OneAPM 的应用级监控。
腾讯云拨测,做网站监控。
腾讯云和阿里云的网站监控,总体来说腾讯云的云拨测告警延迟大一些。所以我们就强烈要求 Cloud Test 云测开发网站监控功能,这里就不打广告了。
使用过程中存在一些问题:
监控工具多,告警不是很方面集中跟踪,所以需要集中告警平台。
漏告警,深更半夜基本上很容易遗漏。阿里云监控告警仅告一次,不小心就漏了。毕竟不会挨个短信/邮件去跟踪。
Cloud Alert 自身就是集中告警云平台,所以我们自己就把阿里云告警和其他监控工具的接入进来,并且设置了告警自动升级策略,运维同学(也是开发)配置下短信、微信、电话、邮件通知。
告警集中,目前支持了10多种方式:Zabbix 、Nagios 、Open-Falcon 、阿里云 、腾讯云、OneAPM 、监控宝、 vSphere 、 Solarwinds 、 Cacti 等工具。
通知必达,个人和团队。支持微信、短信、电话、邮件等方式通知到人、如果没有人处理自动升级,总能找到人。解决漏告警问题。
是通过在阿里云中配置Webhook URL的方式,将阿里云接入到Cloud Alert
# URL格式
http://api.aiops.com/alert/api/event/aliyun/--/ --处填入您新建应用时生成的appkey
接下来设置下分派策略,这里设置了2个层次,一线有2人,一个组,以及一个轮流的排班,如果15分钟没有处理,会升级到2线。(测试环境)配置参考下方:
最后,设置下自己的通知方法,目前支持微信、短信、电话、邮件,个人偏爱微信,电话是终极利器。界面如下图。
如果告警被确认就不会继续发送其他提醒。微信版告警截图如下:
手机扫一扫
移动阅读更方便
你可能感兴趣的文章