Zabbix5.0钉钉报警(centos7)
阅读原文时间:2023年07月10日阅读:2

2.1、到钉钉官网下载pc版钉钉,安装、注册、登陆:

钉钉下载地址:https://www.dingtalk.com/

2.2、创建群聊和钉钉机器人:

1、创建群聊,把需要收到报警的人员都拉到这个群:

(1)

(2)

(3)

(4)

2、创建钉钉机器人:

(1)

(2)

(3)

(4)

(5)

(6)

(7)

点击“设置说明”可以查看钉钉服务端API说明。

2.3、脚本配置:

1、查看zabbix-server脚本存放的位置:

[root@controlnode ~]# grep ^AlertScriptsPath /etc/zabbix/zabbix_server.conf

AlertScriptsPath=/usr/lib/zabbix/alertscripts

2、创建钉钉报警脚本:

[root@controlnode ~]# cd /usr/lib/zabbix/alertscripts/

[root@controlnode alertscripts]# vim dingding.py

#说明:以下脚本只要将webhook改为你自己的webhook值即可,其它的不需要改变。

#!/usr/bin/python

#-*- coding: utf-8 -*-

#zabbix钉钉报警

import requests,json,sys,os,datetime

webhook="https://oapi.dingtalk.com/robot/send?access_token=78eba715496454260d5937aba8582231522f69e93e31d686fbb93551056a5550"

#说明:这里改为自己创建的机器人的webhook的值

user=sys.argv[1]

#发给钉钉群中哪个用户

text=sys.argv[3]

#发送的报警内容

data={

"msgtype": "text",

"text": {

"content": text

},

"at": {

"atMobiles": [

user

],

"isAtAll": False

}

}

#钉钉API固定数据格式

headers = {'Content-Type': 'application/json'}

x=requests.post(url=webhook,data=json.dumps(data),headers=headers)

if os.path.exists("/var/log/zabbix/dingding.log"):

f=open("/var/log/zabbix/dingding.log","a+")

else:

f=open("/var/log/zabbix/dingding.log","w+")

f.write("\n"+"--"*30)

if x.json()["errcode"] == 0:

f.write("\n"+str(datetime.datetime.now())+" "+str(user)+" "+"发送成功"+"\n"+str(text))

f.close()

else:

f.write("\n"+str(datetime.datetime.now()) + " " + str(user) + " " + "发送失败" + "\n" + str(text))

f.close()

#将发送的告警信息写入本地日志/var/log/zabbix/dingding.log中

3、赋予脚本执行权限和创建日志文件:

(1)脚本赋予可执行权限:

[root@controlnode alertscripts]# chmod +x dingding.py

(2)创建日志文件:

[root@controlnode alertscripts]# touch /var/log/zabbix/dingding.log

[root@controlnode alertscripts]# chown zabbix.zabbix /var/log/zabbix/dingding.log

4、手动测试脚本是否可以正常发送消息:

(1)测试命令:

[root@controlnode alertscripts]# ./dingding.py hyjy2504164765 test "这是条告警测试信息,请忽略"

参数说明:

1)hyjy2504164765:钉钉群中任意一个人员的钉钉号。

如何查看自己的钉钉号:

2)test:这里因脚本中没有设置接收参数,所以无实际意义,仅仅起到变量占位的作用。

3)"这是条告警测试信息,请忽略":这是具体的告警信息,告警信息必须包含“安全设置”

中自己设置的“自定义关键词”,否则无法发送告警信息,我这里设置的告警关键字是"告警"。

注意:该脚本要求至少python2.6.6版本,且具有requests模块,否则会报如下错误:

Traceback (most recent call last):

File "./dingding.py", line 4, in

import requests,json,sys,os,datetime

ImportError: No module named requests

解决办法如下:

yum install python-pip

pip install --upgrade pip

pip install requests

(2)钉钉群收到报警信息:

(3)在ZabbixServer上查看发送消息日志:

[root@controlnode alertscripts]# cat /var/log/zabbix/dingding.log

2.4、zabbix web 界面设置:

触发器触发"动作"——>特定的"报警媒介"——>单个用户的账号或用户组中用户的账号

1、创建报警媒介:

(1)

(2)

脚本参数:

{ALERT.SENDTO}

#对应脚本中的,user=sys.argv[1](发给钉钉群中哪个用户)。

{ALERT.SUBJECT}

#代表发送的信息的标题,在"报表"的"动作日志"中可以看到。

{ALERT.MESSAGE}

#对应脚本中的,text=sys.argv[3](发送的报警内容)。

2、添加报警动作,将报警发送给Admin用户:

(1)

(2)

(3)

(4)

(5)

1)

"主题"对应"钉钉告警"媒介中的:{ALERT.SUBJECT}

"消息"对应"钉钉告警"媒介中的:{ALERT.MESSAGE}

2)

主题:

服务故障告警:{TRIGGER.STATUS}: {TRIGGER.NAME}

消息:

服务故障告警:{TRIGGER.STATUS}: {TRIGGER.NAME}

告警主机:{HOST.NAME}

主机IP: {HOST.IP}

告警时间:{EVENT.DATE} {EVENT.TIME}

告警等级:{TRIGGER.SEVERITY}

告警信息:{TRIGGER.NAME}

问题详情:{ITEM.NAME}:{ITEM.VALUE}

当前状态:{TRIGGER.STATUS}:{ITEM.VALUE1}

事件ID: {EVENT.ID}

(6)

(7)

主题:

服务故障恢复告警:{TRIGGER.STATUS}: {TRIGGER.NAME}

消息:

服务故障恢复告警:{TRIGGER.STATUS}: {TRIGGER.NAME}

告警主机:{HOST.NAME}

主机IP: {HOST.IP}

告警时间:{EVENT.DATE} {EVENT.TIME}

告警等级:{TRIGGER.SEVERITY}

告警信息:{TRIGGER.NAME}

问题详情:{ITEM.NAME}:{ITEM.VALUE}

当前状态:{TRIGGER.STATUS}:{ITEM.VALUE1}

事件ID: {EVENT.ID}

(8)

3、给用户添加报警媒介:

(1)

(2)

"收件人"对应"钉钉告警"中的:{ALERT.SENDTO}

特别注意:这里只需要添加钉钉群里的任何一个成员的钉钉账号即可,即添加一个收件人,这样在机器人群里成员都能看到告警信息.

如果添加多个收件人,则机器人群里就会发送多个告警信息,一个收件人发一条信息.

(3)

2.5、报警测试(在zabbixServer服务器上进行测试):

1、监控nginx web服务:

(1)安装nginx:

[root@controlnode alertscripts]# yum install nginx -y

(2)修改端nginx端口号为8080(不然会和httpd的8080端口号重复):

[root@controlnode alertscripts]# vim /etc/nginx/nginx.conf

listen 8080 default_server;

listen [::]:8080 default_server;

(3)启动nginx并加入开机自启动:

[root@controlnode alertscripts]# systemctl start nginx

[root@controlnode alertscripts]# systemctl enable nginx

[root@controlnode alertscripts]# netstat -tunlp | grep 8080

2、创建web场景及web状态触发器:

(1)创建web场景:

1)

2)

3)

4)

5)

6)查看网站监控图形:

7)

8)

#网站的下载速度和网站的响应速度:

(2)添加web状态触发器:

上面第6步操作如下图:

3、创建tcp连接端口监控项及触发器:

(1)创建tcp连接端口监控项:

上面第6步骤选项如下:

(2)创建tcp连接端口监控项的触发器:

上面第6步骤选项如下:

4、查看触发器状态:

5、nginx web 服务停止告警:
(1)停止nginx服务:

[root@controlnode alertscripts]# systemctl stop nginx

(2)服务故障告警信息:

6、nginx web 服务恢复告警:

(1)启动nginx服务:

[root@controlnode alertscripts]# systemctl start nginx

(2)服务恢复告警信息: