2.1、到钉钉官网下载pc版钉钉,安装、注册、登陆:
钉钉下载地址:https://www.dingtalk.com/
2.2、创建群聊和钉钉机器人:
1、创建群聊,把需要收到报警的人员都拉到这个群:
(1)
(2)
(3)
(4)
2、创建钉钉机器人:
(1)
(2)
(3)
(4)
(5)
(6)
(7)
点击“设置说明”可以查看钉钉服务端API说明。
2.3、脚本配置:
1、查看zabbix-server脚本存放的位置:
[root@controlnode ~]# grep ^AlertScriptsPath /etc/zabbix/zabbix_server.conf
AlertScriptsPath=/usr/lib/zabbix/alertscripts
2、创建钉钉报警脚本:
[root@controlnode ~]# cd /usr/lib/zabbix/alertscripts/
[root@controlnode alertscripts]# vim dingding.py
#说明:以下脚本只要将webhook改为你自己的webhook值即可,其它的不需要改变。
#!/usr/bin/python
#-*- coding: utf-8 -*-
#zabbix钉钉报警
import requests,json,sys,os,datetime
webhook="https://oapi.dingtalk.com/robot/send?access_token=78eba715496454260d5937aba8582231522f69e93e31d686fbb93551056a5550"
#说明:这里改为自己创建的机器人的webhook的值
user=sys.argv[1]
#发给钉钉群中哪个用户
text=sys.argv[3]
#发送的报警内容
data={
"msgtype": "text",
"text": {
"content": text
},
"at": {
"atMobiles": [
user
],
"isAtAll": False
}
}
#钉钉API固定数据格式
headers = {'Content-Type': 'application/json'}
x=requests.post(url=webhook,data=json.dumps(data),headers=headers)
if os.path.exists("/var/log/zabbix/dingding.log"):
f=open("/var/log/zabbix/dingding.log","a+")
else:
f=open("/var/log/zabbix/dingding.log","w+")
f.write("\n"+"--"*30)
if x.json()["errcode"] == 0:
f.write("\n"+str(datetime.datetime.now())+" "+str(user)+" "+"发送成功"+"\n"+str(text))
f.close()
else:
f.write("\n"+str(datetime.datetime.now()) + " " + str(user) + " " + "发送失败" + "\n" + str(text))
f.close()
#将发送的告警信息写入本地日志/var/log/zabbix/dingding.log中
3、赋予脚本执行权限和创建日志文件:
(1)脚本赋予可执行权限:
[root@controlnode alertscripts]# chmod +x dingding.py
(2)创建日志文件:
[root@controlnode alertscripts]# touch /var/log/zabbix/dingding.log
[root@controlnode alertscripts]# chown zabbix.zabbix /var/log/zabbix/dingding.log
4、手动测试脚本是否可以正常发送消息:
(1)测试命令:
[root@controlnode alertscripts]# ./dingding.py hyjy2504164765 test "这是条告警测试信息,请忽略"
参数说明:
1)hyjy2504164765:钉钉群中任意一个人员的钉钉号。
如何查看自己的钉钉号:
2)test:这里因脚本中没有设置接收参数,所以无实际意义,仅仅起到变量占位的作用。
3)"这是条告警测试信息,请忽略":这是具体的告警信息,告警信息必须包含“安全设置”
中自己设置的“自定义关键词”,否则无法发送告警信息,我这里设置的告警关键字是"告警"。
注意:该脚本要求至少python2.6.6版本,且具有requests模块,否则会报如下错误:
Traceback (most recent call last):
File "./dingding.py", line 4, in
import requests,json,sys,os,datetime
ImportError: No module named requests
解决办法如下:
yum install python-pip
pip install --upgrade pip
pip install requests
(2)钉钉群收到报警信息:
(3)在ZabbixServer上查看发送消息日志:
[root@controlnode alertscripts]# cat /var/log/zabbix/dingding.log
2.4、zabbix web 界面设置:
触发器触发"动作"——>特定的"报警媒介"——>单个用户的账号或用户组中用户的账号
1、创建报警媒介:
(1)
(2)
脚本参数:
{ALERT.SENDTO}
#对应脚本中的,user=sys.argv[1](发给钉钉群中哪个用户)。
{ALERT.SUBJECT}
#代表发送的信息的标题,在"报表"的"动作日志"中可以看到。
{ALERT.MESSAGE}
#对应脚本中的,text=sys.argv[3](发送的报警内容)。
2、添加报警动作,将报警发送给Admin用户:
(1)
(2)
(3)
(4)
(5)
1)
"主题"对应"钉钉告警"媒介中的:{ALERT.SUBJECT}
"消息"对应"钉钉告警"媒介中的:{ALERT.MESSAGE}
2)
主题:
服务故障告警:{TRIGGER.STATUS}: {TRIGGER.NAME}
消息:
服务故障告警:{TRIGGER.STATUS}: {TRIGGER.NAME}
告警主机:{HOST.NAME}
主机IP: {HOST.IP}
告警时间:{EVENT.DATE} {EVENT.TIME}
告警等级:{TRIGGER.SEVERITY}
告警信息:{TRIGGER.NAME}
问题详情:{ITEM.NAME}:{ITEM.VALUE}
当前状态:{TRIGGER.STATUS}:{ITEM.VALUE1}
事件ID: {EVENT.ID}
(6)
(7)
主题:
服务故障恢复告警:{TRIGGER.STATUS}: {TRIGGER.NAME}
消息:
服务故障恢复告警:{TRIGGER.STATUS}: {TRIGGER.NAME}
告警主机:{HOST.NAME}
主机IP: {HOST.IP}
告警时间:{EVENT.DATE} {EVENT.TIME}
告警等级:{TRIGGER.SEVERITY}
告警信息:{TRIGGER.NAME}
问题详情:{ITEM.NAME}:{ITEM.VALUE}
当前状态:{TRIGGER.STATUS}:{ITEM.VALUE1}
事件ID: {EVENT.ID}
(8)
3、给用户添加报警媒介:
(1)
(2)
"收件人"对应"钉钉告警"中的:{ALERT.SENDTO}
特别注意:这里只需要添加钉钉群里的任何一个成员的钉钉账号即可,即添加一个收件人,这样在机器人群里成员都能看到告警信息.
如果添加多个收件人,则机器人群里就会发送多个告警信息,一个收件人发一条信息.
(3)
2.5、报警测试(在zabbixServer服务器上进行测试):
1、监控nginx web服务:
(1)安装nginx:
[root@controlnode alertscripts]# yum install nginx -y
(2)修改端nginx端口号为8080(不然会和httpd的8080端口号重复):
[root@controlnode alertscripts]# vim /etc/nginx/nginx.conf
listen 8080 default_server;
listen [::]:8080 default_server;
(3)启动nginx并加入开机自启动:
[root@controlnode alertscripts]# systemctl start nginx
[root@controlnode alertscripts]# systemctl enable nginx
[root@controlnode alertscripts]# netstat -tunlp | grep 8080
2、创建web场景及web状态触发器:
(1)创建web场景:
1)
2)
3)
4)
5)
6)查看网站监控图形:
7)
8)
#网站的下载速度和网站的响应速度:
(2)添加web状态触发器:
上面第6步操作如下图:
3、创建tcp连接端口监控项及触发器:
(1)创建tcp连接端口监控项:
上面第6步骤选项如下:
(2)创建tcp连接端口监控项的触发器:
上面第6步骤选项如下:
4、查看触发器状态:
5、nginx web 服务停止告警:
(1)停止nginx服务:
[root@controlnode alertscripts]# systemctl stop nginx
(2)服务故障告警信息:
6、nginx web 服务恢复告警:
(1)启动nginx服务:
[root@controlnode alertscripts]# systemctl start nginx
(2)服务恢复告警信息:
手机扫一扫
移动阅读更方便
你可能感兴趣的文章