服务器 Servers

Zabbix对Kafka topic积压数据监控的问题(bug优化)

Posted in Servers onJuly 07, 2022

简述

《Zabbix对Kafka topic积压数据监控》一文的目的是通过Zabbix自动发现实现对多个消费者组的Topic及Partition的Lag进行监控。因在实际监控中发现有问题，为给感兴趣的读者不留坑，特通过此文对监控进行优化调整。

分区自动发现

# 未优化前的计算方式：
# 自动发现配置文件
vim consumer-groups.conf
#按消费者组(Group)|Topic格式，写入自动发现配置文件
test-group|test
# 执行脚本自动发现指定消费者和topic的分区
bash consumer-groups.sh discovery
{
    "data": [
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"0" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"1" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"3" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"2" }
    ]
}

经过上线验证，当自动发现配置文件只有一个test-group|test是没有问题的，但当我们按需求再接入test-group|test1 （即test-group消费者组的第二个Topic）时，自动发现的结果如下：

# 未优化前的计算方式：
vim consumer-groups.conf
#按消费者组(Group)|Topic格式，写入自动发现配置文件
test-group|test
test-group|test1

# 执行脚本自动发现指定消费者和topic的分区
bash consumer-groups.sh discovery
{
    "data": [
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"0" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"1" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"3" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"2" }
        { "{#GROUP}":"test-group", "{#TOPICP}":"test1", "{#PARTITION}":"0" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test2", "{#PARTITION}":"1" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test3", "{#PARTITION}":"2" }
    ]
}

了解Zabbix自动发现格式的同学会发现，每个Topic的Partition会出现','，这种格式是不符合规范，这就是导致我们的监控项会出现问题，因此我们需要进一步修改脚本。

经修改后，最终效果应该如下：

# 优化后的计算方式：
vim consumer-groups.conf
#按消费者组(Group)|Topic格式，写入自动发现配置文件
test-group|test
test-group|test1

# 执行脚本自动发现指定消费者和topic的分区
bash consumer-groups.sh discovery
{
    "data": [
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"0" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"1" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"3" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"2" }，
        { "{#GROUP}":"test-group", "{#TOPICP}":"test1", "{#PARTITION}":"0" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test1", "{#PARTITION}":"1" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test1", "{#PARTITION}":"2" }
    ]
}

获取监控项“test-group/test/分区X”的Lag

经过自动发现后的数据，我们可以进一步获取不同分区的lag

# 优化后的计算方式：
# test-group test分区0 lag
bash consumer-groups.sh lag test-group test 0
# test-group test分区1 lag
bash consumer-groups.sh lag test-group test 1
# test-group test1分区0 lag
bash consumer-groups.sh lag test-group test1 0

通过命令可以看到，我们的参数通过消费者组、Topic、Partition来获取最终的lag值，如果不加消费者区分，那么无法区分不同消费者组和不同Topic相应的lag结果：

# 未优化前的计算方式：
# 获取分区0 lag
bash consumer-groups.sh lag 0
# 获取分区1 lag
bash consumer-groups.sh lag 1
# 获取分区2 lag
bash consumer-groups.sh lag 2
# 获取分区3 lag
bash consumer-groups.sh lag 3

最终优化后脚本

# 自动发现配置文件
vim consumer-groups.conf
#按消费者组(Group)|Topic格式，写入自动发现配置文件
test-group|test
test-group|test1

# 自动发现、lag计算脚本
vim consumer-groups.sh
#!/bin/bash
##comment: 根据消费者组监控topic lag，进行监控告警
#配置文件说明
#消费者组|Topic
#test-group|test

#获取topic 信息
cal_topic() {
    if [ $# -ne 2 ]; then
        echo "parameter num error, 读取topic信息失败"
        exit 1
    else
        /usr/local/kafka/bin/./kafka-consumer-groups.sh --bootstrap-server 192.168.3.55:9092 --describe --group $1 |grep -w $2|grep -v none 
    fi
}
#topic+分区自动发现
topic_discovery() {
    printf "{\n"
    printf "\t\"data\": [\n"
    m=0
    num=`cat /etc/zabbix/monitor_scripts/consumer-groups.conf|wc -l`
    for line in `cat /etc/zabbix/monitor_scripts/consumer-groups.conf`
    do  
        m=`expr $m + 1`
        group=`echo ${line} | awk -F'|' '{print $1}'`
        topic=`echo ${line} | awk -F'|' '{print $2}'`
        cal_topic $group $topic > /tmp/consumer-group-tmp
        count=`cat /tmp/consumer-group-tmp|wc -l`
        n=0
        while read line
        do
             n=`expr  $n + 1`
             #判断最后一行
             if [ $n -eq $count ] && [ $m -eq $num ]; then
                 topicp=`echo $line | awk '{print $1}'`
                 partition=`echo $line  | awk '{print $2}'`
                 printf "\t\t{ \"{#GROUP}\":\"${group}\", \"{#TOPICP}\":\"${topicp}\", \"{#PARTITION}\":\"${partition}\" }\n"
             else
                 topicp=`echo $line | awk '{print $1}'`
                 partition=`echo $line  | awk '{print $2}'`
                 printf "\t\t{ \"{#GROUP}\":\"${group}\", \"{#TOPICP}\":\"${topicp}\", \"{#PARTITION}\":\"${partition}\" },\n"
             fi
        done < /tmp/consumer-group-tmp
    done
    printf "\t]\n"
    printf "}\n"
}


if [ $1 == "discovery" ]; then
    topic_discovery
elif [ $1 == "lag" ];then
    cal_topic $2 $3 > /tmp/consumer-group
    cat /tmp/consumer-group |awk -v t=$3 -v p=$4 '{if($1==t && $2==p ){print $5}}'
else
    echo "Usage: /data/scripts/consumer-group.sh discovery | lag"
fi

# 手动运行
## 自动发现
bash consumer-groups.sh discovery
## test-group test分区0 lag
bash consumer-groups.sh lag test-group test 0

接入Zabbix

1.Zabbix配置文件

vim userparameter_kafka.conf
UserParameter=topic_discovery,bash /data/scripts/consumer-groups.sh discovery
UserParameter=topic_log[*],bash /data/scripts/consumer-groups.sh lag "$1" "$2" "$3"

2.Zabbix自动发现

Zabbix对Kafka topic积压数据监控的问题(bug优化)

3.监控项配置

Zabbix对Kafka topic积压数据监控的问题(bug优化)

4.告警信息

告警主机：Kafka_192.168.3.55
主机IP：192.168.3.55
主机组：Kafka
告警时间：2022.03.21 00:23:10
告警等级：Average
告警信息：test-group/test/分区1:数据积压100
告警项目：topic_lag[test-group,test,1]
问题详情：
test-group/test/1: 62

到此这篇关于Zabbix对Kafka topic积压数据监控的文章就介绍到这了,更多相关Zabbix积压数据监控内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

Zabbix对Kafka topic积压数据监控的问题(bug优化)

- Author -

木讷大叔爱运维

- Original Sources -

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Tags in this post...

zabbix(9)

Servers 相关文章推荐

Nginx反爬虫策略，防止UA抓取网站

Mar 31 Servers

Nginx使用X-Accel-Redirect实现静态文件下载的统计、鉴权、防盗链、限速等

Apr 04 Servers

Nginx速查手册及常见问题

Apr 07 Servers

Windows Server 2012 R2 磁盘分区教程

Apr 29 Servers

解决Windows Server2012 R2 无法安装 .NET Framework 3.5

Apr 29 Servers

解决Vmware虚拟机安装centos8报错“Section %Packages Does Not End With %End. Pane Is Dead”

Jun 01 Servers

netty 实现tomcat的示例代码

Jun 05 Servers

Win Server2016远程桌面如何允许多用户同时登录

Jun 10 Servers

nginx之queue的具体使用

Jun 28 Servers

Windows Server 2008配置防火墙策略详解

Jun 28 Servers

Windows server 2003卸载和安装IIS的图文教程

Jul 15 Servers

Nginx如何限制IP访问只允许特定域名访问

Jul 23 Servers

nginx静态资源的服务器配置方法

Jul 07 #Servers

Nginx配置使用详解

nginx代理实现静态资源访问的示例代码

Jul 07 #Servers

使用 DataAnt 监控 Apache APISIX的原理解析

设置IIS Express并发数

Linux中sftp常用命令整理

Jun 28 #Servers

TaiShan 200服务器安装Ubuntu 18.04的图文教程

Jun 28 #Servers

比利时购物网站(33) 瑞典购物网站(55) 荷兰购物网站(99) 挪威购物网站(7) 葡萄牙购物网站(13) 欧洲购物网站(15) 哥伦比亚购物网站(5) 泰国购物网站(30) 芬兰购物网站(10) 南非购物网站(8)

You might like

我的论坛源代码(四)

2006/10/09 PHP

如何隐藏你的.php文件

2007/01/04 PHP

用PHP实现维护文件代码

2007/06/14 PHP

php为什么选mysql作为数据库？ Mysql 创建用户方法

2007/07/02 PHP

php文本转图片自动换行的方法

2013/03/13 PHP

php实现多张图片上传加水印技巧

2013/04/18 PHP

php模板引擎技术简单实现

2016/03/15 PHP

PHP表单验证内容是否为空的实现代码

2016/11/14 PHP

stripos函数知识点实例分享

2019/02/11 PHP

Laravel框架学习笔记之批量更新数据功能

2019/05/30 PHP

javascript 寻找错误方法整理

2014/06/15 Javascript

jQuery固定浮动侧边栏实现思路及代码

2014/09/28 Javascript

js控制文本框只输入数字和小数点的方法

2015/03/10 Javascript

JavaScript实现级联菜单的方法

2015/06/29 Javascript

表单元素值获取方式js及java方式的简单实例

2016/10/15 Javascript

js实现带缓动动画的导航栏效果

2017/01/16 Javascript

微信小程序扎金花简单实例

2017/02/21 Javascript

JS实现的A*寻路算法详解

2018/12/14 Javascript

JS实现星星海特效

2019/12/24 Javascript

vue项目,代码提交至码云,iconfont的用法说明

2020/07/30 Javascript

跟老齐学Python之有容乃大的list(4)

2014/09/28 Python

Python下的Softmax回归函数的实现方法(推荐)

2017/01/26 Python

python+requests+unittest API接口测试实例(详解)

2017/06/10 Python

基于随机梯度下降的矩阵分解推荐算法（python）

2018/08/31 Python

Python进阶之@property动态属性的实现

2019/04/01 Python

Django Sitemap 站点地图的实现方法

2019/04/29 Python

Python定时任务随机时间执行的实现方法

2019/08/14 Python

python+selenium定时爬取丁香园的新型冠状病毒数据并制作出类似的地图（部署到云服务器）

2020/02/09 Python

Python 实现国产SM3加密算法的示例代码

2020/09/21 Python

突袭HTML5之Javascript API扩展2—地理信息服务及地理位置API学习

2013/01/31 HTML / CSS

游戏商店：Eneba

2020/04/25 全球购物

什么是GWT的Entry Point

2013/08/16 面试题

国家励志奖学金个人先进事迹材料

2014/05/04 职场文书

初中信息技术教学计划

2015/01/22 职场文书

导游词之五台山

2019/10/11 职场文书

Python基础详解之邮件处理

2021/04/28 Python

Zabbix对Kafka topic积压数据监控的问题(bug优化)

目录

简述

分区自动发现

获取监控项“test-group/test/分区X”的Lag

最终优化后脚本

接入Zabbix

1.Zabbix配置文件

2.Zabbix自动发现

3.监控项配置

4.告警信息