服务器 Servers

Zabbix对Kafka topic积压数据监控的解决方案

Posted in Servers onJuly 07, 2022

Kafka

Apache Kafka是一个分布式发布-订阅消息系统和一个强大的队列，可以处理大量的数据，并使您能够将消息从一个端点传递到另一个端点。

Kafka适合离线和在线消息消费。

Kafka消息保留在磁盘上，并在群集内复制以防止数据丢失。Kafka构建在ZooKeeper同步服务之上。它与Apache Storm和Spark非常好地集成，用于实时流式数据分析。

需求

虽然我们在生产环境中可以使用Kafka对业务进行解耦，但这并不意味着业务系统就高枕无忧了。消费者的消费速度是否能够匹配生产速度、过多的消息积压这些都可能影响业务系统的正常运行。

关于业务系统运行状态，虽然我们可以通过业务监控来确定，但是业务监控一般是要对数据进行聚合分析并达到一定的阈值才能触发告警。因此业务监控告警通知时，业务实际已经有问题一段时间了。为应对这种情况，我们一般需要和系统监控进行互补。系统监控会周期性的对硬件、网络、服务器、应用等不同维度进行监控告警，一旦某个组件的状态有问题，那么系统监控会先预警，然后业务系统才可能进一步预警。经过不同监控系统的告警升级，才更能准确的反映业务系统的运行状态。

话说回来，对于上线后的Kafka集群，我们除了要对服务的可用性进行监控外，还要对Topic的消费情况进一步监控。

解决方案

1.监控分析

Lag作为监控指标，它直接反映了一个消费者的运行情况。一个正常工作的消费者，它的Lag值应该很小，甚至是接近于0的，这表示该消费者能够及时地消费生产者生产出来的消息，滞后程度很小。

因此我们将Topic作为我们的监控项，当相关的Topic Lag达到某一阈值时进行多渠道告警。

另经过Kafka运行机制的我们知道：

每个Topic内部需要按照Partition进行再次分区
同一个topic的partition只能由同一个消费者组（group）内的一个consumer来消费，分区数决定了同组消费者个数的上限

Zabbix对Kafka topic积压数据监控的解决方案

通过以上“Topic-Partition-消费者组(group)”之间的关系，为了便于我们通过告警信息更快的定位故障点：

监控项命名规则：消费者组(Group)/Topic/Partition，三者组成唯一的监控项；
监控项Lag值：获取业务系统中某个消费者组的特定Topic所有分区的Lag值进行告警；

2.监控思路

(1) 消费者组管理

通过Kafka自带的kafka-consumer-groups.sh脚本，我们可以轻松获取查看指定消费组消费的所有Topic、及所在分区、最新消费offset、Log最新数据offset、Lag还未消费数量、消费者ID等等信息

# 查看消费者组的topic 消费状态
bash kafka-consumer-groups.sh --bootstrap-server 192.168.3.55:9090 --describe --group test2_consumer_group
TOPIC PARTITION CURRENT-OFFSET LOG-END-OFFSET LAG CONSUMER-ID HOST CLIENT-ID
test 0 1000000 1000000 0 consumer-1-8688633a-2f88-4c41-89ca-fd0cd6d19ec7 /127.0.0.1 consumer-1
test 1 1000000 1000000 0 consumer-1-8688633a-2f88-4c41-89ca-fd0cd6d19ec7 /127.0.0.1 consumer-1
test 2 1000000 1000000 0 consumer-1-8688633a-2f88-4c41-89ca-fd0cd6d19ec7 /127.0.0.1 consumer-1
test 3 1000000 1000000 0 consumer-1-8688633a-2f88-4c41-89ca-fd0cd6d19ec7 /127.0.0.1 consumer-1

(2)分区自动发现

对于Kafka topic的监控我们使用Zabbix监控平台，考虑到后续业务系统的持续性接入，我们通过Zabbix自动发现实现对特定消费者组(Group)和Topic下所有分区自动发现:

# 自动发现
vim consumer-groups.conf
#按消费者组(Group)|Topic格式，写入自动发现配置文件
test-group|test
# 执行脚本自动发现指定消费者和topic的分区
bash consumer-groups.sh discovery
{
    "data": [
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"0" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"1" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"3" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"2" }
    ]
}

自动发现中的GROUP、TOPIC、PARTITION 这三个信息可以用于进一步过滤不同的分区的Lag值和监控系统中的监控项名称:

test-group/test/分区0
test-group/test/分区1
test-group/test/分区2
test-group/test/分区3
等其他 test-group/test相关的所有分区

(3)获取监控项“test-group/test/分区X”的Lag

# 获取分区0 lag
bash consumer-groups.sh lag 0
# 获取分区1 lag
bash consumer-groups.sh lag 1
# 获取分区2 lag
bash consumer-groups.sh lag 2
# 获取分区3 lag
bash consumer-groups.sh lag 3

（4）最终脚本

vim consumer-groups.sh
#!/bin/bash
#comment: 根据消费者组监控topic lag，进行监控告警
#配置文件说明
#消费者组|Topic
#test-group|test
#获取topic 信息
cal_topic() {
    if [ $# -ne 2 ]; then
        echo "parameter num error, 读取topic信息失败"
        exit 1
    else
        /usr/local/kafka/bin/kafka-consumer-groups.sh --bootstrap-server 192.168.3.55:9092 --describe --group $1 |grep -w $2
    fi
}
#topic+分区自动发现
topic_discovery() {
    printf "{\n"
    printf "\t\"data\": [\n"
    for line in `cat /data/scripts/consumer-groups.conf`
    do
        group=`echo ${line} | awk -F'|' '{print $1}'`
        topic=`echo ${line} | awk -F'|' '{print $2}'`
        cal_topic $group $topic > /tmp/consumer-group-tmp
        count=`cat /tmp/consumer-group-tmp|wc -l`
        n=0
        while read line
        do
             n=`expr  $n + 1`
             #判断最后一行
             if [ $n -eq $count ]; then
                 topicp=`echo $line | awk '{print $1}'`
                 partition=`echo $line  | awk '{print $2}'`
                 printf "\t\t{ \"{#GROUP}\":\"${group}\", \"{#TOPICP}\":\"${topicp}\", \"{#PARTITION}\":\"${partition}\" }\n"
             else
                 topicp=`echo $line | awk '{print $1}'`
                 partition=`echo $line  | awk '{print $2}'`
                 printf "\t\t{ \"{#GROUP}\":\"${group}\", \"{#TOPICP}\":\"${topicp}\", \"{#PARTITION}\":\"${partition}\" },\n"
             fi
        done < /tmp/consumer-group-tmp
    done
    printf "\t]\n"
    printf "}\n"
}


if [ $1 == "discovery" ]; then
    topic_discovery
elif [ $1 == "lag" ];then
    cat /tmp/consumer-group-tmp |awk -v p=$2 '{if($2==p){print $5}}'
else
    echo "Usage: /data/scripts/consumer-group.sh discovery | lag"
fi

3.Zabbix 自动发现配置

1.自动发现配置

Zabbix对Kafka topic积压数据监控的解决方案

2.监控项原型通过消费者组、Topic、Partition 组成监控项名称，告警信息中的名称能够帮助我们快定位故障点。

Zabbix对Kafka topic积压数据监控的解决方案

3.触发器我们lag的初始阈值设置为50，可根据时间情况进行调整。

Zabbix对Kafka topic积压数据监控的解决方案

4.告警信息

告警主机：Kafka_192.168.3.55
主机IP：192.168.3.55
主机组：Kafka
告警时间：2022.03.21 00:23:10
告警等级：Average
告警信息：test-group/test/分区1:数据积压62
告警项目：topic_lag[test,1]
问题详情：
test-group/test/1: 62

到此这篇关于Zabbix对Kafka topic积压数据监控的文章就介绍到这了,更多相关Zabbix Kafka 监控内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

Zabbix对Kafka topic积压数据监控的解决方案

- Author -

木讷大叔爱运维

- Original Sources -

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Tags in this post...

zabbix(9)

Servers 相关文章推荐

Nginx代理同域名前后端分离项目的完整步骤

Mar 31 Servers

Mac环境Nginx配置和访问本地静态资源的实现

Mar 31 Servers

Nginx如何配置Http、Https、WS、WSS的方法步骤

May 11 Servers

Kubernetes中Deployment的升级与回滚

Apr 01 Servers

CentOS7和8下安装Maven3.8.4

Apr 07 Servers

Nginx 常用配置

May 15 Servers

Nginx开源可视化配置工具NginxConfig使用教程

Jun 21 Servers

win server2012 r2服务器共享文件夹如何设置

Jun 21 Servers

Windows server 2022创建创建林、域树、子域的步骤

Jun 25 Servers

如何让你的Nginx支持分布式追踪详解

Jul 07 Servers

kubernetes集群搭建Zabbix监控平台的详细过程

Jul 07 Servers

Zabbix对Kafka topic积压数据监控的问题(bug优化)

nginx静态资源的服务器配置方法

Jul 07 #Servers

Nginx配置使用详解

nginx代理实现静态资源访问的示例代码

Jul 07 #Servers

使用 DataAnt 监控 Apache APISIX的原理解析

设置IIS Express并发数

Linux中sftp常用命令整理

Jun 28 #Servers

比利时购物网站(33) 台湾购物网站(77) 意大利购物网站(128) 挪威购物网站(7) 澳大利亚购物网站(309) 肯尼亚购物网站(2) 法国购物网站(144) 阿根廷购物网站(9) 印尼购物网站(37) 丹麦购物网站(22)

You might like

php socket方式提交的post详解

2008/07/19 PHP

解析phpstorm + xdebug 远程断点调试

2013/06/20 PHP

php生成动态验证码gif图片

2015/10/19 PHP

php防止网站被攻击的应急代码

2015/10/21 PHP

php并发加锁问题分析与设计代码实例讲解

2021/02/26 PHP

BOOM vs RR BO5 第一场 2.14

2021/03/10 DOTA

js通过googleAIP翻译PHP系统的语言配置的实现代码

2011/10/17 Javascript

12款经典的白富美型—jquery图片轮播插件—前端开发必备

2013/01/08 Javascript

jquery 卷帘效果实现代码(不同方向)

2013/02/05 Javascript

JS.findElementById()使用介绍

2013/09/21 Javascript

JS动态添加与删除select中的Option对象(示例代码)

2013/12/20 Javascript

jquery 取子节点及当前节点属性值

2014/07/25 Javascript

jquery实现对联广告的方法

2015/02/05 Javascript

使用JavaScript实现弹出层效果的简单实例

2016/05/31 Javascript

一次$.getJSON不执行的简单记录

2016/07/19 Javascript

原生js的ajax和解决跨域的jsonp(实例讲解)

2017/10/16 Javascript

JS兼容所有浏览器的DOMContentLoaded事件

2018/01/12 Javascript

微信小程序wx.request拦截器使用详解

2019/07/09 Javascript

vue中filters 传入两个参数 / 使用两个filters的实现方法

2019/07/15 Javascript

JS获取当前时间的年月日时分秒及时间的格式化的方法

2019/12/18 Javascript

[02:09:59]火猫TV国士无双dota2 6.82版本详解（下）

2014/09/29 DOTA

[01:14:34]DOTA2上海特级锦标赛C组资格赛#2 LGD VS Newbee第一局

2016/02/28 DOTA

[58:18]2018DOTA2亚洲邀请赛3月29日小组赛B组 iG VS Mineski

2018/03/30 DOTA

[42:52]Optic vs Serenity 2018国际邀请赛淘汰赛BO3 第二场 8.22

2018/08/23 DOTA

Python排序搜索基本算法之选择排序实例分析

2017/12/09 Python

Django 实现购物车功能的示例代码

2018/10/08 Python

Python3使用Selenium获取session和token方法详解

2021/02/16 Python

卡骆驰德国官方网站：Crocs德国

2019/03/29 全球购物

现代绅士日常奢侈品：Todd Snyder

2019/12/13 全球购物

造型师求职自荐信

2013/09/27 职场文书

中学运动会广播稿

2014/01/19 职场文书

采购部经理岗位职责

2014/02/10 职场文书

根叔历年演讲稿

2014/05/20 职场文书

年终考核实施方案

2014/05/26 职场文书

离婚财产分隔协议书

2014/10/23 职场文书

学生个人评语大全

2015/01/04 职场文书

Zabbix对Kafka topic积压数据监控的解决方案

目录

Kafka

需求

解决方案

1.监控分析

2.监控思路

(1) 消费者组管理

(2)分区自动发现

(3)获取监控项“test-group/test/分区X”的Lag

（4）最终脚本

3.Zabbix 自动发现配置

4.告警信息