编程 Python

python 消费 kafka 数据教程

Posted in Python onDecember 21, 2019

1.安装python模块

pip install --user kafka-python==1.4.3

如果报错压缩相关的错尝试安装下面的依赖

yum install snappy-devel
yum install lz4-devel
pip install python-snappy
pip install lz4

2.生产者

#!/usr/bin/env python
# coding : utf-8

from kafka import KafkaProducer
import json

def kafkaProducer():
  producer = KafkaProducer(bootstrap_servers='ip:9092',value_serializer=lambda v: json.dumps(v).encode('utf-8'))
  producer.send('world', {'key1': 'value1'})

if __name__ == '__main__':
  kafkaProducer()

2.消费者

from kafka import KafkaConsumer
from kafka.structs import TopicPartition
import time
import click
import ConfigParser
import json
import threading
import datetime
import sched


config = ConfigParser.ConfigParser()
config.read("amon.ini")

@click.group()
def cli():
  pass

@cli.command()
@click.option('--topic',type=str)
@click.option('--offset', type=click.Choice(['smallest', 'earliest', 'largest']))
@click.option("--group",type=str)
def client(topic,offset,group):
  click.echo(topic)
  consumer = KafkaConsumer(topic,
               bootstrap_servers=config.get("KAFKA", "Broker_Servers").split(","),
               group_id=group,
               auto_offset_reset=offset)
  for message in consumer:
    click.echo(message.value)
    # click.echo("%d:%d: key=%s value=%s" % (message.partition,
    #                      message.offset, message.key,
    #                      message.value))

if __name__ == '__main__':
  cli()

3.多线程消费

#coding:utf-8
import threading

import os
import sys
from kafka import KafkaConsumer, TopicPartition, OffsetAndMetadata
from collections import OrderedDict


threads = []


class MyThread(threading.Thread):
  def __init__(self, thread_name, topic, partition):
    threading.Thread.__init__(self)
    self.thread_name = thread_name
    self.partition = partition
    self.topic = topic

  def run(self):
    print("Starting " + self.name)
    Consumer(self.thread_name, self.topic, self.partition)

  def stop(self):
    sys.exit()


def Consumer(thread_name, topic, partition):
  broker_list = 'ip1:9092,ip2:9092'

  '''
  fetch_min_bytes（int） - 服务器为获取请求而返回的最小数据量，否则请等待
  fetch_max_wait_ms（int） - 如果没有足够的数据立即满足fetch_min_bytes给出的要求，服务器在回应提取请求之前将阻塞的最大时间量（以毫秒为单位）
  fetch_max_bytes（int） - 服务器应为获取请求返回的最大数据量。这不是绝对最大值，如果获取的第一个非空分区中的第一条消息大于此值，
              则仍将返回消息以确保消费者可以取得进展。注意：使用者并行执行对多个代理的提取，因此内存使用将取决于包含该主题分区的代理的数量。
              支持的Kafka版本> = 0.10.1.0。默认值：52428800（50 MB）。
  enable_auto_commit（bool） - 如果为True，则消费者的偏移量将在后台定期提交。默认值：True。
  max_poll_records（int） - 单次调用中返回的最大记录数poll()。默认值：500
  max_poll_interval_ms（int） - poll()使用使用者组管理时的调用之间的最大延迟 。这为消费者在获取更多记录之前可以闲置的时间量设置了上限。
                如果 poll()在此超时到期之前未调用，则认为使用者失败，并且该组将重新平衡以便将分区重新分配给另一个成员。默认300000
  '''

  consumer = KafkaConsumer(bootstrap_servers=broker_list,
               group_id="test000001",
               client_id=thread_name,
               enable_auto_commit=False,
               fetch_min_bytes=1024 * 1024, # 1M
               # fetch_max_bytes=1024 * 1024 * 1024 * 10,
               fetch_max_wait_ms=60000, # 30s
               request_timeout_ms=305000,
               # consumer_timeout_ms=1,
               # max_poll_records=5000,
               )
  # 设置topic partition
  tp = TopicPartition(topic, partition)
  # 分配该消费者的TopicPartition，也就是topic和partition，根据参数，每个线程消费者消费一个分区
  consumer.assign([tp])
  #获取上次消费的最大偏移量
  offset = consumer.end_offsets([tp])[tp]
  print(thread_name, tp, offset)

  # 设置消费的偏移量
  consumer.seek(tp, offset)

  print u"程序首次运行\t线程:", thread_name, u"分区:", partition, u"偏移量:", offset, u"\t开始消费..."
  num = 0 # 记录该消费者消费次数
  while True:
    msg = consumer.poll(timeout_ms=60000)
    end_offset = consumer.end_offsets([tp])[tp]
    '''可以自己记录控制消费'''
    print u'已保存的偏移量', consumer.committed(tp), u'最新偏移量，', end_offset
    if len(msg) > 0:
      print u"线程:", thread_name, u"分区:", partition, u"最大偏移量:", end_offset, u"有无数据,", len(msg)
      lines = 0
      for data in msg.values():
        for line in data:
          print line
          lines += 1
        '''
        do something
        '''
      # 线程此批次消息条数

      print(thread_name, "lines", lines)
      if True:
        # 可以自己保存在各topic, partition的偏移量
        # 手动提交偏移量 offsets格式：{TopicPartition:OffsetAndMetadata(offset_num,None)}
        consumer.commit(offsets={tp: (OffsetAndMetadata(end_offset, None))})
        if True == 0:
          # 系统退出？这个还没试
          os.exit()
          '''
          sys.exit()  只能退出该线程，也就是说其它两个线程正常运行，主程序不退出
          '''
      else:
        os.exit()
    else:
      print thread_name, '没有数据'
    num += 1
    print thread_name, "第", num, "次"


if __name__ == '__main__':
  try:
    t1 = MyThread("Thread-0", "test", 0)
    threads.append(t1)
    t2 = MyThread("Thread-1", "test", 1)
    threads.append(t2)
    t3 = MyThread("Thread-2", "test", 2)
    threads.append(t3)

    for t in threads:
      t.start()

    for t in threads:
      t.join()

    print("exit program with 0")
  except:
    print("Error: failed to run consumer program")

参考：https://kafka-python.readthedocs.io/en/master/index.html

以上这篇python 消费 kafka 数据教程就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

python 消费 kafka 数据教程

- Author -

bigdataf

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python中除法使用的注意事项

Aug 21 Python

使用Python生成url短链接的方法

May 04 Python

Python 搭建Web站点之Web服务器网关接口

Nov 06 Python

Python中使用haystack实现django全文检索搜索引擎功能

Aug 26 Python

python3+PyQt5 数据库编程--增删改实例

Jun 17 Python

Django中的cookie和session

Aug 27 Python

python实现机器人卡牌

Oct 06 Python

python类中super() 的使用解析

Dec 19 Python

解决Pycharm 导入其他文件夹源码的2种方法

Feb 12 Python

Python3中configparser模块读写ini文件并解析配置的用法详解

Feb 18 Python

Python暴力破解Mysql数据的示例

Nov 09 Python

python开发一个解析protobuf文件的简单编译器

Nov 17 Python

python kafka 多线程消费者&手动提交实例

Dec 21 #Python

Python序列类型的打包和解包实例

Dec 21 #Python

Python 使用threading+Queue实现线程池示例

Dec 21 #Python

Python CSV文件模块的使用案例分析

Dec 21 #Python

python实现的分析并统计nginx日志数据功能示例

Dec 21 #Python

Python数据持久化存储实现方法分析

Dec 21 #Python

python cv2截取不规则区域图片实例

Dec 21 #Python

You might like

PHP+APACHE实现用户论证的方法

2006/10/09 PHP

ionCube 一款类似zend的PHP加密/解密工具

2010/07/25 PHP

php定时删除文件夹下文件(清理缓存文件)

2013/01/23 PHP

浅析memcache启动以及telnet命令详解

2013/06/28 PHP

ecshop添加菜单及权限分配问题

2017/11/21 PHP

Javascript miscellanea -display data real time, using window.status

2007/01/09 Javascript

为Extjs加加速(javascript加速)

2010/08/19 Javascript

jQuery制作拼图小游戏

2015/01/12 Javascript

js立即执行函数: (function ( ){})( ) 与 (function ( ){}( )) 有什么区别?

2015/11/18 Javascript

javascript图片延迟加载实现方法及思路

2015/12/31 Javascript

详解Vue.js——60分钟组件快速入门（上篇）

2016/12/05 Javascript

jquery无法为动态生成的元素添加点击事件的解决方法(推荐)

2016/12/26 Javascript

AngularJS中$http的交互问题

2017/03/29 Javascript

使用express+multer实现node中的图片上传功能

2018/02/02 Javascript

vue打包之后生成一个配置文件修改接口的方法

2018/12/09 Javascript

非常实用的jQuery代码段集锦【检测浏览器、滚动、复制、淡入淡出等】

2019/08/08 jQuery

[43:53]OG vs EG 2019国际邀请赛淘汰赛胜者组 BO3 第三场 8.22

2019/09/05 DOTA

[46:42]DOTA2-DPC中国联赛正赛 Aster vs Magma BO3 第二场 3月5日

2021/03/11 DOTA

从零学python系列之数据处理编程实例（二）

2014/05/22 Python

Python常用内置函数总结

2015/02/08 Python

python获取当前日期和时间的方法

2015/04/30 Python

python查看模块安装位置的方法

2018/10/16 Python

python的继承知识点总结

2018/12/10 Python

Python 使用PyQt5 完成选择文件或目录的对话框方法

2019/06/27 Python

Python中字符串List按照长度排序

2019/07/01 Python

Python中zip()函数的简单用法举例

2019/09/02 Python

wxPython实现带颜色的进度条

2019/11/19 Python

详解Anaconda安装tensorflow报错问题解决方法

2020/11/01 Python

python实现按日期归档文件

2021/01/30 Python

献爱心活动总结

2014/05/07 职场文书

签约仪式策划方案

2014/06/02 职场文书

财务工作失职检讨书

2014/11/21 职场文书

2014年房地产销售工作总结

2014/12/01 职场文书

结婚老公保证书

2015/02/26 职场文书

质量承诺书格式范文

2015/04/28 职场文书

励志语录：你若不勇敢，谁替你坚强

2019/11/08 职场文书