编程 Python

python中如何使用分步式进程计算详解

Posted in Python onMarch 22, 2019

前言

在python中使用多进程和多线程都能达到同时运行多个任务，和多进程和多线程的选择上，应该优先选择多进程的方式，因为多进程更加稳定，且对于进程的操作管理也更加方便，但有一点是多进程独有的杀手锏，多进程可以将进程分步到多台机器上跑，假如有很多个任务，一台机器即使开了多进程或者多进程跑起来还是要耗很多时间，那么这时就要想一下可否将任务分配到多台机器上跑，这样可以更快的完成任务。

在分步式进程运算中，进程之前的通信还是依赖于Queue,但此时的队列不能直接使用，需要使用multiprocessing.managers.BaseManager 进行包装，通过回调以后才能使用，既然是分步式的调用，那么应该有一个服务端和一个客户端，服务端通过网络协议将队列中的信息给各个客户端进行调用，客户端也可以通过队列将结果返回，然后服务端进行结果的收集展示，流程如下

python中如何使用分步式进程计算详解
分步式流程

服务端将任务放到 task_queue 中，然后四个客户端通过网络端口从task_queue中获取到任务，然后进行计算，再将结果放到result_queue中，最后服务端统一处理结果。整体的流程比较清晰，只是需要强调，这里的队列不能是原始的队列，需要使用BaseManager 进行包装。

先看一下服务端的代码

#coding:gbk
import time, queue
from multiprocessing.managers import BaseManager
from multiprocessing import freeze_support

# 任务个数
task_number = 10
# 定义收发队列
task_queue = queue.Queue(task_number)
result_queue = queue.Queue(task_number)


def gettask():
 return task_queue


def getresult():
 return result_queue


def test():
 # windows下绑定调用接口不能使用lambda，所以只能先定义函数再绑定
 BaseManager.register('get_task', callable=gettask)
 BaseManager.register('get_result', callable=getresult)
 # 绑定端口并设置验证码，windows下需要填写ip地址，linux下不填默认为本地
 manager = BaseManager(address=('127.0.0.1', 5002), authkey=b'123')
 # 启动
 manager.start()
 try:
  # 通过网络获取任务队列和结果队列
  task = manager.get_task()
  result = manager.get_result()
  # 添加任务
  for i in range(task_number):
   print('Put task %d...' % i)
   task.put(i)
  # 每秒检测一次是否所有任务都被执行完
  while not result.full():
   print(task.qsize())
   time.sleep(1)
  for i in range(result.qsize()):
   ans = result.get()
   print('task %d is finish , runtime:%d s' % ans)
 except:
  print('Manager error')
 finally:
  manager.shutdown()


if __name__ == '__main__':
 # windows下多进程可能会炸，添加这句可以缓解
 freeze_support()
 test()

这里重点说一下 BaseManager.register('get_task', callable=gettask) 这行代码，它的意思是注册一个get_task的操作，执行的操作是gettask()函数，上面定义了gettask()函数，返回的是task_queue,这也是之前说的不能直接使用queue.Queue,必须要使用通过BaseManager的register接口封装过的的队列,下面使用task = manager.get_task()来获取到这个队列。

manager = BaseManager(address=('127.0.0.1', 5002), authkey=b'123')

这行代码初始了一个manager,它绑定了本机的5002端口，并且在客户端连接的时候需要一个密码:123。

接下来看一下客户端代码。

#coding:gbk

import time, sys, queue, random
from multiprocessing.managers import BaseManager
BaseManager.register('get_task')
BaseManager.register('get_result')
conn = BaseManager(address = ('127.0.0.1',5002), authkey = b'123')
try:
 conn.connect()
except:
 print('连接失败')
 sys.exit()
task = conn.get_task()
result = conn.get_result()
while not task.empty():
 print(task.qsize())
 n = task.get(timeout = 1)
 print('run task %d' % n)
 sleeptime = random.randint(0,3)
 time.sleep(sleeptime)
 rt = (n, sleeptime)
 result.put(rt)
if __name__ == '__main__':
 pass;

这里主要看以下的代码

BaseManager.register('get_task')
BaseManager.register('get_result')

这两个是注册函数，和之前的服务端所对应，之前服务端注册了这两个函数，这里才能注册使用，注意这里不能注册服务端没有注册的函数

运行一下，先运行服务端，然后再启两个cmd运行客户端，也可以在局域网中的另外的机器上运行，但是要修改服务端的ip地址

服务端的结果如下

Put task 0...
Put task 1...
Put task 2...
Put task 3...
Put task 4...
Put task 5...
Put task 6...
Put task 7...
Put task 8...
Put task 9...
task 0 is finish , runtime:3 s
task 1 is finish , runtime:0 s
task 2 is finish , runtime:2 s
task 4 is finish , runtime:1 s
task 3 is finish , runtime:3 s
task 6 is finish , runtime:1 s
task 7 is finish , runtime:0 s
task 5 is finish , runtime:3 s
task 8 is finish , runtime:2 s
task 9 is finish , runtime:3 s

两个客户端的结果分别如下

客户端1

10
run task 0
9
run task 1
8
run task 2
6
run task 4
5
run task 5
1
run task 9

客户端2

7
run task 3
4
run task 6
3
run task 7
2
run task 8

一起运行的截图如下

python中如何使用分步式进程计算详解结果

由于队列是线程安全的，所以这里不用加锁，在客户端中打印print(task.qsize()) 当前的队列大小，可以看到队列的信息中同步到各个客户端的。

最后还是要多说一句，分步式多进程虽然可以把任务分散到不同的机器上运行，可以处理多任务，但是如果此时服务端挂掉的话，任务就全丢掉了，所以在生产环境下还是考虑使用消息中间件如kafka等。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对三水点靠木的支持。

python中如何使用分步式进程计算详解

- Author -

杨彦星

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python 解析XML文件

Apr 15 Python

python正则匹配抓取豆瓣电影链接和评论代码分享

Dec 27 Python

Python中asyncore的用法实例

Sep 29 Python

Python函数参数类型*、**的区别

Apr 11 Python

python爬虫获取多页天涯帖子

Feb 23 Python

解决python 未发现数据源名称并且未指定默认驱动程序的问题

Dec 07 Python

Python实现二维曲线拟合的方法

Dec 29 Python

python求加权平均值的实例(附纯python写法)

Aug 22 Python

解决运行出现'dict' object has no attribute 'has_key'问题

Jul 15 Python

Python 解析简单的XML数据

Jul 24 Python

Jupyter notebook命令和编辑模式常用快捷键汇总

Nov 17 Python

使用python tkinter开发一个爬取B站直播弹幕工具的实现代码

Feb 07 Python

浅谈Python基础—判断和循环

Mar 22 #Python

浅谈python常用程序算法

Mar 22 #Python

python实现移位加密和解密

Mar 22 #Python

python实现可逆简单的加密算法

Mar 22 #Python

python实现字符串加密生成唯一固定长度字符串

Mar 22 #Python

详解Python循环作用域与闭包

Mar 21 #Python

浅谈python之高阶函数和匿名函数

Mar 21 #Python

You might like

PHP file_exists问题杂谈

2012/05/07 PHP

PHP类的反射用法实例

2014/11/03 PHP

php中namespace use用法实例分析

2016/01/22 PHP

thinkphp修改配置进入默认首页的方法

2017/02/07 PHP

ExtJS4 Grid改变单元格背景颜色及Column render学习

2013/02/06 Javascript

jquery中animate动画积累的解决方法

2013/10/05 Javascript

javascript中的原型链深入理解

2014/02/24 Javascript

js防止页面被iframe调用的方法

2014/10/30 Javascript

JavaScript运行过程中的“预编译阶段”和“执行阶段”

2015/12/16 Javascript

用JavaScript获取页面文档内容的实现代码

2016/06/10 Javascript

用原生js统计文本行数的简单示例

2016/08/19 Javascript

AngularJS动态绑定HTML的方法分析

2016/11/07 Javascript

深入理解vue.js双向绑定的实现原理

2016/12/05 Javascript

用move.js库实现百叶窗特效

2017/02/08 Javascript

vue页面加载闪烁问题的解决方法

2018/03/28 Javascript

vue组件与复用详解

2018/04/08 Javascript

使用vue-cli导入Element UI组件的方法

2018/05/16 Javascript

详解nuxt 微信公众号支付遇到的问题与解决

2019/08/26 Javascript

用JS实现选项卡

2020/03/23 Javascript

javascript局部自定义鼠标右键菜单

2020/12/08 Javascript

Cython编译python为so 代码加密示例

2019/12/23 Python

python3访问字典里的值实例方法

2020/11/18 Python

Prometheus开发中间件Exporter过程详解

2020/11/30 Python

基于HTML5 Canvas:字符串,路径,背景,图片的详解

2013/05/09 HTML / CSS

印尼值得信赖的在线交易网站：Bukalapak

2019/03/11 全球购物

英国珠宝和手表专家：Pleasance & Harper

2020/10/21 全球购物

几个人围成一圈的问题

2013/09/26 面试题

临床医学系毕业生推荐信

2013/11/09 职场文书

办公室内勤工作职责

2013/12/11 职场文书

经典的毕业生自荐信范文

2014/04/14 职场文书

分公司总经理岗位职责

2014/07/30 职场文书

优秀班集体申报材料

2014/12/25 职场文书

感恩父母主题班会

2015/08/12 职场文书

婚庆答谢词大全

2015/09/29 职场文书

2019大学生实习报告

2019/06/21 职场文书

导游词之江苏溱潼古镇

2019/11/27 职场文书