编程 Python

Python多进程库multiprocessing中进程池Pool类的使用详解

Posted in Python onNovember 24, 2017

问题起因

最近要将一个文本分割成好几个topic，每个topic设计一个regressor，各regressor是相互独立的，最后汇总所有topic的regressor得到总得预测结果。没错！类似bagging ensemble！只是我没有抽样。文本不大，大概3000行，topic个数为8，于是我写了一个串行的程序，一个topic算完之后再算另一个topic。可是我在每个topic中用了GridSearchCV来调参，又要选特征又要调整regressor的参数，导致参数组合一共有1782种。我真是低估了调参的时间，程序跑了一天一夜最后因为忘记import一个库导致最终的预测精度没有算出来。后来想到，既然每个topic的预测都是独立的，那是不是可以并行呢？

Python中的多线程与多进程

但是听闻Python的多线程实际上并不能真正利用多核，所以如果使用多线程实际上还是在一个核上做并发处理。不过，如果使用多进程就可以真正利用多核，因为各进程之间是相互独立的，不共享资源，可以在不同的核上执行不同的进程，达到并行的效果。同时在我的问题中，各topic相互独立，不涉及进程间的通信，只需最后汇总结果，因此使用多进程是个不错的选择。

multiprocessing

一个子进程

multiprocessing模块提供process类实现新建进程。下述代码是新建一个子进程。

from multiprocessing import Process

def f(name):
  print 'hello', name

if __name__ == '__main__':
  p = Process(target=f, args=('bob',)) # 新建一个子进程p，目标函数是f，args是函数f的参数列表
  p.start() # 开始执行进程
  p.join() # 等待子进程结束

上述代码中p.join()的意思是等待子进程结束后才执行后续的操作，一般用于进程间通信。例如有一个读进程pw和一个写进程pr，在调用pw之前需要先写pr.join()，表示等待写进程结束之后才开始执行读进程。

多个子进程

如果要同时创建多个子进程可以使用multiprocessing.Pool类。该类可以创建一个进程池，然后在多个核上执行这些进程。

import multiprocessing
import time

def func(msg):
  print multiprocessing.current_process().name + '-' + msg

if __name__ == "__main__":
  pool = multiprocessing.Pool(processes=4) # 创建4个进程
  for i in xrange(10):
    msg = "hello %d" %(i)
    pool.apply_async(func, (msg, ))
  pool.close() # 关闭进程池，表示不能在往进程池中添加进程
  pool.join() # 等待进程池中的所有进程执行完毕，必须在close()之后调用
  print "Sub-process(es) done."

输出结果如下：

Sub-process(es) done.
PoolWorker-34-hello 1
PoolWorker-33-hello 0
PoolWorker-35-hello 2
PoolWorker-36-hello 3
PoolWorker-34-hello 7
PoolWorker-33-hello 4
PoolWorker-35-hello 5
PoolWorker-36-hello 6
PoolWorker-33-hello 8
PoolWorker-36-hello 9

上述代码中的pool.apply_async()是apply()函数的变体，apply_async()是apply()的并行版本，apply()是apply_async()的阻塞版本，使用apply()主进程会被阻塞直到函数执行结束，所以说是阻塞版本。apply()既是Pool的方法，也是Python内置的函数，两者等价。可以看到输出结果并不是按照代码for循环中的顺序输出的。

多个子进程并返回值

apply_async()本身就可以返回被进程调用的函数的返回值。上一个创建多个子进程的代码中，如果在函数func中返回一个值，那么pool.apply_async(func, (msg, ))的结果就是返回pool中所有进程的值的对象（注意是对象，不是值本身）。

import multiprocessing
import time

def func(msg):
  return multiprocessing.current_process().name + '-' + msg

if __name__ == "__main__":
  pool = multiprocessing.Pool(processes=4) # 创建4个进程
  results = []
  for i in xrange(10):
    msg = "hello %d" %(i)
    results.append(pool.apply_async(func, (msg, )))
  pool.close() # 关闭进程池，表示不能再往进程池中添加进程，需要在join之前调用
  pool.join() # 等待进程池中的所有进程执行完毕
  print ("Sub-process(es) done.")

  for res in results:
    print (res.get())

上述代码输出结果如下：

Sub-process(es) done.
PoolWorker-37-hello 0
PoolWorker-38-hello 1
PoolWorker-39-hello 2
PoolWorker-40-hello 3
PoolWorker-37-hello 4
PoolWorker-38-hello 5
PoolWorker-39-hello 6
PoolWorker-37-hello 7
PoolWorker-40-hello 8
PoolWorker-38-hello 9

与之前的输出不同，这次的输出是有序的。

如果电脑是八核，建立8个进程，在Ubuntu下输入top命令再按下大键盘的1，可以看到每个CPU的使用率是比较平均的，如下图：

Python多进程库multiprocessing中进程池Pool类的使用详解

在system monitor中也可以清楚看到执行多进程前后CPU使用率曲线的差异。

Python多进程库multiprocessing中进程池Pool类的使用详解

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python多进程库multiprocessing中进程池Pool类的使用详解

- Author -

阿拉丁吃米粉

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

简单的抓取淘宝图片的Python爬虫

Dec 25 Python

Python中使用MELIAE分析程序内存占用实例

Feb 18 Python

Python记录详细调用堆栈日志的方法

May 05 Python

python单元测试unittest实例详解

May 11 Python

简单实现python爬虫功能

Dec 31 Python

Python的SQLalchemy模块连接与操作MySQL的基础示例

Jul 11 Python

Python多进程multiprocessing.Pool类详解

Apr 27 Python

python利用openpyxl拆分多个工作表的工作簿的方法

Sep 27 Python

如何基于python生成list的所有的子集

Nov 11 Python

将matplotlib绘图嵌入pyqt的方法示例

Jan 08 Python

Python 语言实现六大查找算法

Jun 30 Python

Python 可迭代对象 iterable的具体使用

Aug 07 Python

pip安装Python库时遇到的问题及解决方法

Nov 23 #Python

python清理子进程机制剖析

Nov 23 #Python

Python3 加密(hashlib和hmac)模块的实现

Nov 23 #Python

Python2.7基于笛卡尔积算法实现N个数组的排列组合运算示例

Nov 23 #Python

深入理解Python3 内置函数大全

Nov 23 #Python

Python内置函数delattr的具体用法

Nov 23 #Python

Python 内置函数memoryview(obj)的具体用法

Nov 23 #Python

You might like

Ajax PHP分页演示

2007/01/02 PHP

php实现的支持imagemagick及gd库两种处理的缩略图生成类

2014/09/23 PHP

php生成动态验证码gif图片

2015/10/19 PHP

音乐播放用的的几个函数

2006/09/07 Javascript

ExtJS 2.0实用简明教程之ExtJS版的Hello

2009/04/29 Javascript

基于JQuery.timer插件实现一个计时器

2010/04/25 Javascript

jQuery 借助插件Lavalamp实现导航条动态美化效果

2013/09/27 Javascript

网页广告中JS代码的信息监听示例

2014/04/02 Javascript

jquery实现点击文字可编辑并修改保存至数据库

2014/04/15 Javascript

jquery+html5制作超酷的圆盘时钟表

2015/04/14 Javascript

AngularJS ng-bind-html 指令详解及实例代码

2016/07/30 Javascript

微信小程序生命周期详解

2016/10/12 Javascript

BootStrap栅格系统、表单样式与按钮样式源码解析

2017/01/20 Javascript

解决Extjs下拉框不显示的问题

2017/06/21 Javascript

vuex 解决报错this.$store.commit is not a function的方法

2018/12/17 Javascript

如何基于vue-cli3.0构建功能完善的移动端架子

2019/04/24 Javascript

layui动态渲染生成select的option值方法

2019/09/23 Javascript

vue+elementui 对话框取消表单验证重置示例

2019/10/29 Javascript

公众号SVG动画交互实战代码

2020/05/31 Javascript

[06:53]DOTA2每周TOP10 精彩击杀集锦vol.3

2014/06/25 DOTA

wxpython 学习笔记第一天

2009/03/16 Python

多线程爬虫批量下载pcgame图片url 保存为xml的实现代码

2013/01/17 Python

以一段代码为实例快速入门Python2.7

2015/03/31 Python

python任务调度实例分析

2015/05/19 Python

python爬虫的数据库连接问题【推荐】

2018/06/25 Python

Python通过fnmatch模块实现文件名匹配

2020/09/30 Python

Django生成数据库及添加用户报错解决方案

2020/10/09 Python

销售人员个人求职信

2013/09/26 职场文书

电气工程自动化求职信

2014/03/14 职场文书

《路旁的橡树》教学反思

2014/04/07 职场文书

小学班长竞选演讲稿

2014/04/24 职场文书

委托证明模板

2014/09/16 职场文书

2014-2015学年工作总结

2014/11/27 职场文书

实习单位鉴定意见

2015/06/04 职场文书

导游词之澳门玫瑰圣母堂

2019/12/03 职场文书

浅谈Python3中datetime不同时区转换介绍与踩坑

2021/08/02 Python