Python多进程库multiprocessing中进程池Pool类的使用详解


Posted in Python onNovember 24, 2017

问题起因

最近要将一个文本分割成好几个topic,每个topic设计一个regressor,各regressor是相互独立的,最后汇总所有topic的regressor得到总得预测结果。没错!类似bagging ensemble!只是我没有抽样。文本不大,大概3000行,topic个数为8,于是我写了一个串行的程序,一个topic算完之后再算另一个topic。可是我在每个topic中用了GridSearchCV来调参,又要选特征又要调整regressor的参数,导致参数组合一共有1782种。我真是低估了调参的时间,程序跑了一天一夜最后因为忘记import一个库导致最终的预测精度没有算出来。后来想到,既然每个topic的预测都是独立的,那是不是可以并行呢?

Python中的多线程与多进程

但是听闻Python的多线程实际上并不能真正利用多核,所以如果使用多线程实际上还是在一个核上做并发处理。不过,如果使用多进程就可以真正利用多核,因为各进程之间是相互独立的,不共享资源,可以在不同的核上执行不同的进程,达到并行的效果。同时在我的问题中,各topic相互独立,不涉及进程间的通信,只需最后汇总结果,因此使用多进程是个不错的选择。

multiprocessing

一个子进程

multiprocessing模块提供process类实现新建进程。下述代码是新建一个子进程。

from multiprocessing import Process

def f(name):
  print 'hello', name

if __name__ == '__main__':
  p = Process(target=f, args=('bob',)) # 新建一个子进程p,目标函数是f,args是函数f的参数列表
  p.start() # 开始执行进程
  p.join() # 等待子进程结束

上述代码中p.join()的意思是等待子进程结束后才执行后续的操作,一般用于进程间通信。例如有一个读进程pw和一个写进程pr,在调用pw之前需要先写pr.join(),表示等待写进程结束之后才开始执行读进程。

多个子进程

如果要同时创建多个子进程可以使用multiprocessing.Pool类。该类可以创建一个进程池,然后在多个核上执行这些进程。

import multiprocessing
import time

def func(msg):
  print multiprocessing.current_process().name + '-' + msg

if __name__ == "__main__":
  pool = multiprocessing.Pool(processes=4) # 创建4个进程
  for i in xrange(10):
    msg = "hello %d" %(i)
    pool.apply_async(func, (msg, ))
  pool.close() # 关闭进程池,表示不能在往进程池中添加进程
  pool.join() # 等待进程池中的所有进程执行完毕,必须在close()之后调用
  print "Sub-process(es) done."

输出结果如下:

Sub-process(es) done.
PoolWorker-34-hello 1
PoolWorker-33-hello 0
PoolWorker-35-hello 2
PoolWorker-36-hello 3
PoolWorker-34-hello 7
PoolWorker-33-hello 4
PoolWorker-35-hello 5
PoolWorker-36-hello 6
PoolWorker-33-hello 8
PoolWorker-36-hello 9

上述代码中的pool.apply_async()是apply()函数的变体,apply_async()是apply()的并行版本,apply()是apply_async()的阻塞版本,使用apply()主进程会被阻塞直到函数执行结束,所以说是阻塞版本。apply()既是Pool的方法,也是Python内置的函数,两者等价。可以看到输出结果并不是按照代码for循环中的顺序输出的。

多个子进程并返回值

apply_async()本身就可以返回被进程调用的函数的返回值。上一个创建多个子进程的代码中,如果在函数func中返回一个值,那么pool.apply_async(func, (msg, ))的结果就是返回pool中所有进程的值的对象(注意是对象,不是值本身)。

import multiprocessing
import time

def func(msg):
  return multiprocessing.current_process().name + '-' + msg

if __name__ == "__main__":
  pool = multiprocessing.Pool(processes=4) # 创建4个进程
  results = []
  for i in xrange(10):
    msg = "hello %d" %(i)
    results.append(pool.apply_async(func, (msg, )))
  pool.close() # 关闭进程池,表示不能再往进程池中添加进程,需要在join之前调用
  pool.join() # 等待进程池中的所有进程执行完毕
  print ("Sub-process(es) done.")

  for res in results:
    print (res.get())

上述代码输出结果如下:

Sub-process(es) done.
PoolWorker-37-hello 0
PoolWorker-38-hello 1
PoolWorker-39-hello 2
PoolWorker-40-hello 3
PoolWorker-37-hello 4
PoolWorker-38-hello 5
PoolWorker-39-hello 6
PoolWorker-37-hello 7
PoolWorker-40-hello 8
PoolWorker-38-hello 9

与之前的输出不同,这次的输出是有序的。

如果电脑是八核,建立8个进程,在Ubuntu下输入top命令再按下大键盘的1,可以看到每个CPU的使用率是比较平均的,如下图:

Python多进程库multiprocessing中进程池Pool类的使用详解

在system monitor中也可以清楚看到执行多进程前后CPU使用率曲线的差异。

Python多进程库multiprocessing中进程池Pool类的使用详解

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python为tornado添加recaptcha验证码功能
Feb 26 Python
Python中利用sorted()函数排序的简单教程
Apr 27 Python
Python使用filetype精确判断文件类型
Jul 02 Python
Python获取指定文件夹下的文件名的方法
Feb 06 Python
python中使用 xlwt 操作excel的常见方法与问题
Jan 13 Python
浅谈python编译pyc工程--导包问题解决
Mar 20 Python
python原类、类的创建过程与方法详解
Jul 19 Python
PyQt5多线程刷新界面防假死示例
Dec 13 Python
PyQt5 closeEvent关闭事件退出提示框原理解析
Jan 08 Python
python生成并处理uuid的实现方式
Mar 03 Python
python用Tkinter做自己的中文代码编辑器
Sep 07 Python
python 中[0]*2与0*2的区别说明
May 10 Python
pip安装Python库时遇到的问题及解决方法
Nov 23 #Python
python清理子进程机制剖析
Nov 23 #Python
Python3 加密(hashlib和hmac)模块的实现
Nov 23 #Python
Python2.7基于笛卡尔积算法实现N个数组的排列组合运算示例
Nov 23 #Python
深入理解Python3 内置函数大全
Nov 23 #Python
Python内置函数delattr的具体用法
Nov 23 #Python
Python 内置函数memoryview(obj)的具体用法
Nov 23 #Python
You might like
PHP个人网站架设连环讲(三)
2006/10/09 PHP
Windows下的PHP5.0详解
2006/11/18 PHP
注释PHP和html混合代码的小技巧(分享)
2016/11/03 PHP
ThinkPHP 5.x远程命令执行漏洞复现
2019/09/23 PHP
2020最新版 PhpStudy V8.1版本下载安装使用详解
2020/10/30 PHP
使用js获取QueryString的方法小结
2010/02/28 Javascript
jQuery选择器的工作原理和优化分析
2011/07/25 Javascript
基于javascript 闭包基础分享
2013/07/10 Javascript
js调用后台、后台调用前台等方法总结
2014/04/17 Javascript
javascript函数特点实例分析
2015/05/14 Javascript
jQuery实现简易的天天爱消除小游戏
2015/10/16 Javascript
JQuery点击行tr实现checkBox选中的简单实例
2016/05/26 Javascript
js转换对象为xml
2017/02/17 Javascript
微信小程序 定位到当前城市实现实例代码
2017/02/23 Javascript
微信小程序 action-sheet 反馈上拉菜单简单实例
2017/05/11 Javascript
jQuery中extend函数简单用法示例
2017/10/11 jQuery
解决vue项目打包后提示图片文件路径错误的问题
2018/07/04 Javascript
详解IOS微信上Vue单页面应用JSSDK签名失败解决方案
2018/11/14 Javascript
js模拟F11页面全屏显示
2019/09/17 Javascript
js中!和!!的区别与用法
2020/05/09 Javascript
vue插件--仿微信小程序showModel实现模态提示窗功能
2020/08/19 Javascript
Python实现对比不同字体中的同一字符的显示效果
2015/04/23 Python
python获取点击的坐标画图形的方法
2019/07/09 Python
Django Form and ModelForm的区别与使用
2019/12/06 Python
Python django框架 web端视频加密的实例详解
2020/11/20 Python
芬兰攀岩、山地运动和户外活动用品购物网站:Bergfreunde
2016/10/06 全球购物
Jo Malone美国官网:祖玛珑香水
2017/03/27 全球购物
航海技术专业毕业生求职信
2014/04/06 职场文书
竞聘上岗演讲
2014/05/19 职场文书
企业员工集体活动方案
2014/08/17 职场文书
自愿离婚协议书范文2014
2014/10/12 职场文书
医院合作意向书范本
2015/05/08 职场文书
五星红旗迎风飘扬观后感
2015/06/17 职场文书
小学数学继续教育研修日志
2015/11/13 职场文书
《圆明园的毁灭》教学反思
2016/02/16 职场文书
一文解答什么是MySQL的回表
2022/08/05 MySQL