编程 Python

Python 多核并行计算的示例代码

Posted in Python onNovember 07, 2017

以前写点小程序其实根本不在乎并行，单核跑跑也没什么问题，而且我的电脑也只有双核四个超线程（下面就统称核好了），觉得去折腾并行没啥意义（除非在做IO密集型任务）。然后自从用上了32核128GB内存，看到 htop 里面一堆空载的核，很自然地就会想这个并行必须去折腾一下。后面发现，其实 Python 的并行真的非常简单。

Python 多核并行计算的示例代码

multiprocessing vs threading

Python 自带的库又全又好用，这是我特别喜欢 Python 的原因之一。Python 里面有 multiprocessing和 threading 这两个用来实现并行的库。用线程应该是很自然的想法，毕竟（直觉上）开销小，还有共享内存的福利，而且在其他语言里面线程用的确实是非常频繁。然而，我可以很负责任的说，如果你用的是 CPython 实现，那么用了 threading 就等同于和并行计算说再见了（实际上，甚至会比单线程更慢），除非这是个IO密集型的任务。

GIL

CPython 指的是 python.org 提供的 Python 实现。是的，Python 是一门语言，它有各种不同的实现，比如 PyPy, Jython, IronPython 等等……我们用的最多的就是 CPython，它几乎就和 Python 画上了等号。

CPython 的实现中，使用了 GIL 即全局锁，来简化解释器的实现，使得解释器每次只执行一个线程中的字节码。也就是说，除非是在等待IO操作，否则 CPython 的多线程就是彻底的谎言！

有关 GIL 下面两个资料写的挺好的：

http://cenalulu.github.io/python/gil-in-python/
http://www.dabeaz.com/python/UnderstandingGIL.pdf

multiprocessing.Pool

因为 GIL 的缘故 threading 不能用，那么我们就好好研究研究 multiprocessing。（当然，如果你说你不用 CPython，没有 GIL 的问题，那也是极佳的。）

首先介绍一个简单粗暴，非常实用的工具，就是 multiprocessing.Pool。如果你的任务能用 ys = map(f, xs) 来解决，大家可能都知道，这样的形式天生就是最容易并行的，那么在 Python 里面并行计算这个任务真是再简单不过了。举个例子，把每个数都平方：

import multiprocessing

def f(x):
  return x * x

cores = multiprocessing.cpu_count()
pool = multiprocessing.Pool(processes=cores)
xs = range(5)

# method 1: map
print pool.map(f, xs) # prints [0, 1, 4, 9, 16]

# method 2: imap
for y in pool.imap(f, xs):
  print y      # 0, 1, 4, 9, 16, respectively

# method 3: imap_unordered
for y in pool.imap_unordered(f, xs):
  print(y)      # may be in any order

map 直接返回列表，而 i 开头的两个函数返回的是迭代器；imap_unordered 返回的是无序的。

当计算时间比较长的时候，我们可能想要加上一个进度条，这个时候 i 系列的好处就体现出来了。另外，有一个小技巧，就是输出 \r 可以使得光标回到行首而不换行，这样就可以制作简易的进度条了。

cnt = 0
for _ in pool.imap_unordered(f, xs):
  sys.stdout.write('done %d/%d\r' % (cnt, len(xs)))
  cnt += 1

更复杂的操作

要进行更复杂的操作，可以直接使用 multiprocessing.Process 对象。要在进程间通信可以使用：

multiprocessing.Pipe
multiprocessing.Queue
同步原语
共享变量

其中我强烈推荐的就是 Queue，因为其实很多场景就是生产者消费者模型，这个时候用 Queue 就解决问题了。用的方法也很简单，现在父进程创建 Queue，然后把它当做 args 或者 kwargs 传给 Process 就好了。

使用 Theano 或者 Tensorflow 等工具时的注意事项

需要注意的是，在 import theano 或者 import tensorflow 等调用了 Cuda 的工具的时候会产生一些副作用，这些副作用会原样拷贝到子进程中，然后就发生错误，如：

could not retrieve CUDA device count: CUDA_ERROR_NOT_INITIALIZED

解决的方法是，保证父进程不引入这些工具，而是在子进程创建好了以后，让子进程各自引入。

如果使用 Process，那就在 target 函数里面 import。举个例子：

import multiprocessing

def hello(taskq, resultq):
  import tensorflow as tf
  config = tf.ConfigProto()
  config.gpu_options.allow_growth=True
  sess = tf.Session(config=config)
  while True:
    name = taskq.get()
    res = sess.run(tf.constant('hello ' + name))
    resultq.put(res)

if __name__ == '__main__':
  taskq = multiprocessing.Queue()
  resultq = multiprocessing.Queue()
  p = multiprocessing.Process(target=hello, args=(taskq, resultq))
  p.start()

  taskq.put('world')
  taskq.put('abcdabcd987')
  taskq.close()

  print(resultq.get())
  print(resultq.get())

  p.terminate()
  p.join()

如果使用 Pool，那么可以编写一个函数，在这个函数里面 import，并且把这个函数作为 initializer传入到 Pool 的构造函数里面。举个例子：

import multiprocessing

def init():
  global tf
  global sess
  import tensorflow as tf
  config = tf.ConfigProto()
  config.gpu_options.allow_growth=True
  sess = tf.Session(config=config)

def hello(name):
  return sess.run(tf.constant('hello ' + name))

if __name__ == '__main__':
  pool = multiprocessing.Pool(processes=2, initializer=init)
  xs = ['world', 'abcdabcd987', 'Lequn Chen']
  print pool.map(hello, xs)

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python 多核并行计算的示例代码

- Author -

Jekyll & whiteglass

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python对url格式解析的方法

May 13 Python

windows下ipython的安装与使用详解

Oct 20 Python

解析Python中的eval()、exec()及其相关函数

Dec 20 Python

python基础之包的导入和__init__.py的介绍

Jan 08 Python

Python利用字典将两个通讯录文本合并为一个文本实例

Jan 16 Python

python画折线图的程序

Jul 26 Python

对python周期性定时器的示例详解

Feb 19 Python

python 修改本地网络配置的方法

Aug 14 Python

PyQt5中QTableWidget如何弹出菜单的示例代码

Feb 23 Python

keras在构建LSTM模型时对变长序列的处理操作

Jun 29 Python

Win10环境中如何实现python2和python3并存

Jul 20 Python

python利用appium实现手机APP自动化的示例

Jan 26 Python

python判断字符串是否是json格式方法分享

Nov 07 #Python

python好玩的项目—色情图片识别代码分享

Nov 07 #Python

深入理解python中函数传递参数是值传递还是引用传递

Nov 07 #Python

python中numpy.zeros(np.zeros)的使用方法

Nov 07 #Python

django项目运行因中文而乱码报错的几种情况解决

Nov 07 #Python

Python创建二维数组实例(关于list的一个小坑)

Nov 07 #Python

python 简单备份文件脚本v1.0的实例

Nov 06 #Python

脏读(2) #{}(1) 外键(1) 小喇叭(1) 增删查改(1) 温控(1) S-2000(1) 克隆(1) IC-R9500(1) 小喇叭开始广播了(1)

You might like

php+jQuery递归调用POST循环请求示例

2016/10/14 PHP

PHP延迟静态绑定的深入讲解

2018/04/02 PHP

php curl获取到json对象并转成数组array的方法

2018/05/31 PHP

img标签中onerror用法

2009/08/13 Javascript

JavaScript实战之带收放动画效果的导航菜单

2016/08/16 Javascript

javascript和php使用ajax通信传递JSON的实例

2018/08/21 Javascript

详解javascript replace高级用法

2019/02/17 Javascript

javaScript中indexOf用法技巧

2019/11/26 Javascript

JavaScript复制变量三种方法实例详解

2020/01/09 Javascript

js 图片懒加载的实现

2020/10/21 Javascript

[01:09:50]VP vs Pain 2018国际邀请赛小组赛BO2 第二场

2018/08/20 DOTA

Python2.5/2.6实用教程入门基础篇

2009/11/29 Python

python定时采集摄像头图像上传ftp服务器功能实现

2013/12/23 Python

Python使用chardet判断字符编码

2015/05/09 Python

Python的socket模块源码中的一些实现要点分析

2016/06/06 Python

Python 数据结构之堆栈实例代码

2017/01/22 Python

Python中eval带来的潜在风险代码分析

2017/12/11 Python

python timestamp和datetime之间转换详解

2017/12/11 Python

TensorFlow实现创建分类器

2018/02/06 Python

Python设计模式之抽象工厂模式原理与用法详解

2019/01/15 Python

对Pycharm创建py文件时自定义头部模板的方法详解

2019/02/12 Python

详解python 中in 的用法

2019/12/12 Python

Python PyQt5整理介绍

2020/04/01 Python

matplotlib subplot绘制多个子图的方法示例

2020/07/28 Python

基于css3 animate制作绚丽的动画效果

2015/11/24 HTML / CSS

ziaja齐叶雅官方海外旗舰店：来自波兰的天然护肤品牌

2017/01/02 全球购物

PHP开发的一般流程

2013/08/13 面试题

是什么让J2EE适合用来开发多层的分布式的应用

2015/01/16 面试题

安全保证书格式

2015/02/28 职场文书

社会实践活动总结格式

2015/05/11 职场文书

加薪申请报告范本

2015/05/15 职场文书

合同纠纷调解书

2015/05/20 职场文书

毕业生求职自荐信（2016最新版）

2016/01/28 职场文书

python实现三次密码验证的示例

2021/04/29 Python

python非标准时间的转换

2021/07/25 Python

ubuntu如何搭建vsftpd服务器

2022/12/24 Servers