使用Python写CUDA程序的方法


Posted in Python onMarch 27, 2017

使用Python写CUDA程序有两种方式:

* Numba
* PyCUDA

numbapro现在已经不推荐使用了,功能被拆分并分别被集成到accelerate和Numba了。

例子

numba

Numba通过及时编译机制(JIT)优化Python代码,Numba可以针对本机的硬件环境进行优化,同时支持CPU和GPU的优化,并且可以和Numpy集成,使Python代码可以在GPU上运行,只需在函数上方加上相关的指令标记,

如下所示:

import numpy as np 
from timeit import default_timer as timer
from numba import vectorize

@vectorize(["float32(float32, float32)"], target='cuda')
def vectorAdd(a, b):
  return a + b

def main():
  N = 320000000

  A = np.ones(N, dtype=np.float32 )
  B = np.ones(N, dtype=np.float32 )
  C = np.zeros(N, dtype=np.float32 )

  start = timer()
  C = vectorAdd(A, B)
  vectorAdd_time = timer() - start

  print("c[:5] = " + str(C[:5]))
  print("c[-5:] = " + str(C[-5:]))

  print("vectorAdd took %f seconds " % vectorAdd_time)

if __name__ == '__main__':
  main()

PyCUDA

PyCUDA的内核函数(kernel)其实就是使用C/C++编写的,通过动态编译为GPU微码,Python代码与GPU代码进行交互,如下所示:

import pycuda.autoinit
import pycuda.driver as drv
import numpy as np
from timeit import default_timer as timer

from pycuda.compiler import SourceModule
mod = SourceModule("""
__global__ void func(float *a, float *b, size_t N)
{
 const int i = blockIdx.x * blockDim.x + threadIdx.x;
 if (i >= N)
 {
  return;
 }
 float temp_a = a[i];
 float temp_b = b[i];
 a[i] = (temp_a * 10 + 2 ) * ((temp_b + 2) * 10 - 5 ) * 5;
 // a[i] = a[i] + b[i];
}
""")

func = mod.get_function("func")  

def test(N):
  # N = 1024 * 1024 * 90  # float: 4M = 1024 * 1024

  print("N = %d" % N)

  N = np.int32(N)

  a = np.random.randn(N).astype(np.float32)
  b = np.random.randn(N).astype(np.float32)  
  # copy a to aa
  aa = np.empty_like(a)
  aa[:] = a
  # GPU run
  nTheads = 256
  nBlocks = int( ( N + nTheads - 1 ) / nTheads )
  start = timer()
  func(
      drv.InOut(a), drv.In(b), N,
      block=( nTheads, 1, 1 ), grid=( nBlocks, 1 ) )
  run_time = timer() - start 
  print("gpu run time %f seconds " % run_time)  
  # cpu run
  start = timer()
  aa = (aa * 10 + 2 ) * ((b + 2) * 10 - 5 ) * 5
  run_time = timer() - start 

  print("cpu run time %f seconds " % run_time) 

  # check result
  r = a - aa
  print( min(r), max(r) )

def main():
 for n in range(1, 10):
  N = 1024 * 1024 * (n * 10)
  print("------------%d---------------" % n)
  test(N)

if __name__ == '__main__':
  main()

对比

numba使用一些指令标记某些函数进行加速(也可以使用Python编写内核函数),这一点类似于OpenACC,而PyCUDA需要自己写kernel,在运行时进行编译,底层是基于C/C++实现的。通过测试,这两种方式的加速比基本差不多。但是,numba更像是一个黑盒,不知道内部到底做了什么,而PyCUDA就显得很直观。因此,这两种方式具有不同的应用:

* 如果只是为了加速自己的算法而不关心CUDA编程,那么直接使用numba会更好。

* 如果为了学习、研究CUDA编程或者实验某一个算法在CUDA下的可行性,那么使用PyCUDA。

* 如果写的程序将来要移植到C/C++,那么就一定要使用PyCUDA了,因为使用PyCUDA写的kernel本身就是用CUDA C/C++写的。

以上这篇使用Python写CUDA程序的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python性能优化的20条建议
Oct 25 Python
详解Python中expandtabs()方法的使用
May 18 Python
python简单实现基于SSL的IRC bot实例
Jun 15 Python
Python比较2个时间大小的实现方法
Apr 10 Python
利用python求积分的实例
Jul 03 Python
python3.6编写的单元测试示例
Aug 17 Python
如何解决tensorflow恢复模型的特定值时出错
Feb 06 Python
pycharm运行程序时看不到任何结果显示的解决
Feb 21 Python
python小白学习包管理器pip安装
Jun 09 Python
Python wordcloud库安装方法总结
Dec 31 Python
详解Python为什么不用设计模式
Jun 24 Python
Flask response响应的具体使用
Jul 15 Python
pyenv命令管理多个Python版本
Mar 26 #Python
Django实现自定义404,500页面教程
Mar 26 #Python
Python 多线程实例详解
Mar 25 #Python
解决python3 urllib中urlopen报错的问题
Mar 25 #Python
Python制作Windows系统服务
Mar 25 #Python
Python 类的继承实例详解
Mar 25 #Python
python利用拉链法实现字典方法示例
Mar 25 #Python
You might like
杏林同学录(八)
2006/10/09 PHP
PHP中通过ADO调用Access数据库的方法测试不通过
2006/12/31 PHP
用PHP实现多服务器共享SESSION数据的方法
2007/03/16 PHP
用PHP写的基于Memcache的Queue实现代码
2011/11/27 PHP
Django 中 cookie的使用
2017/08/17 PHP
强悍无比的WEB开发好助手FireBug(Firefox Plugin)
2007/01/16 Javascript
JS代码优化技巧之通俗版(减少js体积)
2011/12/23 Javascript
JS常用正则表达式总结
2013/11/12 Javascript
jquery 合并内容相同的单元格(示例代码)
2013/12/13 Javascript
编程语言JavaScript简介
2014/10/16 Javascript
javascript原型模式用法实例详解
2015/06/04 Javascript
jquery判断至少有一个checkbox被选中的方法
2015/06/05 Javascript
JavaScript检查子字符串是否在字符串中的方法
2016/02/03 Javascript
jQuery+CSS3实现仿花瓣网固定顶部位置带悬浮效果的导航菜单
2016/09/21 Javascript
Javascript 获取鼠标当前的位置实现方法
2016/10/27 Javascript
webpack学习教程之publicPath路径问题详解
2017/06/17 Javascript
javascript实现获取一个日期段内每天不同的价格(计算入住总价格)
2018/02/05 Javascript
p5.js入门教程之平滑过渡(Easing)
2018/03/16 Javascript
快速了解Node中的Stream流是什么
2019/02/13 Javascript
layui(1.0.9)文件上传upload,前后端的实例代码
2019/09/26 Javascript
微信小程序scroll-view锚点链接滚动跳转功能
2019/12/12 Javascript
JavaScript回调函数callback用法解析
2020/01/14 Javascript
深入了解Vue动态组件和异步组件
2021/01/26 Vue.js
python虚拟环境virtualenv的安装与使用
2017/09/21 Python
pandas.DataFrame 根据条件新建列并赋值的方法
2018/04/08 Python
python实现推箱子游戏
2020/03/25 Python
python 利用turtle模块画出没有角的方格
2019/11/23 Python
了解一下python内建模块collections
2020/09/07 Python
Matplotlib配色之Colormap详解
2021/01/05 Python
python包的导入方式总结
2021/03/02 Python
Linux的主要特性
2014/10/06 面试题
搞笑的获奖感言
2014/08/16 职场文书
演讲稿的格式及范文
2014/08/22 职场文书
客户答谢会致辞
2015/01/20 职场文书
装饰技术负责人岗位职责
2015/04/13 职场文书
iPhone13将有八大升级
2021/04/15 数码科技