使用Python写CUDA程序的方法


Posted in Python onMarch 27, 2017

使用Python写CUDA程序有两种方式:

* Numba
* PyCUDA

numbapro现在已经不推荐使用了,功能被拆分并分别被集成到accelerate和Numba了。

例子

numba

Numba通过及时编译机制(JIT)优化Python代码,Numba可以针对本机的硬件环境进行优化,同时支持CPU和GPU的优化,并且可以和Numpy集成,使Python代码可以在GPU上运行,只需在函数上方加上相关的指令标记,

如下所示:

import numpy as np 
from timeit import default_timer as timer
from numba import vectorize

@vectorize(["float32(float32, float32)"], target='cuda')
def vectorAdd(a, b):
  return a + b

def main():
  N = 320000000

  A = np.ones(N, dtype=np.float32 )
  B = np.ones(N, dtype=np.float32 )
  C = np.zeros(N, dtype=np.float32 )

  start = timer()
  C = vectorAdd(A, B)
  vectorAdd_time = timer() - start

  print("c[:5] = " + str(C[:5]))
  print("c[-5:] = " + str(C[-5:]))

  print("vectorAdd took %f seconds " % vectorAdd_time)

if __name__ == '__main__':
  main()

PyCUDA

PyCUDA的内核函数(kernel)其实就是使用C/C++编写的,通过动态编译为GPU微码,Python代码与GPU代码进行交互,如下所示:

import pycuda.autoinit
import pycuda.driver as drv
import numpy as np
from timeit import default_timer as timer

from pycuda.compiler import SourceModule
mod = SourceModule("""
__global__ void func(float *a, float *b, size_t N)
{
 const int i = blockIdx.x * blockDim.x + threadIdx.x;
 if (i >= N)
 {
  return;
 }
 float temp_a = a[i];
 float temp_b = b[i];
 a[i] = (temp_a * 10 + 2 ) * ((temp_b + 2) * 10 - 5 ) * 5;
 // a[i] = a[i] + b[i];
}
""")

func = mod.get_function("func")  

def test(N):
  # N = 1024 * 1024 * 90  # float: 4M = 1024 * 1024

  print("N = %d" % N)

  N = np.int32(N)

  a = np.random.randn(N).astype(np.float32)
  b = np.random.randn(N).astype(np.float32)  
  # copy a to aa
  aa = np.empty_like(a)
  aa[:] = a
  # GPU run
  nTheads = 256
  nBlocks = int( ( N + nTheads - 1 ) / nTheads )
  start = timer()
  func(
      drv.InOut(a), drv.In(b), N,
      block=( nTheads, 1, 1 ), grid=( nBlocks, 1 ) )
  run_time = timer() - start 
  print("gpu run time %f seconds " % run_time)  
  # cpu run
  start = timer()
  aa = (aa * 10 + 2 ) * ((b + 2) * 10 - 5 ) * 5
  run_time = timer() - start 

  print("cpu run time %f seconds " % run_time) 

  # check result
  r = a - aa
  print( min(r), max(r) )

def main():
 for n in range(1, 10):
  N = 1024 * 1024 * (n * 10)
  print("------------%d---------------" % n)
  test(N)

if __name__ == '__main__':
  main()

对比

numba使用一些指令标记某些函数进行加速(也可以使用Python编写内核函数),这一点类似于OpenACC,而PyCUDA需要自己写kernel,在运行时进行编译,底层是基于C/C++实现的。通过测试,这两种方式的加速比基本差不多。但是,numba更像是一个黑盒,不知道内部到底做了什么,而PyCUDA就显得很直观。因此,这两种方式具有不同的应用:

* 如果只是为了加速自己的算法而不关心CUDA编程,那么直接使用numba会更好。

* 如果为了学习、研究CUDA编程或者实验某一个算法在CUDA下的可行性,那么使用PyCUDA。

* 如果写的程序将来要移植到C/C++,那么就一定要使用PyCUDA了,因为使用PyCUDA写的kernel本身就是用CUDA C/C++写的。

以上这篇使用Python写CUDA程序的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python绘制堆叠柱状图的实例
Jul 09 Python
python 爬取学信网登录页面的例子
Aug 13 Python
Python银行系统实战源码
Oct 25 Python
pytorch实现特殊的Module--Sqeuential三种写法
Jan 15 Python
django 文件上传功能的相关实例代码(简单易懂)
Jan 22 Python
在python中使用nohup命令说明
Apr 16 Python
python数据处理——对pandas进行数据变频或插值实例
Apr 22 Python
Python csv文件记录流程代码解析
Jul 16 Python
用Python实现职工信息管理系统
Dec 30 Python
利用Opencv实现图片的油画特效实例
Feb 28 Python
详细总结Python常见的安全问题
May 21 Python
Python答题卡识别并给出分数的实现代码
Jun 22 Python
pyenv命令管理多个Python版本
Mar 26 #Python
Django实现自定义404,500页面教程
Mar 26 #Python
Python 多线程实例详解
Mar 25 #Python
解决python3 urllib中urlopen报错的问题
Mar 25 #Python
Python制作Windows系统服务
Mar 25 #Python
Python 类的继承实例详解
Mar 25 #Python
python利用拉链法实现字典方法示例
Mar 25 #Python
You might like
投票管理程序
2006/10/09 PHP
PHP与SQL注入攻击防范小技巧
2011/09/16 PHP
php页面缓存ob系列函数介绍
2012/10/18 PHP
PHPExcel读取EXCEL中的图片并保存到本地的方法
2015/02/14 PHP
php base64 编码与解码实例代码
2017/03/21 PHP
jquery不会自动回收xmlHttpRequest对象 导致了内存溢出
2012/06/18 Javascript
js 回车提交表单两种实现方法
2012/12/31 Javascript
html页面显示年月日时分秒和星期几的两种方式
2013/08/20 Javascript
Javascript简单实现可拖动的div
2013/10/22 Javascript
js点击出现悬浮窗效果不使用JQuery插件
2014/01/20 Javascript
Javascript验证方法大全
2015/09/21 Javascript
JQuery的常用选择器、过滤器、方法全面介绍
2016/05/25 Javascript
一种Javascript解释ajax返回的json的好方法(推荐)
2016/06/02 Javascript
Angular2表单自定义验证器的实现
2016/10/19 Javascript
jQuery EasyUI结合zTree树形结构制作web页面
2017/09/01 jQuery
Vue隐藏显示、只读实例代码
2018/07/18 Javascript
vue-cli安装使用流程步骤详解
2018/11/08 Javascript
微信小程序如何修改本地缓存key中单个数据的详解
2019/04/26 Javascript
JS中async/await实现异步调用的方法
2019/08/28 Javascript
各个系统下的Python解释器相关安装方法
2015/10/12 Python
Python黑帽编程 3.4 跨越VLAN详解
2016/09/28 Python
python利用拉链法实现字典方法示例
2017/03/25 Python
Python基于最小二乘法实现曲线拟合示例
2018/06/14 Python
用python实现将数组元素按从小到大的顺序排列方法
2018/07/02 Python
Python多线程应用于自动化测试操作示例
2018/12/06 Python
python+numpy按行求一个二维数组的最大值方法
2019/07/09 Python
Django如何批量创建Model
2020/09/01 Python
Python中常用的os操作汇总
2020/11/05 Python
Paradigit比利时电脑卖场:购买笔记本、电脑、平板和外围设备
2016/11/28 全球购物
C和C++经典笔试题附答案解析
2014/08/18 面试题
端午节粽子促销活动方案
2014/02/02 职场文书
人资专员岗位职责
2014/04/04 职场文书
会议欢迎标语
2014/06/30 职场文书
反洗钱宣传活动总结
2014/08/26 职场文书
债务纠纷代理词
2015/05/25 职场文书
详解python的内存分配机制
2021/05/10 Python