使用Python写CUDA程序的方法


Posted in Python onMarch 27, 2017

使用Python写CUDA程序有两种方式:

* Numba
* PyCUDA

numbapro现在已经不推荐使用了,功能被拆分并分别被集成到accelerate和Numba了。

例子

numba

Numba通过及时编译机制(JIT)优化Python代码,Numba可以针对本机的硬件环境进行优化,同时支持CPU和GPU的优化,并且可以和Numpy集成,使Python代码可以在GPU上运行,只需在函数上方加上相关的指令标记,

如下所示:

import numpy as np 
from timeit import default_timer as timer
from numba import vectorize

@vectorize(["float32(float32, float32)"], target='cuda')
def vectorAdd(a, b):
  return a + b

def main():
  N = 320000000

  A = np.ones(N, dtype=np.float32 )
  B = np.ones(N, dtype=np.float32 )
  C = np.zeros(N, dtype=np.float32 )

  start = timer()
  C = vectorAdd(A, B)
  vectorAdd_time = timer() - start

  print("c[:5] = " + str(C[:5]))
  print("c[-5:] = " + str(C[-5:]))

  print("vectorAdd took %f seconds " % vectorAdd_time)

if __name__ == '__main__':
  main()

PyCUDA

PyCUDA的内核函数(kernel)其实就是使用C/C++编写的,通过动态编译为GPU微码,Python代码与GPU代码进行交互,如下所示:

import pycuda.autoinit
import pycuda.driver as drv
import numpy as np
from timeit import default_timer as timer

from pycuda.compiler import SourceModule
mod = SourceModule("""
__global__ void func(float *a, float *b, size_t N)
{
 const int i = blockIdx.x * blockDim.x + threadIdx.x;
 if (i >= N)
 {
  return;
 }
 float temp_a = a[i];
 float temp_b = b[i];
 a[i] = (temp_a * 10 + 2 ) * ((temp_b + 2) * 10 - 5 ) * 5;
 // a[i] = a[i] + b[i];
}
""")

func = mod.get_function("func")  

def test(N):
  # N = 1024 * 1024 * 90  # float: 4M = 1024 * 1024

  print("N = %d" % N)

  N = np.int32(N)

  a = np.random.randn(N).astype(np.float32)
  b = np.random.randn(N).astype(np.float32)  
  # copy a to aa
  aa = np.empty_like(a)
  aa[:] = a
  # GPU run
  nTheads = 256
  nBlocks = int( ( N + nTheads - 1 ) / nTheads )
  start = timer()
  func(
      drv.InOut(a), drv.In(b), N,
      block=( nTheads, 1, 1 ), grid=( nBlocks, 1 ) )
  run_time = timer() - start 
  print("gpu run time %f seconds " % run_time)  
  # cpu run
  start = timer()
  aa = (aa * 10 + 2 ) * ((b + 2) * 10 - 5 ) * 5
  run_time = timer() - start 

  print("cpu run time %f seconds " % run_time) 

  # check result
  r = a - aa
  print( min(r), max(r) )

def main():
 for n in range(1, 10):
  N = 1024 * 1024 * (n * 10)
  print("------------%d---------------" % n)
  test(N)

if __name__ == '__main__':
  main()

对比

numba使用一些指令标记某些函数进行加速(也可以使用Python编写内核函数),这一点类似于OpenACC,而PyCUDA需要自己写kernel,在运行时进行编译,底层是基于C/C++实现的。通过测试,这两种方式的加速比基本差不多。但是,numba更像是一个黑盒,不知道内部到底做了什么,而PyCUDA就显得很直观。因此,这两种方式具有不同的应用:

* 如果只是为了加速自己的算法而不关心CUDA编程,那么直接使用numba会更好。

* 如果为了学习、研究CUDA编程或者实验某一个算法在CUDA下的可行性,那么使用PyCUDA。

* 如果写的程序将来要移植到C/C++,那么就一定要使用PyCUDA了,因为使用PyCUDA写的kernel本身就是用CUDA C/C++写的。

以上这篇使用Python写CUDA程序的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
对于Python异常处理慎用“except:pass”建议
Apr 02 Python
Python中的random()方法的使用介绍
May 15 Python
Python中List.count()方法的使用教程
May 20 Python
Python找出list中最常出现元素的方法
Jun 14 Python
Python2.7读取PDF文件的方法示例
Jul 13 Python
Python分治法定义与应用实例详解
Jul 28 Python
python实现录音小程序
Oct 26 Python
使用Python向DataFrame中指定位置添加一列或多列的方法
Jan 29 Python
pytorch掉坑记录:model.eval的作用说明
Jun 23 Python
pytorch 多分类问题,计算百分比操作
Jul 09 Python
python字典与json转换的方法总结
Dec 28 Python
如何使用Python进行PDF图片识别OCR
Jan 22 Python
pyenv命令管理多个Python版本
Mar 26 #Python
Django实现自定义404,500页面教程
Mar 26 #Python
Python 多线程实例详解
Mar 25 #Python
解决python3 urllib中urlopen报错的问题
Mar 25 #Python
Python制作Windows系统服务
Mar 25 #Python
Python 类的继承实例详解
Mar 25 #Python
python利用拉链法实现字典方法示例
Mar 25 #Python
You might like
php方法调用模式与函数调用模式简例
2011/09/20 PHP
解析php函数method_exists()与is_callable()的区别
2013/06/21 PHP
PHP针对JSON操作实例分析
2015/01/12 PHP
Laravel 不同生产环境服务器的判断实践
2019/10/15 PHP
TP5(thinkPHP5)框架使用ajax实现与后台数据交互的方法小结
2020/02/10 PHP
为超链接加上disabled后的故事
2010/12/10 Javascript
JavaScript字符串对象toLowerCase方法入门实例(用于把字母转换为小写)
2014/10/17 Javascript
JS实现窗口加载时模拟鼠标移动的方法
2015/06/03 Javascript
javascript实现右侧弹出“分享到”窗口效果
2016/02/01 Javascript
使用JavaScript为Kindeditor自定义按钮增加Audio标签
2016/03/18 Javascript
用node和express连接mysql实现登录注册的实现代码
2017/07/05 Javascript
vue-cli脚手架引入图片的几种方法总结
2018/03/13 Javascript
vue中v-cloak解决刷新或者加载出现闪烁问题(显示变量)
2018/04/20 Javascript
vue路由拦截及页面跳转的设置方法
2018/05/24 Javascript
node thread.sleep实现示例
2018/06/20 Javascript
WebPack工具运行原理及入门教程
2020/12/02 Javascript
[49:21]2018DOTA2亚洲邀请赛3月30日 小组赛B组 Effect VS iG
2018/03/31 DOTA
python实现查询苹果手机维修进度
2015/03/16 Python
Python通过DOM和SAX方式解析XML的应用实例分享
2015/11/16 Python
python实现数独游戏 java简单实现数独游戏
2018/03/30 Python
解决Django的request.POST获取不到内容的问题
2018/05/28 Python
Python求解任意闭区间的所有素数
2018/06/10 Python
对python 树状嵌套结构的实现思路详解
2019/08/09 Python
详解python列表(list)的使用技巧及高级操作
2019/08/15 Python
解决os.path.isdir() 判断文件夹却返回false的问题
2019/11/29 Python
Python tkinter模版代码实例
2020/02/05 Python
浅谈python3打包与拆包在函数的应用详解
2020/05/02 Python
天美时手表加拿大官网:Timex加拿大
2016/09/01 全球购物
美国男女折扣服饰百货连锁店:Stein Mart
2017/05/02 全球购物
zooplus德国:便宜地订购动物用品、动物饲料、动物食品
2020/05/06 全球购物
施工资料员的岗位职责
2013/12/22 职场文书
护理目标管理责任书
2014/07/25 职场文书
企业党员个人自我评价
2014/09/20 职场文书
在职人员跳槽求职信
2015/03/20 职场文书
使用pytorch实现线性回归
2021/04/11 Python
通过shell脚本对mysql的增删改查及my.cnf的配置
2021/07/07 MySQL