使用Python写CUDA程序的方法


Posted in Python onMarch 27, 2017

使用Python写CUDA程序有两种方式:

* Numba
* PyCUDA

numbapro现在已经不推荐使用了,功能被拆分并分别被集成到accelerate和Numba了。

例子

numba

Numba通过及时编译机制(JIT)优化Python代码,Numba可以针对本机的硬件环境进行优化,同时支持CPU和GPU的优化,并且可以和Numpy集成,使Python代码可以在GPU上运行,只需在函数上方加上相关的指令标记,

如下所示:

import numpy as np 
from timeit import default_timer as timer
from numba import vectorize

@vectorize(["float32(float32, float32)"], target='cuda')
def vectorAdd(a, b):
  return a + b

def main():
  N = 320000000

  A = np.ones(N, dtype=np.float32 )
  B = np.ones(N, dtype=np.float32 )
  C = np.zeros(N, dtype=np.float32 )

  start = timer()
  C = vectorAdd(A, B)
  vectorAdd_time = timer() - start

  print("c[:5] = " + str(C[:5]))
  print("c[-5:] = " + str(C[-5:]))

  print("vectorAdd took %f seconds " % vectorAdd_time)

if __name__ == '__main__':
  main()

PyCUDA

PyCUDA的内核函数(kernel)其实就是使用C/C++编写的,通过动态编译为GPU微码,Python代码与GPU代码进行交互,如下所示:

import pycuda.autoinit
import pycuda.driver as drv
import numpy as np
from timeit import default_timer as timer

from pycuda.compiler import SourceModule
mod = SourceModule("""
__global__ void func(float *a, float *b, size_t N)
{
 const int i = blockIdx.x * blockDim.x + threadIdx.x;
 if (i >= N)
 {
  return;
 }
 float temp_a = a[i];
 float temp_b = b[i];
 a[i] = (temp_a * 10 + 2 ) * ((temp_b + 2) * 10 - 5 ) * 5;
 // a[i] = a[i] + b[i];
}
""")

func = mod.get_function("func")  

def test(N):
  # N = 1024 * 1024 * 90  # float: 4M = 1024 * 1024

  print("N = %d" % N)

  N = np.int32(N)

  a = np.random.randn(N).astype(np.float32)
  b = np.random.randn(N).astype(np.float32)  
  # copy a to aa
  aa = np.empty_like(a)
  aa[:] = a
  # GPU run
  nTheads = 256
  nBlocks = int( ( N + nTheads - 1 ) / nTheads )
  start = timer()
  func(
      drv.InOut(a), drv.In(b), N,
      block=( nTheads, 1, 1 ), grid=( nBlocks, 1 ) )
  run_time = timer() - start 
  print("gpu run time %f seconds " % run_time)  
  # cpu run
  start = timer()
  aa = (aa * 10 + 2 ) * ((b + 2) * 10 - 5 ) * 5
  run_time = timer() - start 

  print("cpu run time %f seconds " % run_time) 

  # check result
  r = a - aa
  print( min(r), max(r) )

def main():
 for n in range(1, 10):
  N = 1024 * 1024 * (n * 10)
  print("------------%d---------------" % n)
  test(N)

if __name__ == '__main__':
  main()

对比

numba使用一些指令标记某些函数进行加速(也可以使用Python编写内核函数),这一点类似于OpenACC,而PyCUDA需要自己写kernel,在运行时进行编译,底层是基于C/C++实现的。通过测试,这两种方式的加速比基本差不多。但是,numba更像是一个黑盒,不知道内部到底做了什么,而PyCUDA就显得很直观。因此,这两种方式具有不同的应用:

* 如果只是为了加速自己的算法而不关心CUDA编程,那么直接使用numba会更好。

* 如果为了学习、研究CUDA编程或者实验某一个算法在CUDA下的可行性,那么使用PyCUDA。

* 如果写的程序将来要移植到C/C++,那么就一定要使用PyCUDA了,因为使用PyCUDA写的kernel本身就是用CUDA C/C++写的。

以上这篇使用Python写CUDA程序的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python中argparse模块用法实例详解
Jun 03 Python
python自动重试第三方包retrying模块的方法
Apr 24 Python
在Python中使用Neo4j的方法
Mar 14 Python
Python函数中参数是传递值还是引用详解
Jul 02 Python
python多进程(加入进程池)操作常见案例
Oct 21 Python
Python如何计算语句执行时间
Nov 22 Python
pytorch模型预测结果与ndarray互转方式
Jan 15 Python
Python字符串hashlib加密模块使用案例
Mar 10 Python
Python装饰器的应用场景代码总结
Apr 10 Python
Python读取Excel数据并生成图表过程解析
Jun 18 Python
Python调用OpenCV实现图像平滑代码实例
Jun 19 Python
使用python将HTML转换为PDF pdfkit包(wkhtmltopdf) 的使用方法
Apr 21 Python
pyenv命令管理多个Python版本
Mar 26 #Python
Django实现自定义404,500页面教程
Mar 26 #Python
Python 多线程实例详解
Mar 25 #Python
解决python3 urllib中urlopen报错的问题
Mar 25 #Python
Python制作Windows系统服务
Mar 25 #Python
Python 类的继承实例详解
Mar 25 #Python
python利用拉链法实现字典方法示例
Mar 25 #Python
You might like
PHP扩展编写点滴 技巧收集
2010/03/09 PHP
PHP中使用xmlreader读取xml数据示例
2014/12/29 PHP
php+mysql结合Ajax实现点赞功能完整实例
2015/01/30 PHP
php实现在服务器端调整图片大小的方法
2015/06/16 PHP
PHP应用跨时区功能的实现方法
2019/03/21 PHP
仿校内登陆框,精美,给那些很厉害但是没有设计天才的程序员
2008/11/24 Javascript
jQuery ui1.7 dialog只能弹出一次问题
2009/08/27 Javascript
html5的自定义data-*属性和jquery的data()方法的使用示例
2013/08/21 Javascript
深入理解JavaScript高级之词法作用域和作用域链
2013/12/10 Javascript
用js读、写、删除Cookie代码分享及详细注释说明
2014/06/05 Javascript
BootStrap下jQuery自动完成的样式调整
2016/05/30 Javascript
js 博客内容进度插件详解
2017/02/19 Javascript
Angular开发者指南之入门介绍
2017/03/05 Javascript
JavaScript 巧学巧用
2017/05/23 Javascript
Angular模板表单校验方法详解
2017/08/11 Javascript
Angular4学习笔记router的简单使用
2018/03/30 Javascript
详解webpack打包时排除其中一个css、js文件或单独打包一个css、js文件(两种方法)
2018/10/26 Javascript
IE11下处理Promise及Vue的单项数据流问题
2019/07/24 Javascript
Vue 的双向绑定原理与用法揭秘
2020/05/06 Javascript
js中复选框的取值及赋值示例详解
2020/10/18 Javascript
[45:34]完美世界DOTA2联赛PWL S3 Rebirth vs CPG 第一场 12.18
2020/12/19 DOTA
python在windows命令行下输出彩色文字的方法
2015/03/19 Python
Python pickle模块用法实例分析
2015/05/27 Python
python 获取网页编码方式实现代码
2017/03/11 Python
django中的setting最佳配置小结
2017/11/21 Python
详解Python之unittest单元测试代码
2018/01/24 Python
运行django项目指定IP和端口的方法
2018/05/14 Python
解决Pycharm界面的子窗口不见了的问题
2019/01/17 Python
pyinstaller打包单个exe后无法执行错误的解决方法
2019/06/21 Python
安纳塔拉酒店度假村及水疗官方网站:Anantara Hotel
2016/08/25 全球购物
英国领先的电子、技术和办公用品购物网站:Ebuyer
2018/04/04 全球购物
怎样创建、运行java程序
2014/08/01 面试题
文秘专业自荐信
2013/10/14 职场文书
大学生学习生活的自我评价
2013/11/01 职场文书
汽车修理厂管理制度
2015/08/05 职场文书
《检阅》教学反思
2016/02/22 职场文书