编程 Python

keras实现多GPU或指定GPU的使用介绍

Posted in Python onJune 17, 2020

1. keras新版本中加入多GPU并行使用的函数

下面程序段即可实现一个或多个GPU加速：

注意：使用多GPU加速时，Keras版本必须是Keras2.0.9以上版本

from keras.utils.training_utils import multi_gpu_model  #导入keras多GPU函数
import VGG19   #导入已经写好的函数模型，例如VGG19

if G <= 1:
  print("[INFO] training with 1 GPU...")
  model = VGG19（）

# otherwise, we are compiling using multiple GPUs
else:
  print("[INFO] training with {} GPUs...".format(G))
  # we'll store a copy of the model on *every* GPU and then combine
  # the results from the gradient updates on the CPU
  with tf.device("/cpu:0"):
    # initialize the model
    model1 = VGG19（）
    # make the model parallel(if you have more than 2 GPU)
    model = multi_gpu_model(model1, gpus=G)

2.指定使用某个GPU

首先在终端查看主机中GPU编号：

watch -n -9 nvidia-smi

查询结果如下所示：

keras实现多GPU或指定GPU的使用介绍

显示主机中只有一块GPU，编号为0

2.1 下面方法是直接在终端运行时加入相关语句实现指定GPU的使用

export CUDA_VISIBLE_DEVICES=0 python test.py
# 表示运行test.py文件时，使用编号为0的GPU卡
export CUDA_VISIBLE_DEVICES=0,2 python test.py
# 表示运行test.py文件时，使用编号为0和2的GPU卡

2.2 下面方法是在Python程序中添加

import os
# 使用第一张与第三张GPU卡
os.environ["CUDA_VISIBLE_DEVICES"] = "0, 2"

补充知识：踩坑记----large batch_size cause low var_acc

有时候，我们在训练模型前期，会出现很高的train_acc(训练准确率),但var_acc（验证准确率）却很低。这往往是因为我们模型在训练过程中已经进入局部最优，或者出现过拟合的现象。造成这种情况有多种原因，我只提出以下几点，有补充的可以在下面留言，我补充。

（1）.训练数据分布不均匀，可能你的训练数据某一类别占据了大多数，比如95%的数据为苹果，5%的数据为其他类别，那么模型为了拟合训练数据，则模型会偏袒于把识别结果归属于苹果，而验证集的数据是正常的，那么便会出现高train_acc，低val_acc。

（2）.训练数据没有shuffle，那么整个batch里面将会是同一个类别数据，比如都为苹果的图片，那么训练一个batch，那么模型输出将会往这一类别靠拢，会形成一个很高的acc的假象，但这个模型泛化能力却很低，因为这个模型都只会为了拟合这批同类的数据。

（3）.训练集跟验证集的预处理不一致，这个是细节问题，输入的图片分布不一致，那么必然会影响到验证结果。

（4）.模型过于复杂，造成过拟合现象，特别是在于训练数据集不多的情况下，更容易出现过拟合。

（5）.这个也是最难发现的，就是过大的batch_size，造成训练前期，模型还未收敛，出现很高的train_acc，却有很低的val_acc，亲测，在120个类别，参数只有七万的分类模型中，在batch-size等于64的情况下，在第二个epoch时，train_acc达到80%，val_acc却只有6%，train_loss跟val_loss也是相差很大，而在batch_size在等于8的情况下，在第二个epoch，train_acc跟val_acc皆能达到60%，且还有上升的趋势。至于为什么，个人认为，模型在大的batch_size的情况下，模型泛化能力下降，且更难拟合，每个epoch所包含的step也更少，且在adam的优化算法，前期的学习率较高，模型出现了振荡，一直在局部最优值徘徊，具体原因不知。

接下来分析下，batc_size对模型的影响：

large batch_size:

好处：训练的更快，每一step都包含更多的训练集，模型准确率会更高，不容易受到噪声的影响，稳定性更好。

small batch_size:

好处：不容易陷入局部最优，泛化能力更强。

总结：

（1）.large batch_size，虽然训练模型的训练误差会更低，但往往在execute的时候，效果却不尽人意。

（2）.在时间允许的情况下，建议batch_size在32或以下。

以上这篇keras实现多GPU或指定GPU的使用介绍就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

keras实现多GPU或指定GPU的使用介绍

- Author -

shuangyumelody

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

windows下python模拟鼠标点击和键盘输示例

Feb 28 Python

深入Python解释器理解Python中的字节码

Apr 01 Python

Python 专题四文件基础知识

Mar 20 Python

python3中str（字符串）的使用教程

Mar 23 Python

Python学生成绩管理系统简洁版

Apr 05 Python

修复 Django migration 时遇到的问题解决

Jun 14 Python

python for循环输入一个矩阵的实例

Nov 14 Python

python实现感知器算法（批处理）

Jan 18 Python

Python使用正则表达式分割字符串的实现方法

Jul 16 Python

详解Python self 参数

Aug 30 Python

pycharm不能运行.py文件的解决方法

Feb 12 Python

pymongo insert_many 批量插入的实例

Dec 05 Python

Python字符串格式化常用手段及注意事项

Jun 17 #Python

python代码区分大小写吗

Jun 17 #Python

python代码中怎么换行

Jun 17 #Python

Python bisect模块原理及常见实例

Jun 17 #Python

浅谈keras2 predict和fit_generator的坑

Jun 17 #Python

python能在浏览器能运行吗

Jun 17 #Python

python的pip有什么用

Jun 17 #Python

You might like

ajax缓存问题解决途径

2006/12/06 PHP

php curl登陆qq后获取用户信息时证书错误

2015/02/03 PHP

使用Huagepage和PGO来提升PHP7的执行性能

2015/11/30 PHP

PHP中include/require/include_once/require_once使用心得

2016/08/28 PHP

php+ajax实现异步上传文件或图片功能

2017/07/18 PHP

JavaScript面象对象设计

2008/04/28 Javascript

IE和Firefox下javascript的兼容写法小结

2008/12/10 Javascript

JavaScript 对象、函数和继承

2009/07/07 Javascript

Js实现网页键盘控制翻页的方法

2014/10/30 Javascript

用JS实现轮播图效果（二）

2016/06/26 Javascript

Vue.js路由vue-router使用方法详解

2017/03/20 Javascript

Webpack执行命令参数详解

2017/06/17 Javascript

vue事件修饰符和按键修饰符用法总结

2017/07/25 Javascript

老生常谈ES6中的类

2017/07/31 Javascript

详解Vue中watch的高级用法

2018/05/02 Javascript

Vue的watch和computed方法的使用及区别介绍

2018/09/06 Javascript

js实现扫雷源代码

2020/11/27 Javascript

在Python的Django框架中生成CSV文件的方法

2015/07/22 Python

Python端口扫描简单程序

2016/11/10 Python

python处理Excel xlrd的简单使用

2017/09/12 Python

使用numpy和PIL进行简单的图像处理方法

2018/07/02 Python

对python dataframe逻辑取值的方法详解

2019/01/30 Python

python实现连连看辅助（图像识别）

2020/03/25 Python

python:按行读入,排序然后输出的方法

2019/07/20 Python

Django 静态文件配置过程详解

2019/07/23 Python

浅谈对pytroch中torch.autograd.backward的思考

2019/12/27 Python

Python读取文件内容为字符串的方法(多种方法详解)

2020/03/04 Python

新西兰最大的连锁超市：Countdown

2020/06/04 全球购物

大学生入党思想汇报

2014/01/14 职场文书

《列夫托尔斯泰》教学反思

2014/02/10 职场文书

解除劳动合同协议书

2014/04/14 职场文书

学生操行评语大全

2014/04/24 职场文书

弘扬雷锋精神演讲稿

2014/05/10 职场文书

李强感恩观后感

2015/06/17 职场文书

《唯一的听众》教学反思

2016/02/18 职场文书

忆童年!用Python实现愤怒的小鸟游戏

2021/06/07 Python