Pytorch GPU内存占用很高,但是利用率很低如何解决


Posted in Python onJune 01, 2021

1.GPU 占用率,利用率

输入nvidia-smi来观察显卡的GPU内存占用率(Memory-Usage),显卡的GPU利用率(GPU-util)

GPU内存占用率(Memory-Usage) 往往是由于模型的大小以及batch size的大小,来影响这个指标 显卡的GPU利用率(GPU-util) 往往跟代码有关,有更多的io运算,cpu运算就会导致利用率变低。

比如打印loss, 输出图像,等等

Pytorch GPU内存占用很高,但是利用率很低如何解决

这个时候发现,有一块卡的利用率经常跳到1%,而其他三块卡经常维持在70%以上

2.原因分析

当没有设置好CPU的线程数时,Volatile GPU-Util参数是在反复的跳动的,0%,20%,70%,95%,0%。

这样停息1-2 秒然后又重复起来。其实是GPU在等待数据从CPU传输过来,当从总线传输到GPU之后,GPU逐渐起计算来,利用率会突然升高,但是GPU的算力很强大,0.5秒就基本能处理完数据,所以利用率接下来又会降下去,等待下一个batch的传入。

因此,这个GPU利用率瓶颈在内存带宽和内存介质上以及CPU的性能上面。

最好当然就是换更好的四代或者更强大的内存条,配合更好的CPU。

3.解决方法:

(1)为了提高利用率,首先要将num_workers(线程数)设置得体,4,8,16是几个常选的几个参数。本人测试过,将num_workers设置的非常大,例如,24,32,等,其效率反而降低,因为模型需要将数据平均分配到几个子线程去进行预处理,分发等数据操作,设高了反而影响效率。当然,线程数设置为1,是单个CPU来进行数据的预处理和传输给GPU,效率也会低。其次,当你的服务器或者电脑的内存较大,性能较好的时候,建议打开pin_memory打开,就省掉了将数据从CPU传入到缓存RAM里面,再给传输到GPU上;为True时是直接映射到GPU的相关内存块上,省掉了一点数据传输时间。

(2) 另外的一个方法是,在PyTorch这个框架里面,数据加载Dataloader上做更改和优化,包括num_workers(线程数),pin_memory,会提升速度。解决好数据传输的带宽瓶颈和GPU的运算效率低的问题。在TensorFlow下面,也有这个加载数据的设置。

(3) 修改代码(我遇到的问题)

每个iteration 都写文件了,这个就会导致cpu 一直运算,GPU 等待

Pytorch GPU内存占用很高,但是利用率很低如何解决

造成GPU利用率低还有其他原因

1. CPU数据读取更不上:读到内存+多线程+二进制文件(比如tf record)

2. GPU温度过高,使用功率太大:每次少用几个GPU,降低功耗(但是多卡的作用何在?)

以上为个人经验,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python爬虫:通过关键字爬取百度图片
Feb 17 Python
使用Python读取大文件的方法
Feb 11 Python
Python实现读取Properties配置文件的方法
Mar 29 Python
python pandas中对Series数据进行轴向连接的实例
Jun 08 Python
Python实现的旋转数组功能算法示例
Feb 23 Python
Python实战之制作天气查询软件
May 14 Python
利用python-pypcap抓取带VLAN标签的数据包方法
Jul 23 Python
python面向对象 反射原理解析
Aug 12 Python
Python爬取腾讯视频评论的思路详解
Dec 19 Python
k-means 聚类算法与Python实现代码
Jun 01 Python
浅谈keras使用预训练模型vgg16分类,损失和准确度不变
Jul 02 Python
python本地文件服务器实例教程
May 02 Python
Python爬取英雄联盟MSI直播间弹幕并生成词云图
如何判断pytorch是否支持GPU加速
Jun 01 #Python
pytorch 两个GPU同时训练的解决方案
Jun 01 #Python
使用Django实现商城验证码模块的方法
Jun 01 #Python
pytorch通过训练结果的复现设置随机种子
Jun 01 #Python
matplotlib画混淆矩阵与正确率曲线的实例代码
Jun 01 #Python
详细介绍python类及类的用法
You might like
解决PHP里大量数据循环时内存耗尽的方法
2015/10/10 PHP
学习php设计模式 php实现适配器模式
2015/12/07 PHP
Linux系统中设置多版本PHP共存配合Nginx服务器使用
2015/12/21 PHP
Ubuntu上安装yaf扩展的方法
2018/01/29 PHP
php压缩文件夹最新版
2018/07/18 PHP
TP5框架使用QueryList采集框架爬小说操作示例
2020/03/26 PHP
innertext , insertadjacentelement , insertadjacenthtml , insertadjacenttext 等区别
2007/06/29 Javascript
javascript 框架小结 个人工作经验
2009/06/13 Javascript
javascript 写类方式之三
2009/07/05 Javascript
JS完成代码前最好对其做5件事
2013/04/07 Javascript
JavaScript中的Math.sin()方法使用详解
2015/06/15 Javascript
基于JS代码实现导航条弹出式悬浮菜单
2016/06/17 Javascript
Javascript highcharts 饼图显示数量和百分比实例代码
2016/12/06 Javascript
详解基于DllPlugin和DllReferencePlugin的webpack构建优化
2018/06/28 Javascript
js实现倒计时器自定义时间和暂停
2019/02/25 Javascript
python3实现全角和半角字符转换的方法示例
2017/09/21 Python
python编写Logistic逻辑回归
2020/12/30 Python
Python pyinotify日志监控系统处理日志的方法
2018/03/08 Python
python版百度语音识别功能
2019/07/09 Python
Python使用微信itchat接口实现查看自己微信的信息功能详解
2019/08/22 Python
Python 解决OPEN读文件报错 ,路径以及r的问题
2019/12/19 Python
keras的ImageDataGenerator和flow()的用法说明
2020/07/03 Python
HTML5之SVG 2D入门3—文本与图像及渲染文本介绍
2013/01/30 HTML / CSS
PUMA澳大利亚官方网站:德国运动品牌
2018/10/19 全球购物
中专生学习生活的自我评价分享
2013/10/27 职场文书
护士的岗位职责
2013/12/04 职场文书
两只小狮子教学反思
2014/02/05 职场文书
家长学校实施方案
2014/03/15 职场文书
护士自我鉴定总结
2014/03/24 职场文书
演讲稿开场白台词
2014/08/25 职场文书
2014年教师节座谈会发言稿
2014/09/10 职场文书
学校查摆问题整改措施
2014/09/28 职场文书
2014年信息宣传工作总结
2014/12/18 职场文书
王亚平太空授课观后感
2015/06/12 职场文书
2016关于学习党章的心得体会
2016/01/15 职场文书
Python+腾讯云服务器实现每日自动健康打卡
2021/12/06 Python