详解如何减少python内存的消耗


Posted in Python onAugust 09, 2019

Python 打算删除大量涉及像C和C++语言那样的复杂内存管理。当对象离开范围,就会被自动垃圾收集器回收。然而,对于由 Python 开发的大型且长期运行的系统来说,内存管理是不容小觑的事情。

在这篇博客中,我将会分享关于减少 Python 内存消耗的方法和分析导致内存消耗/膨胀根源的问题。这些都是从实际操作中总结的经验,我们正在构建 Datos IO 的 RecoverX 分布式备份和恢复平台,这里主要要介绍的是在 Python(在 C++ ,Java 和 bash 中也有一些类似的组件) 中的开发。

Python 垃圾收集

Python解释器对正在使用的对象保持计数。当对象不再被引用指向的时候,垃圾收集器可以释放该对象,获取分配的内存。例如,如果你使用常规的Python(CPython, 不是JPython)时,Python的垃圾收集器将调用free()/delete() 。

实用工具

资源(resource)

resource 模块用来查看项目当前得的固有的)内存消耗(固有内存是项目实际使用的RAM),注意resource库只在linux系统下有效

>>> import resource
>>> resource.getrusage(resource.RUSAGE_SELF).ru_maxrss
443

对象(objgraph)

objgraph 是一个实用模块,可以展示当前内存中存在的对象

来看看objgraph的简单用法:

import objgraph
import random
import inspect

class Foo(object):

  def __init__(self):
    self.val = None

  def __str__(self):
    return "foo - val: {0}".format(self.val)

def f():

  l = []

  for i in range(3):
    foo = Foo()
    l.append(foo)

  return l


def main():

  d = {}

  l = f()

  d['k'] = l

  print "list l has {0} objectsoftype Foo()".format(len(l))

pythontest1.py

输出:

list l has 10000 objectsoftype Foo()
dict 10423
Foo 10000 ————> Guiltyas charged!
tuple 3349
wrapper_descriptor 945
function 860
builtin_function_or_method 616
method_descriptor 338
weakref 199
member_descriptor 161
getset_descriptor 107

注意,我们在内存中还持有10,423个‘dict'的实例对象。

可视化objgraph依赖项

Objgraph有个不错的功能,可以显示Foo()对象在内存中存在的因素,即,显示谁持有对它的引用 (在这个例子中是list l)。

在RedHat/Centos上, 你可以使用sudo yum install graphviz*安装graphviz
在Ubunbu等系统上使用sudo apt-get install graphviz*安装graphviz

如需查看对象字典 d,请参考:

objgraph.show_refs(d, filename='sample-graph.png')

详解如何减少python内存的消耗

从内存使用角度来看,我们惊奇地发现——为什么对象没有释放?这是因为有人在持有对它的引用。

这个小片段展示了objgraph怎样提供相关信息:

objgraph.show_backrefs(random.choice(objgraph.by_type('Foo')), filename="foo_refs.png")

详解如何减少python内存的消耗

在这一案例中, 我们查看了Foo类型的随机对象。我们知道该特定对象被保存在内存中,因其引用链接在指定范围内。

有时,以上技巧能帮助我们理解,为什么当我们不再使用某对象时,Python垃圾回收器没有将垃圾回收。

难处理的是,有时候我们会发现Foo()占用了很多内存的类。这时我们可以用heapy()来回答以上问题。

Heapy

heapy 是一个实用的,用于调试内存消耗/泄漏的工具。通常,我将objgraph和heapy搭配使用:用 heapy 查看分配对象随时间增长的差异,heapy能够显示对象持有的最大内存等;用Objgraph找backref链(例如:前4节),尝试获取它们不能被释放的原因。

Heapy的典型用法是在不同地方的代码中调用一个函数,试图为内存使用量提供大量收集线索,找到可能会引发的问题:

from guppyimport hpy


def dump_heap(h, i):
  """
  @param h: Theheap (from hp = hpy(), h = hp.heap())
  @param i: Identifierstr
  """

  print "Dumpingstatsat: {0}".format(i)

  print 'Memoryusage: {0}(MB)'.format(resource.getrusage(resource.RUSAGE_SELF).ru_maxrss/1024)

  print "Mostcommontypes:"
  objgraph.show_most_common_types()

  print "heapis:"
  print "{0}".format(h)

  by_refs = h.byrcs
  print "byreferences: {0}".format(by_refs)
  print "Morestatsfor topelement.."
  print "Byclodo (class or dict owner): {0}".format(by_refs[0].byclodo)
  print "Bysize: {0}".format(by_refs[0].bysize)
  print "Byid: {0}".format(by_refs[0].byid)

减少内存消耗小技巧

在这一部分,我会介绍一些自己发现的可减少内存消耗的小窍门.

Slots

当你有许多对象时候可以使用Slots。Slotting传达给Python解释器:你的对象不需要动态的字典(从上面的例子2.2中,我们看到每个Foo()对象内部包含一个字典)

用slots定义你的对象,让python解释器知道你的类属性/成员是固定的.。这样可以有效地节约内存!

参考以下代码:

import resource

class Foo(object):
  #__slots__ = ('val1', 'val2', 'val3', 'val4', 'val5', 'val6')

  def __init__(self, val):
    self.val1 = val+1
    self.val2 = val+2
    self.val3 = val+3
    self.val4 = val+4
    self.val5 = val+5
    self.val6 = val+6

def f(count):
  l = []
  for i in range(count):
    foo = Foo(i)
    l.append(foo)

  return l

def main():
  count = 10000
  l = f(count)

  mem = resource.getrusage(resource.RUSAGE_SELF).ru_maxrss

  print "Memoryusageis: {0} KB”.format(mem)

  print "Sizeperfooobj: {0} KB”.format(float(mem)/count)

if __name__ == "__main__”:
  main()

[vagrant@datosdevtemp]$ pythontest2.py

输出:

Memoryusageis: 16672 KB
Sizeperfooobj: 1.6672 KB
Nowun-commentthisline: #__slots__ = (‘val1', ‘val2', ‘val3', ‘val4', ‘val5', ‘val6')
[vagrant@datosdevtemp]$ pythontest2.py
Memoryusageis: 6576 KB
Sizeperfooobj: 0.6576 KB

在这个例子中,减少了60%的内存消耗!

驻留:谨防驻留字符串!

Python会记录如字符串等不可改变的值(其每个值的大小依赖于实现方法),这称为驻留。

>>> t = "abcdefghijklmnopqrstuvwxyz"
>>>> p = "abcdefghijklmnopqrstuvwxyz"
>>>> id(t)
139863272322872
>>> id(p)
139863272322872

这是由python解析器完成的,这样做可以节省内存,并加快比较速度。例如,如果两个字符串拥有相同的ID或引用?他们就是全等的。

然而,如果你的程序创建了许多小的字符串,你的内存就会出现膨胀。

生成字符串时使用Format来代替“+”

接下来,在构造字符串时,使用Format来代替“+”构建字符串。

亦即,

st = "{0}_{1}_{2}_{3}".format(a,b,c,d) # 对内存更好,不创建临时变量
st2 = a + '_' + b + '_' + c + '_' + d # 在每个"+"时创建一个临时str,这些都是驻留在内存中的。

在我们的系统中,当我们将某些字符串构造从“+”变为使用format时,内存会明显被节省。

关于系统级别

上面我们讨论的技巧可以帮助你找出系统内存消耗的问题。但是,随着时间的推移,python进程产生的内存消耗会持续增加。这似乎与以下问题有关:

  1. 为什么C中内存分配能够在Python内部起作用,这本质上是内存碎片导致的。因为,除非整个内存没有使用过,否则该分配过程不能调用‘free'方法。但需要注意的是,内存的使用不是根据你所创建和使用的对象来进行排列。
  2. 内存增加也和上面讨论的“Interning” 有关。

以我的经验来看,减少python中内存消耗的比例是可行的。在Datos IO中,我曾经针对指定的内存消耗进程实现过一个工作模块。对于序列化的工作单元,我们运行了一个工作进程。当工作进程完成后, 它会被移除了——这是返回系统全部内存的唯一可以有效方法 :)。好的内存管理允许增加分配内存的大小,即允许工作进程长时间运行。

总结

我归纳了一些减少python进程消耗内存的技巧,当我们在代码中寻找内存泄漏时,一种方法是通过使用Heapy找出哪些Obj占用了较多内存,然后通过使用Objgraph找出内存被释放的原因(除非你认为他们本应该被释放)。

总的来说,我觉得在python中寻找内存问题是一种修行。随着时间的积累,对于系统中的内存膨胀和泄漏问题,你能产生一种直觉判断,并能更快地解决它们。愿你在发现问题的过程中找到乐趣!

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
打开电脑上的QQ的python代码
Feb 10 Python
Python 装饰器深入理解
Mar 16 Python
Django查询数据库的性能优化示例代码
Sep 24 Python
Tensorflow 实现修改张量特定元素的值方法
Jul 30 Python
django进阶之cookie和session的使用示例
Aug 17 Python
python pands实现execl转csv 并修改csv指定列的方法
Dec 12 Python
python添加模块搜索路径和包的导入方法
Jan 19 Python
Python程序打包工具py2exe和PyInstaller详解
Jun 28 Python
python绘制多个子图的实例
Jul 07 Python
Python实现密钥密码(加解密)实例详解
Apr 26 Python
浅谈pytorch 模型 .pt, .pth, .pkl的区别及模型保存方式
May 25 Python
python 调用js的四种方式
Apr 11 Python
Django命名URL和反向解析URL实现解析
Aug 09 #Python
利用python list完成最简单的DB连接池方法
Aug 09 #Python
python使用requests.session模拟登录
Aug 09 #Python
如何在Cloud Studio上执行Python代码?
Aug 09 #Python
python切片(获取一个子列表(数组))详解
Aug 09 #Python
Python多叉树的构造及取出节点数据(treelib)的方法
Aug 09 #Python
一行python实现树形结构的方法
Aug 09 #Python
You might like
php注入实例
2006/10/09 PHP
CodeIgniter生成网站sitemap地图的方法
2013/11/13 PHP
基于php的CMS中展示文章类实例分析
2015/06/18 PHP
PHP针对字符串开头和结尾的判断方法
2016/07/11 PHP
Laravel中的Auth模块详解
2017/08/17 PHP
jquery $.getJSON()跨域请求
2011/12/21 Javascript
javascript获取网页宽高方法汇总
2015/07/19 Javascript
jQuery实现鼠标滑过链接控制图片的滑动展开与隐藏效果
2015/10/28 Javascript
JavaScript中setter和getter方法介绍
2016/07/11 Javascript
炫酷的js手风琴效果
2016/10/13 Javascript
jquery实现简单的瀑布流布局
2016/12/11 Javascript
老生常谈jquery id选择器和class选择器的区别
2017/02/12 Javascript
js实现鼠标拖动功能
2017/03/20 Javascript
微信小程序 五星评分的实现实例
2017/08/04 Javascript
vue中post请求以a=a&b=b 的格式写遇到的问题
2018/04/27 Javascript
让Vue也可以使用Redux的方法
2018/05/23 Javascript
关于TypeScript模块导入的那些事
2018/06/12 Javascript
jQuery实现简单的Ajax调用功能示例
2019/02/15 jQuery
解决vue单页面多个组件嵌套监听浏览器窗口变化问题
2020/07/30 Javascript
基于JQuery和DWR实现异步数据传递
2020/10/16 jQuery
[40:29]2018DOTA2亚洲邀请赛 4.7总决赛 LGD vs Mineski 第一场
2018/04/10 DOTA
对于Python编程中一些重用与缩减的建议
2015/04/14 Python
Python中的复制操作及copy模块中的浅拷贝与深拷贝方法
2016/07/02 Python
Python入门_浅谈字符串的分片与索引、字符串的方法
2017/05/16 Python
浅谈Python由__dict__和dir()引发的一些思考
2017/10/30 Python
python实现图书馆研习室自动预约功能
2018/04/27 Python
Python matplotlib画图与中文设置操作实例分析
2019/04/23 Python
PyCharm2018 安装及破解方法实现步骤
2019/09/09 Python
利用CSS3实现进度条的两种姿势详解
2017/03/21 HTML / CSS
NFL墨西哥官方商店:Tienda NFL
2017/11/28 全球购物
澳大利亚最大的在线美发和美容零售商之一:My Hair Care & Beauty
2019/08/24 全球购物
导师就业推荐信范文
2014/05/22 职场文书
2015大学自主招生自荐信范文
2015/03/04 职场文书
淘宝客服专员岗位职责
2015/04/07 职场文书
电力安全教育培训心得体会
2016/01/11 职场文书
2019自荐信该如何写呢?
2019/07/05 职场文书