详解如何减少python内存的消耗


Posted in Python onAugust 09, 2019

Python 打算删除大量涉及像C和C++语言那样的复杂内存管理。当对象离开范围,就会被自动垃圾收集器回收。然而,对于由 Python 开发的大型且长期运行的系统来说,内存管理是不容小觑的事情。

在这篇博客中,我将会分享关于减少 Python 内存消耗的方法和分析导致内存消耗/膨胀根源的问题。这些都是从实际操作中总结的经验,我们正在构建 Datos IO 的 RecoverX 分布式备份和恢复平台,这里主要要介绍的是在 Python(在 C++ ,Java 和 bash 中也有一些类似的组件) 中的开发。

Python 垃圾收集

Python解释器对正在使用的对象保持计数。当对象不再被引用指向的时候,垃圾收集器可以释放该对象,获取分配的内存。例如,如果你使用常规的Python(CPython, 不是JPython)时,Python的垃圾收集器将调用free()/delete() 。

实用工具

资源(resource)

resource 模块用来查看项目当前得的固有的)内存消耗(固有内存是项目实际使用的RAM),注意resource库只在linux系统下有效

>>> import resource
>>> resource.getrusage(resource.RUSAGE_SELF).ru_maxrss
443

对象(objgraph)

objgraph 是一个实用模块,可以展示当前内存中存在的对象

来看看objgraph的简单用法:

import objgraph
import random
import inspect

class Foo(object):

  def __init__(self):
    self.val = None

  def __str__(self):
    return "foo - val: {0}".format(self.val)

def f():

  l = []

  for i in range(3):
    foo = Foo()
    l.append(foo)

  return l


def main():

  d = {}

  l = f()

  d['k'] = l

  print "list l has {0} objectsoftype Foo()".format(len(l))

pythontest1.py

输出:

list l has 10000 objectsoftype Foo()
dict 10423
Foo 10000 ————> Guiltyas charged!
tuple 3349
wrapper_descriptor 945
function 860
builtin_function_or_method 616
method_descriptor 338
weakref 199
member_descriptor 161
getset_descriptor 107

注意,我们在内存中还持有10,423个‘dict'的实例对象。

可视化objgraph依赖项

Objgraph有个不错的功能,可以显示Foo()对象在内存中存在的因素,即,显示谁持有对它的引用 (在这个例子中是list l)。

在RedHat/Centos上, 你可以使用sudo yum install graphviz*安装graphviz
在Ubunbu等系统上使用sudo apt-get install graphviz*安装graphviz

如需查看对象字典 d,请参考:

objgraph.show_refs(d, filename='sample-graph.png')

详解如何减少python内存的消耗

从内存使用角度来看,我们惊奇地发现——为什么对象没有释放?这是因为有人在持有对它的引用。

这个小片段展示了objgraph怎样提供相关信息:

objgraph.show_backrefs(random.choice(objgraph.by_type('Foo')), filename="foo_refs.png")

详解如何减少python内存的消耗

在这一案例中, 我们查看了Foo类型的随机对象。我们知道该特定对象被保存在内存中,因其引用链接在指定范围内。

有时,以上技巧能帮助我们理解,为什么当我们不再使用某对象时,Python垃圾回收器没有将垃圾回收。

难处理的是,有时候我们会发现Foo()占用了很多内存的类。这时我们可以用heapy()来回答以上问题。

Heapy

heapy 是一个实用的,用于调试内存消耗/泄漏的工具。通常,我将objgraph和heapy搭配使用:用 heapy 查看分配对象随时间增长的差异,heapy能够显示对象持有的最大内存等;用Objgraph找backref链(例如:前4节),尝试获取它们不能被释放的原因。

Heapy的典型用法是在不同地方的代码中调用一个函数,试图为内存使用量提供大量收集线索,找到可能会引发的问题:

from guppyimport hpy


def dump_heap(h, i):
  """
  @param h: Theheap (from hp = hpy(), h = hp.heap())
  @param i: Identifierstr
  """

  print "Dumpingstatsat: {0}".format(i)

  print 'Memoryusage: {0}(MB)'.format(resource.getrusage(resource.RUSAGE_SELF).ru_maxrss/1024)

  print "Mostcommontypes:"
  objgraph.show_most_common_types()

  print "heapis:"
  print "{0}".format(h)

  by_refs = h.byrcs
  print "byreferences: {0}".format(by_refs)
  print "Morestatsfor topelement.."
  print "Byclodo (class or dict owner): {0}".format(by_refs[0].byclodo)
  print "Bysize: {0}".format(by_refs[0].bysize)
  print "Byid: {0}".format(by_refs[0].byid)

减少内存消耗小技巧

在这一部分,我会介绍一些自己发现的可减少内存消耗的小窍门.

Slots

当你有许多对象时候可以使用Slots。Slotting传达给Python解释器:你的对象不需要动态的字典(从上面的例子2.2中,我们看到每个Foo()对象内部包含一个字典)

用slots定义你的对象,让python解释器知道你的类属性/成员是固定的.。这样可以有效地节约内存!

参考以下代码:

import resource

class Foo(object):
  #__slots__ = ('val1', 'val2', 'val3', 'val4', 'val5', 'val6')

  def __init__(self, val):
    self.val1 = val+1
    self.val2 = val+2
    self.val3 = val+3
    self.val4 = val+4
    self.val5 = val+5
    self.val6 = val+6

def f(count):
  l = []
  for i in range(count):
    foo = Foo(i)
    l.append(foo)

  return l

def main():
  count = 10000
  l = f(count)

  mem = resource.getrusage(resource.RUSAGE_SELF).ru_maxrss

  print "Memoryusageis: {0} KB”.format(mem)

  print "Sizeperfooobj: {0} KB”.format(float(mem)/count)

if __name__ == "__main__”:
  main()

[vagrant@datosdevtemp]$ pythontest2.py

输出:

Memoryusageis: 16672 KB
Sizeperfooobj: 1.6672 KB
Nowun-commentthisline: #__slots__ = (‘val1', ‘val2', ‘val3', ‘val4', ‘val5', ‘val6')
[vagrant@datosdevtemp]$ pythontest2.py
Memoryusageis: 6576 KB
Sizeperfooobj: 0.6576 KB

在这个例子中,减少了60%的内存消耗!

驻留:谨防驻留字符串!

Python会记录如字符串等不可改变的值(其每个值的大小依赖于实现方法),这称为驻留。

>>> t = "abcdefghijklmnopqrstuvwxyz"
>>>> p = "abcdefghijklmnopqrstuvwxyz"
>>>> id(t)
139863272322872
>>> id(p)
139863272322872

这是由python解析器完成的,这样做可以节省内存,并加快比较速度。例如,如果两个字符串拥有相同的ID或引用?他们就是全等的。

然而,如果你的程序创建了许多小的字符串,你的内存就会出现膨胀。

生成字符串时使用Format来代替“+”

接下来,在构造字符串时,使用Format来代替“+”构建字符串。

亦即,

st = "{0}_{1}_{2}_{3}".format(a,b,c,d) # 对内存更好,不创建临时变量
st2 = a + '_' + b + '_' + c + '_' + d # 在每个"+"时创建一个临时str,这些都是驻留在内存中的。

在我们的系统中,当我们将某些字符串构造从“+”变为使用format时,内存会明显被节省。

关于系统级别

上面我们讨论的技巧可以帮助你找出系统内存消耗的问题。但是,随着时间的推移,python进程产生的内存消耗会持续增加。这似乎与以下问题有关:

  1. 为什么C中内存分配能够在Python内部起作用,这本质上是内存碎片导致的。因为,除非整个内存没有使用过,否则该分配过程不能调用‘free'方法。但需要注意的是,内存的使用不是根据你所创建和使用的对象来进行排列。
  2. 内存增加也和上面讨论的“Interning” 有关。

以我的经验来看,减少python中内存消耗的比例是可行的。在Datos IO中,我曾经针对指定的内存消耗进程实现过一个工作模块。对于序列化的工作单元,我们运行了一个工作进程。当工作进程完成后, 它会被移除了——这是返回系统全部内存的唯一可以有效方法 :)。好的内存管理允许增加分配内存的大小,即允许工作进程长时间运行。

总结

我归纳了一些减少python进程消耗内存的技巧,当我们在代码中寻找内存泄漏时,一种方法是通过使用Heapy找出哪些Obj占用了较多内存,然后通过使用Objgraph找出内存被释放的原因(除非你认为他们本应该被释放)。

总的来说,我觉得在python中寻找内存问题是一种修行。随着时间的积累,对于系统中的内存膨胀和泄漏问题,你能产生一种直觉判断,并能更快地解决它们。愿你在发现问题的过程中找到乐趣!

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python实现bitmap数据结构详解
Feb 17 Python
pygame学习笔记(1):矩形、圆型画图实例
Apr 15 Python
Python实现截屏的函数
Jul 26 Python
用Python实现随机森林算法的示例
Aug 24 Python
Python实现扩展内置类型的方法分析
Oct 16 Python
pandas数据框,统计某列数据对应的个数方法
Apr 11 Python
django celery redis使用具体实践
Apr 08 Python
使用 Django Highcharts 实现数据可视化过程解析
Jul 31 Python
python虚拟环境完美部署教程
Aug 06 Python
python中for in的用法详解
Apr 17 Python
keras中的History对象用法
Jun 19 Python
python glom模块的使用简介
Apr 13 Python
Django命名URL和反向解析URL实现解析
Aug 09 #Python
利用python list完成最简单的DB连接池方法
Aug 09 #Python
python使用requests.session模拟登录
Aug 09 #Python
如何在Cloud Studio上执行Python代码?
Aug 09 #Python
python切片(获取一个子列表(数组))详解
Aug 09 #Python
Python多叉树的构造及取出节点数据(treelib)的方法
Aug 09 #Python
一行python实现树形结构的方法
Aug 09 #Python
You might like
php定时删除文件夹下文件(清理缓存文件)
2013/01/23 PHP
深入解析Session是否必须依赖Cookie
2013/08/02 PHP
PHP使用CURL模拟登录的方法
2015/07/08 PHP
PHP获取当前日期及本周一是几月几号的方法
2017/03/28 PHP
JAVASCRIPT HashTable
2007/01/22 Javascript
AJAX架构之Dojo篇
2007/04/10 Javascript
firefo xml 读写实现js代码
2009/06/11 Javascript
JavaScript 替换Html标签实现代码
2009/10/14 Javascript
HTML颜色选择器实现代码
2010/11/23 Javascript
jQuery jqgrid 对含特殊字符json 数据的 Java 处理方法
2011/01/01 Javascript
Jquery post传递数组方法实现思路及代码
2013/04/28 Javascript
全面理解面向对象的 JavaScript(来自ibm)
2013/11/10 Javascript
ie下$.getJSON出现问题的解决方法
2014/02/12 Javascript
微信小程序 Toast自定义实例详解
2017/01/20 Javascript
正则验证小数点后面只能有两位数的方法
2017/02/28 Javascript
JS实现评价的星星功能
2017/08/20 Javascript
解析vue路由异步组件和懒加载案例
2018/06/08 Javascript
使用Angular material主题定义自己的组件库的配色体系
2019/09/04 Javascript
javascript实现动态时钟的启动和停止
2020/07/29 Javascript
python处理cookie详解
2014/02/07 Python
Python使用scrapy采集数据时为每个请求随机分配user-agent的方法
2015/04/08 Python
Django框架模板注入操作示例【变量传递到模板】
2018/12/19 Python
python实现维吉尼亚算法
2019/03/20 Python
提升Python效率之使用循环机制代替递归函数
2019/07/23 Python
详解python列表(list)的使用技巧及高级操作
2019/08/15 Python
Python批量安装卸载1000个apk的方法
2020/04/10 Python
python爬虫泛滥的解决方法详解
2020/11/25 Python
职称自我鉴定
2013/10/15 职场文书
生物技术毕业生自荐信
2013/10/23 职场文书
大学生预备党员自我评价分享
2013/11/16 职场文书
考博专家推荐信模板
2013/12/02 职场文书
简历自我评价怎么写呢?
2014/01/06 职场文书
表彰大会策划方案
2014/05/13 职场文书
博士生专家推荐信
2014/09/26 职场文书
导游词之鲁迅祖居
2019/10/17 职场文书
Spring-cloud Config Server的3种配置方式
2021/09/25 Java/Android