Python的内存泄漏及gc模块的使用分析


Posted in Python onJuly 16, 2014

一般来说在 Python 中,为了解决内存泄漏问题,采用了对象引用计数,并基于引用计数实现自动垃圾回收。
由于Python 有了自动垃圾回收功能,就造成了不少初学者误认为自己从此过上了好日子,不必再受内存泄漏的骚扰了。但如果仔细查看一下Python文档对 __del__() 函数的描述,就知道这种好日子里也是有阴云的。下面摘抄一点文档内容如下:

Some common situations that may prevent the reference count of an object from going to zero include: circular references between objects (e.g., a doubly-linked list or a tree data structure with parent and child pointers); a reference to the object on the stack frame of a function that caught an exception (the traceback stored in sys.exc_traceback keeps the stack frame alive); or a reference to the object on the stack frame that raised an unhandled exception in interactive mode (the traceback stored in sys.last_traceback keeps the stack frame alive).

可见,有 __del__() 函数的对象间的循环引用是导致内存泄漏的主凶
另外需要说明:对没有 __del__() 函数的 Python 对象间的循环引用,是可以被自动垃圾回收掉的

如何知道一个对象是否内存泄漏了呢?

方法一、当你认为一个对象应该被销毁时(即引用计数为 0),可以通过 sys.getrefcount(obj) 来获取对象的引用计数,并根据返回值是否为 0 来判断是否内存泄漏。如果返回的引用计数不为 0,说明在此刻对象 obj 是不能被垃圾回收器回收掉的。

方法二、也可以通过 Python 扩展模块 gc 来查看不能回收的对象的详细信息。

首先,来看一段正常的测试代码:

#--------------- code begin --------------
# -*- coding: utf-8 -*-
import gc
import sys

class CGcLeak(object):
  def __init__(self):
    self._text = '#'*10

  def __del__(self):
    pass

def make_circle_ref():
  _gcleak = CGcLeak()
#  _gcleak._self = _gcleak # test_code_1
  print '_gcleak ref count0:%d' % sys.getrefcount(_gcleak)
  del _gcleak
  try:
    print '_gcleak ref count1:%d' % sys.getrefcount(_gcleak)
  except UnboundLocalError:
    print '_gcleak is invalid!'

def test_gcleak():
  # Enable automatic garbage collection.
  gc.enable()
  # Set the garbage collection debugging flags.
  gc.set_debug(gc.DEBUG_COLLECTABLE | gc.DEBUG_UNCOLLECTABLE | /
    gc.DEBUG_INSTANCES | gc.DEBUG_OBJECTS)

  print 'begin leak test...'
  make_circle_ref()

  print 'begin collect...'
  _unreachable = gc.collect()
  print 'unreachable object num:%d' % _unreachable
  print 'garbage object num:%d' % len(gc.garbage)

if __name__ == '__main__':
  test_gcleak()

在 test_gcleak() 中,设置垃圾回收器调试标志后,再用 collect() 进行垃圾回收,最后打印出该次垃圾回收发现的不可达的垃圾对象数和整个解释器中的垃圾对象数。

gc.garbage 是一个 list 对象,列表项是垃圾收集器发现的不可达(即是垃圾对象)、但又不能释放(即不能回收)的对象。文档描述为:A list of objects which the collector found to be unreachable but could not be freed (uncollectable objects).
通常,gc.garbage 中的对象是引用环中的对象。因为 Python 不知道按照什么样的安全次序来调用环中对象的 __del__() 函数,导致对象始终存活在 gc.garbage 中,造成内存泄漏。如果知道一个安全的次序,那么就打破引用环,再执行 del gc.garbage[:] ,以清空垃圾对象列表。

上段代码输出为(#后字符串为笔者所加注释):

#-----------------------------------------
begin leak test...
# 变量 _gcleak 的引用计数为 2.
_gcleak ref count0:2
# _gcleak 变为不可达(unreachable)的非法变量.
_gcleak is invalid!
# 开始垃圾回收
begin collect...
# 本次垃圾回收发现的不可达的垃圾对象数为 0.
unreachable object num:0
# 整个解释器中的垃圾对象数为 0.
garbage object num:0
#-----------------------------------------

由此可见 _gcleak 对象的引用计数是正确的,也没有任何对象发生内存泄漏。

如果不注释掉 make_circle_ref() 中的 test_code_1 语句:

_gcleak._self = _gcleak

也就是让 _gcleak 形成一个自己对自己的循环引用。再运行上述代码,输出结果就变成:

#-----------------------------------------
begin leak test...
_gcleak ref count0:3
_gcleak is invalid!
begin collect...
# 发现可以回收的垃圾对象: 地址为 012AA090,类型为 CGcLeak.
gc: uncollectable <CGcLeak 012AA090>
gc: uncollectable <dict 012AC1E0>
unreachable object num:2
#!! 不能回收的垃圾对象数为 1,导致内存泄漏!
garbage object num:1
#-----------------------------------------

可见 <CGcLeak 012AA090> 对象发生了内存泄漏!!而多出的 dict 垃圾就是泄漏的 _gcleak 对象的字典,打印出字典信息为:

{'_self': <__main__.CGcLeak object at 0x012AA090>, '_text': '##########'}

除了对自己的循环引用,多个对象间的循环引用也会导致内存泄漏。简单举例如下:

#--------------- code begin --------------

class CGcLeakA(object):
  def __init__(self):
    self._text = '#'*10

  def __del__(self):
    pass

class CGcLeakB(object):
  def __init__(self):
    self._text = '*'*10

  def __del__(self):
    pass

def make_circle_ref():
  _a = CGcLeakA()
  _b = CGcLeakB()
  _a._b = _b # test_code_2
  _b._a = _a # test_code_3
  print 'ref count0:a=%d b=%d' % /
    (sys.getrefcount(_a), sys.getrefcount(_b))
#  _b._a = None  # test_code_4
  del _a
  del _b
  try:
    print 'ref count1:a=%d' % sys.getrefcount(_a)
  except UnboundLocalError:
    print '_a is invalid!'
  try:
    print 'ref count2:b=%d' % sys.getrefcount(_b)
  except UnboundLocalError:
    print '_b is invalid!'

#--------------- code end ----------------

这次测试后输出结果为:

#-----------------------------------------
begin leak test...
ref count0:a=3 b=3
_a is invalid!
_b is invalid!
begin collect...
gc: uncollectable <CGcLeakA 012AA110>
gc: uncollectable <CGcLeakB 012AA0B0>
gc: uncollectable <dict 012AC1E0>
gc: uncollectable <dict 012AC0C0>
unreachable object num:4
garbage object num:2
#-----------------------------------------

可见 _a,_b 对象都发生了内存泄漏。因为二者是循环引用,垃圾回收器不知道该如何回收,也就是不知道该首先调用那个对象的 __del__() 函数。

采用以下任一方法,打破环状引用,就可以避免内存泄漏:

1.注释掉 make_circle_ref() 中的 test_code_2 语句;
2.注释掉 make_circle_ref() 中的 test_code_3 语句;
3.取消对 make_circle_ref() 中的 test_code_4 语句的注释。

相应输出结果变为:

#-----------------------------------------
begin leak test...
ref count0:a=2 b=3 # 注:此处输出结果视情况变化.
_a is invalid!
_b is invalid!
begin collect...
unreachable object num:0
garbage object num:0
#-----------------------------------------

结论:Python 的 gc 有比较强的功能,比如设置 gc.set_debug(gc.DEBUG_LEAK) 就可以进行循环引用导致的内存泄露的检查。如果在开发时进行内存泄露检查;在发布时能够确保不会内存泄露,那么就可以延长 Python 的垃圾回收时间间隔、甚至主动关闭垃圾回收机制,从而提高运行效率。

Python 相关文章推荐
Python 文件操作技巧(File operation) 实例代码分析
Aug 11 Python
Python探索之ModelForm代码详解
Oct 26 Python
python 简单备份文件脚本v1.0的实例
Nov 06 Python
PyQT实现多窗口切换
Apr 20 Python
python顺序的读取文件夹下名称有序的文件方法
Jul 11 Python
python 将list转成字符串,中间用符号分隔的方法
Oct 23 Python
Django项目中添加ldap登陆认证功能的实现
Apr 04 Python
解决django中ModelForm多表单组合的问题
Jul 18 Python
python使用pymongo与MongoDB基本交互操作示例
Apr 09 Python
Python从文件中读取数据的方法步骤
Nov 18 Python
Python解析微信dat文件的方法
Nov 30 Python
教你怎么用python爬取爱奇艺热门电影
May 20 Python
Python的垃圾回收机制深入分析
Jul 16 #Python
python中将字典转换成其json字符串
Jul 16 #Python
记录Django开发心得
Jul 16 #Python
Python实现动态添加类的属性或成员函数的解决方法
Jul 16 #Python
Python重新引入被覆盖的自带function
Jul 16 #Python
Python实现扫描指定目录下的子目录及文件的方法
Jul 16 #Python
python re正则表达式模块(Regular Expression)
Jul 16 #Python
You might like
smtp邮件发送一例
2006/10/09 PHP
php获取网页中图片、DIV内容的简单方法
2014/06/19 PHP
PHP程序中使用adodb连接不同数据库的代码实例
2015/12/19 PHP
thinkphp中字符截取函数msubstr()用法分析
2016/01/09 PHP
php-beanstalkd消息队列类实例分享
2017/07/19 PHP
javascript 匿名函数的理解(透彻版)
2010/01/28 Javascript
实现网页页面跳转的几种方法(meta标签、js实现、php实现)
2014/05/20 Javascript
javascript鼠标右键菜单自定义效果
2020/12/08 Javascript
jQuery将表单序列化成一个Object对象的实例
2016/11/29 Javascript
JS实现的表头列头固定页面功能示例
2017/01/10 Javascript
Vue input控件通过value绑定动态属性及修饰符的方法
2017/05/03 Javascript
js实现倒计时关键代码
2017/05/05 Javascript
讲解vue-router之什么是编程式路由
2018/05/28 Javascript
vue中使用elementUI组件手动上传图片功能
2019/12/13 Javascript
让mocha支持ES6模块的方法实现
2020/01/14 Javascript
[01:50]2014DOTA2西雅图邀请赛 专访欢乐周宝龙
2014/07/08 DOTA
[01:33:14]LGD vs VP Supermajor 败者组决赛 BO3 第二场 6.10
2018/07/04 DOTA
Python 2与Python 3版本和编码的对比
2017/02/14 Python
Python os.access()用法实例
2019/02/18 Python
详解Django模版中加载静态文件配置方法
2019/07/21 Python
Django结合ajax进行页面实时更新的例子
2019/08/12 Python
python实现广度优先搜索过程解析
2019/10/19 Python
OpenCV python sklearn随机超参数搜索的实现
2020/01/17 Python
利用CSS3实现炫酷的飞机起飞动画
2016/09/17 HTML / CSS
Under Armour安德玛中国官网:美国高端运动科技品牌
2018/03/09 全球购物
Europcar意大利:汽车租赁
2019/07/07 全球购物
奥地利票务门户网站:oeticket.com
2019/12/31 全球购物
旅游管理本科生求职信
2013/10/14 职场文书
致跳高运动员广播稿
2014/01/13 职场文书
个人三严三实对照检查材料
2014/09/25 职场文书
党组织领导班子整改方案
2014/10/25 职场文书
观看建国大业观后感
2015/06/01 职场文书
2016教师节问候语
2015/11/10 职场文书
初三英语教学反思
2016/02/15 职场文书
先进基层党组织事迹材料2016
2016/02/29 职场文书
MYSQL数据库使用UTF-8中文编码乱码的解决办法
2021/05/26 MySQL