编程 Python

Python 循环读取数据内存不足的解决方案

Posted in Python onMay 25, 2021

看代码吧~

import gc
for x in list(locals().keys())[:]:
    del locals()[x]
# del all_s_x, AE, AE_split, x_ticks, split
gc.collect()

补充：Python读取大文件的"坑“与内存占用检测

python读写文件的api都很简单，一不留神就容易踩”坑“。笔者记录一次踩坑历程，并且给了一些总结，希望到大家在使用python的过程之中，能够避免一些可能产生隐患的代码。

1.read()与readlines()：

随手搜索python读写文件的教程，很经常看到read()与readlines()这对函数。所以我们会常常看到如下代码：

with open(file_path, 'rb') as f:
    sha1Obj.update(f.read())

with open(file_path, 'rb') as f:
    for line in f.readlines():
        print(line)

这对方法在读取小文件时确实不会产生什么异常，但是一旦读取大文件，很容易会产生MemoryError，也就是内存溢出的问题。

Why Memory Error？

我们首先来看看这两个方法：

当默认参数size=-1时，read方法会读取直到EOF，当文件大小大于可用内存时，自然会发生内存溢出的错误。

Python 循环读取数据内存不足的解决方案

同样的，readlines会构造一个list。list而不是iter，所以所有的内容都会保存在内存之上，同样也会发生内存溢出的错误。

Python 循环读取数据内存不足的解决方案

2.正确的用法：

在实际运行的系统之中如果写出上述代码是十分危险的，这种”坑“十分隐蔽。所以接下来我们来了解一下正确用，正确的用法也很简单，依照API之中对函数的描述来进行对应的编码就OK了：

如果是二进制文件推荐用如下这种写法，可以自己指定缓冲区有多少byte。显然缓冲区越大，读取速度越快。

with open(file_path, 'rb') as f:
    while True:
        buf = f.read(1024)
        if buf:    
            sha1Obj.update(buf)
        else:
            break

而如果是文本文件，则可以用readline方法或直接迭代文件（python这里封装了一个语法糖，二者的内生逻辑一致，不过显然迭代文件的写法更pythonic ）每次读取一行，效率是比较低的。笔者简单测试了一下，在3G文件之下，大概性能和前者差了20%.

with open(file_path, 'rb') as f:
    while True:
        line = f.readline()
        if buf:    
            print(line)
        else:
            break
with open(file_path, 'rb') as f:
    for line in f:
        print(line)

3.内存检测工具的介绍：

对于python代码的内存占用问题，对于代码进行内存监控十分必要。这里笔者这里推荐两个小工具来检测python代码的内存占用。

memory_profiler

首先先用pip安装memory_profiler

pip install memory_profiler

memory_profiler是利用python的装饰器工作的，所以我们需要在进行测试的函数上添加装饰器。

from hashlib import sha1
import sys
@profile
def my_func():
    sha1Obj = sha1()
    with open(sys.argv[1], 'rb') as f:
        while True:
            buf = f.read(10 * 1024 * 1024)
            if buf:
                sha1Obj.update(buf)
            else:
                break
    print(sha1Obj.hexdigest())
if __name__ == '__main__':
    my_func()

之后在运行代码时加上** -m memory_profiler**

就可以了解函数每一步代码的内存占用了

Python 循环读取数据内存不足的解决方案

guppy

依样画葫芦，仍然是通过pip先安装guppy

pip install guppy

之后可以在代码之中利用guppy直接打印出对应各种python类型（list、tuple、dict等）分别创建了多少对象，占用了多少内存。

from guppy import hpy
import sys
def my_func():
    mem = hpy()
    with open(sys.argv[1], 'rb') as f:
        while True:
            buf = f.read(10 * 1024 * 1024)
            if buf:
                print(mem.heap())
            else:
                break

如下图所示，可以看到打印出对应的内存占用数据：

Python 循环读取数据内存不足的解决方案

通过上述两种工具guppy与memory_profiler可以很好地来监控python代码运行时的内存占用问题。

4.小结：

python是一门崇尚简洁的语言，但是正是因为它的简洁反而更多了许多需要仔细推敲和思考的细节。希望大家在日常工作与学习之中也能多对一些细节进行总结，少踩一些不必要的“坑”。

以上为个人经验，希望能给大家一个参考，也希望大家多多支持三水点靠木。

Python 循环读取数据内存不足的解决方案

- Author -

ON_THE_WAY_FOREVER

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

使用python实现strcmp函数功能示例

Mar 25 Python

在Django框架中设置语言偏好的教程

Jul 27 Python

Python中文分词实现方法(安装pymmseg)

Jun 14 Python

利用python程序生成word和PDF文档的方法

Feb 14 Python

Python XlsxWriter模块Chart类用法实例分析

Mar 11 Python

Python获取时间戳代码实例

Sep 24 Python

Python输出指定字符串的方法

Feb 06 Python

如何使用Python抓取网页tag操作

Feb 14 Python

Python递归实现打印多重列表代码

Feb 27 Python

如何导出python安装的所有模块名称和版本号到文件中

Jun 05 Python

Python3爬虫中Ajax的用法

Jul 10 Python

通过案例解析python鸭子类型相关原理

Oct 10 Python

python基于机器学习预测股票交易信号

Python数据可视化之绘制柱状图和条形图

总结Python常用的魔法方法

Python入门学习之类的相关知识总结

python munch库的使用解析

May 25 #Python

python调试工具Birdseye的使用教程

浅谈Python numpy创建空数组的问题

May 25 #Python

You might like

PHP实现文件安全下载

2006/10/09 PHP

PHP常用技巧总结（附函数代码）

2012/02/04 PHP

php中__destruct与register_shutdown_function执行的先后顺序问题

2014/10/17 PHP

PHP图像处理之使用imagecolorallocate()函数设置颜色例子

2014/11/19 PHP

php实现遍历多维数组的方法

2015/11/25 PHP

建议大家看下JavaScript重要知识更新

2007/07/08 Javascript

javascript innerHTML使用分析

2010/12/03 Javascript

基于JQuery的多标签实现代码

2012/09/19 Javascript

jquery获取元素值的方法(常见的表单元素)

2013/11/15 Javascript

jquery隔行换色效果实现方法

2015/01/15 Javascript

JavaScript中诡异的delete操作符

2015/03/12 Javascript

AngularJS教程之简单应用程序示例

2016/08/16 Javascript

微信小程序 wxapp内容组件 icon详细介绍

2016/10/31 Javascript

基于Vue 实现一个中规中矩loading组件

2019/04/03 Javascript

[02:05]2014DOTA2西雅图国际邀请赛 BBC第二天小组赛总结

2014/07/11 DOTA

python中print的不换行即时输出的快速解决方法

2016/07/20 Python

Python MySQL数据库连接池组件pymysqlpool详解

2017/07/07 Python

Python使用smtp和pop简单收发邮件完整实例

2018/01/09 Python

Python中实现单例模式的n种方式和原理

2018/11/14 Python

pyqt5 实现工具栏文字图片同时显示

2019/06/13 Python

PyQt5+Pycharm安装和配置图文教程详解

2020/03/24 Python

英国知名的皮手套品牌：Dents

2016/11/13 全球购物

在线购买澳大利亚设计师手拿包和奢华晚装手袋：Olga Berg

2019/03/20 全球购物

Lookfantastic俄罗斯：欧洲在线化妆品零售商

2019/08/06 全球购物

英国在线照明超市：Castlegate Lights

2019/10/30 全球购物

社团文化节策划书

2014/02/01 职场文书

实验教师岗位职责

2014/02/13 职场文书

大学新闻系应届生求职信

2014/06/02 职场文书

企业趣味活动方案

2014/08/21 职场文书

干部作风建设年活动剖析材料

2014/10/23 职场文书

学校端午节活动总结

2015/02/11 职场文书

车队安全员岗位职责

2015/02/15 职场文书

小学校长开学致辞

2015/07/29 职场文书

会议室管理制度范本

2015/08/06 职场文书

决心书格式及范文

2019/06/24 职场文书

分享几种python 变量合并方法

2022/03/20 Python