强悍的Python读取大文件的解决方案


Posted in Python onFebruary 16, 2019

Python 环境下文件的读取问题,请参见拙文 Python基础之文件读取的讲解

这是一道著名的 Python 面试题,考察的问题是,Python 读取大文件和一般规模的文件时的区别,也即哪些接口不适合读取大文件。

1. read() 接口的问题

f = open(filename, 'rb')
f.read()

我们来读取 1 个 nginx 的日至文件,规模为 3Gb 大小。read() 方法执行的操作,是一次性全部读入内存,显然会造成:

MemoryError
...

也即会发生内存溢出。

2. 解决方案:转换接口

  • (1)readlines() :读取全部的行,构成一个 list,实践表明还是会造成内存的问题;
for line in f.reanlines():
  ...
  • (2)readline():每次读取一行,
while True:
  line = f.readline()
  if not line:
    break
  • (3)read(1024):重载,指定每次读取的长度
while True:
  block = f.read(1024)
  if not block:
    break

3. 真正 Pythonic 的方法

真正 Pythonci 的方法,使用 with 结构:

with open(filename, 'rb') as f:
  for line in f:
    <do something with the line>

对可迭代对象 f,进行迭代遍历:for line in f,会自动地使用缓冲IO(buffered IO)以及内存管理,而不必担心任何大文件的问题。

There should be one ? and preferably only one ? obvious way to do it.

Reference

How to read large file, line by line in python

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
Python continue语句用法实例
Mar 11 Python
python中global与nonlocal比较
Nov 21 Python
对于Python异常处理慎用“except:pass”建议
Apr 02 Python
python 数据清洗之数据合并、转换、过滤、排序
Feb 12 Python
python中scikit-learn机器代码实例
Aug 05 Python
python获取中文字符串长度的方法
Nov 14 Python
记一次python 内存泄漏问题及解决过程
Nov 29 Python
Python从函数参数类型引出元组实例分析
May 28 Python
python输出pdf文档的实例
Feb 13 Python
pytorch:model.train和model.eval用法及区别详解
Feb 20 Python
Python实现曲线拟合的最小二乘法
Feb 19 Python
Github 使用python对copilot做些简单使用测试
Apr 14 Python
Python基础之文件读取的讲解
Feb 16 #Python
解决Python3 被PHP程序调用执行返回乱码的问题
Feb 16 #Python
Python3 修改默认环境的方法
Feb 16 #Python
Python3 pip3 list 出现 DEPRECATION 警告的解决方法
Feb 16 #Python
对Python3 解析html的几种操作方式小结
Feb 16 #Python
Python实现爬取马云的微博功能示例
Feb 16 #Python
对Python3 * 和 ** 运算符详解
Feb 16 #Python
You might like
php下获取客户端ip地址的函数
2010/03/15 PHP
PHP设计模式之迭代器模式
2016/06/17 PHP
兼容ie和firefox js关闭代码
2008/12/11 Javascript
[Web]防止用户复制页面内容和另存页面的方法
2009/02/06 Javascript
javascript 获取图片颜色
2009/04/05 Javascript
Jquery+ajax请求data显示在GridView上(asp.net)
2010/08/27 Javascript
改善用户体验的五款jQuery插件分享
2011/05/22 Javascript
jQuery lazyLoad图片延迟加载插件的优化改造方法分享
2013/08/13 Javascript
js弹出层永远居中实现思路及代码
2013/11/29 Javascript
为jquery的ajaxfileupload增加附加参数的方法
2014/03/04 Javascript
Javascript图片上传前的本地预览实例
2014/06/16 Javascript
Javascript学习笔记之函数篇(四):arguments 对象
2014/11/23 Javascript
推荐一个自己用的封装好的javascript插件
2015/01/29 Javascript
Javascript函数的参数
2015/07/16 Javascript
Bootstrap中的Panel和Table全面解析
2016/06/13 Javascript
html、css和jquery相结合实现简单的进度条效果实例代码
2016/10/24 Javascript
用户管理的设计_jquery的ajax实现二级联动效果
2017/07/13 jQuery
bootstrap3中container与container_fluid外层容器的区别讲解
2017/12/04 Javascript
使用命令行工具npm新创建一个vue项目的方法
2017/12/27 Javascript
微信小程序实现滚动消息通知
2018/02/02 Javascript
如何构建 vue-ssr 项目的方法步骤
2020/08/04 Javascript
[08:40]Navi Vs Newbee
2018/06/07 DOTA
Python中的面向对象编程详解(下)
2015/04/13 Python
Python输出PowerPoint(ppt)文件中全部文字信息的方法
2015/04/28 Python
深入理解python中sort()与sorted()的区别
2018/08/29 Python
python 美化输出信息的实例
2018/10/15 Python
python读取txt文件,去掉空格计算每行长度的方法
2018/12/20 Python
基于python使用tibco ems代码实例
2019/12/20 Python
设计师家具购买和委托在线市场:Viyet
2016/11/16 全球购物
应届行政管理专业个人自我评价
2013/12/28 职场文书
应聘护理专业毕业自荐书范文
2014/02/12 职场文书
房产继承公证书
2014/04/09 职场文书
大学生党校培训心得体会
2014/09/11 职场文书
接收函格式
2015/01/30 职场文书
大国崛起英国观后感
2015/06/02 职场文书
2016新年问候语大全
2015/11/11 职场文书