编程 Python

Python文本处理之按行处理大文件的方法

Posted in Python onApril 09, 2018

以行的形式读出一个文件最简单的方式是使用文件对象的readline()、readlines()和xreadlines()方法。

Python2.2+为这种频繁的操作提供了一个简化的语法——让文件对象自身在行上高效迭代（这种迭代是严格的向前的）。

为了读取整个文件，可能要使用read()方法，且使用字符串的split()来将它拆分WEIGHT行或其他块。

下面是一些例子：

>>> for line in open('chap1.txt'): # Python 2.2+
  ...  # process each line in some manner
  ...  pass
  ...
  >>> linelist = open('chap1.txt').readlines()
  >>> print linelist[1849],
  EXERCISE: Working with lines from a large file
  >>> txt = open('chap1.txt').read()
  >>> from os import linesep
  >>> linelist2 = txt.split(linesep)

如果文件不大，读取整个文件内容也没有关系。但如果是大文件，时间和内存就是要重点关注的了。比如，复杂文档或者活动日志文件，通常有上M,甚至很多G的大小。就算这些文件的内容没有超出可用内存的尺寸，读取他们仍然是相当耗时的。

很明显，如果你需要处理文件的每一行，那就必须读取整个文件；如果可以按序列处理，xreadlines方法是一种更节约内存的方法。但是对于那些仅仅需要一个大文件的一部分行的应用，要获得提高其实并不难。对于这一点，模块“linecache”非常合适。

具有缓存功能的行列表

使用linecache可以直接从一个文件中读取指定行：

>>> import linecache
  >>> print linecache.getline('chap1.txt',1850),
  PROBLEM: Working with lines from a large file

记住，linecache.getline()的计数是从1开始的。

如果有一个即具有“linecache”的效率，又有列表的一些功能的对象就好了。这个对象不仅可以枚举和索引，同时还支持切片。

#------------------ cachedlinelist.py --------------------#
  import linecache, types
  class CachedLineList:
   # Note: in Python 2.2+, it is probably worth including:
   # __slots__ = ('_fname')
   # ...and inheriting from 'object'
   def __init__(self, fname):
    self._fname = fname
   def __getitem__(self, x):
    if type(x) is types.SliceType:
     return [linecache.getline(self._fname, n+1)
       for n in range(x.start, x.stop, x.step)]
    else:
     return linecache.getline(self._fname, x+1)
   def __getslice__(self, beg, end):
    # pass to __getitem__ which does extended slices also
    return self[beg:end:1]

使用这个新对象几乎和使用一个由“open(fname).readlines()”创建的列表一样。除了它的效率要更高之外（特别是在内存使用方面）：

>>> from cachedlinelist import CachedLineList
  >>> cll = CachedLineList('../chap1.txt')
  >>> cll[1849]
  ' PROBLEM: Working with lines from a large file\r\n'
  >>> for line in cll[1849:1851]: print line,
  ...
  PROBLEM: Working with lines from a large file
  ----------------------------------------------------------
  >>> for line in cll[1853:1857:2]: print line,
  ...
  a matter of using the '.readline()', '.readlines()' and
  simplified syntax for this frequent operation by letting the

随机行

有时候，特别是为了测试，可能需要检查某些典型的行。人们很容易就误认为一个对文本的前面几行和后面几行有效的处理就能适用任何其他地方。很不幸，很多文件的前几行和最后几行通常都是非典型的：有时候是消息头或注脚，有时候可能是开发时的日志文件的前几行等等。穷举测试整个文件并不是你想要的，通常这样也非常的耗时。

在大多数系统上，查找一个文件中的特定位置要比读出该位置前的所有内容直到到达该位置快的多。

就算使用linecache,要到达缓存行，你也需要一个字节一个字节的读取前面的内容。从一个大文件中找随机行的最快的方式是，先找到一个随机位置，然后读取该位置相对前后的少数字节。

#-------------------- randline.py ------------------------#
  #!/usr/bin/python
  """Iterate over random lines in a file (req Python 2.2+)
  From command-line use: % randline.py <fname> <numlines>
  """
  import sys
  from os import stat, linesep
  from stat import ST_SIZE
  from random import randrange
  MAX_LINE_LEN = 4096
  #-- Iterable class
  class randline(object):
   __slots__ = ('_fp','_size','_limit')
   def __init__(self, fname, limit=sys.maxint):
    self._size = stat(fname)[ST_SIZE]
    self._fp = open(fname,'rb')
    self._limit = limit
   def __iter__(self):
    return self
   def next(self):
    if self._limit <= 0:
     raise StopIteration
    self._limit -= 1
    pos = randrange(self._size)
    priorlen = min(pos, MAX_LINE_LEN) # maybe near start
    self._fp.seek(pos-priorlen)
    # Add extra linesep at beg/end in case pos at beg/end
    prior = linesep + self._fp.read(priorlen)
    post = self._fp.read(MAX_LINE_LEN) + linesep
    begln = prior.rfind(linesep) + len(linesep)
    endln = post.find(linesep)
    return prior[begln:]+post[:endln]
  #-- Use as command-line tool
  if __name__=='__main__':
   fname, numlines = sys.argv[1], int(sys.argv[2])
   for line in randline(fname, numlines):
    print line

关于上面的实现，需要注意以下细节：

（1）在行迭代中，相同的行可能会被多次选中。当然，如果你只是从大文件中选很少行的话，这种情况通常不会出现。

（2）既然是选中包含随机位置的行，那就意味着更有可能选择长的行（译注：这是为什么？没有明白）。

本文翻译自Text Processing in Python

中“PROBLEM: Working with lines from a large file”

以上这篇Python文本处理之按行处理大文件的方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

Python文本处理之按行处理大文件的方法

- Author -

aturbofly

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

在Python中使用M2Crypto模块实现AES加密的教程

Apr 08 Python

Python排序搜索基本算法之选择排序实例分析

Dec 09 Python

python自动登录12306并自动点击验证码完成登录的实现源代码

Apr 25 Python

对python Tkinter Text的用法详解

Oct 11 Python

python 将list转成字符串,中间用符号分隔的方法

Oct 23 Python

python实现归并排序算法

Nov 22 Python

Python Web框架之Django框架Model基础详解

Aug 16 Python

python画微信表情符的实例代码

Oct 09 Python

基于Django实现日志记录报错信息

Dec 17 Python

Python识别html主要文本框过程解析

Feb 18 Python

关于Python字符串显示u...的解决方式

Mar 06 Python

python分布式爬虫中消息队列知识点详解

Nov 26 Python

Python网络编程使用select实现socket全双工异步通信功能示例

Apr 09 #Python

Python网络编程之TCP套接字简单用法示例

Apr 09 #Python

python3 读写文件换行符的方法

Apr 09 #Python

Python基于TCP实现会聊天的小机器人功能示例

Apr 09 #Python

Python生成任意范围任意精度的随机数方法

Apr 09 #Python

python网络爬虫学习笔记（1）

Apr 09 #Python

Python中defaultdict与lambda表达式用法实例小结

Apr 09 #Python

You might like

PHP递归算法的详细示例分析

2013/02/19 PHP

php遍历所有文件及文件夹的方法深入解析

2013/06/08 PHP

php模拟post上传图片实现代码

2016/06/24 PHP

对于Laravel 5.5核心架构的深入理解

2018/02/22 PHP

jQuery 扩展对input的一些操作方法

2009/10/30 Javascript

Jquery替换已存在于element上的event的方法

2010/03/09 Javascript

网页编辑器ckeditor和ckfinder配置步骤分享

2012/05/24 Javascript

JS短路原理的应用示例精简代码的途径

2013/12/13 Javascript

javascript 中that的含义示例介绍

2014/05/14 Javascript

浅析Node.js 中 Stream API 的使用

2015/10/23 Javascript

快速学习jQuery插件 Cookie插件使用方法

2015/12/01 Javascript

jQuery使用正则表达式替换dom元素标签用法示例

2017/01/16 Javascript

Javascript之深入浅出prototype

2017/02/06 Javascript

一个简易的js图片轮播效果

2017/07/22 Javascript

JavaScript多线程运行库Nexus.js详解

2017/12/22 Javascript

vue router 源码概览案例分析

2018/10/09 Javascript

vue项目刷新当前页面的三种方法

2018/12/04 Javascript

[02:49]2014DOTA2电竞也是体育项目！势要把荣誉带回中国！

2014/07/20 DOTA

[04:40]DOTA2-DPC中国联赛1月26日Recap集锦

2021/03/11 DOTA

解决windows下Sublime Text 2 运行 PyQt 不显示的方法分享

2014/06/18 Python

Python实现windows下模拟按键和鼠标点击的方法

2015/03/13 Python

Python单元测试unittest的具体使用示例

2018/12/17 Python

python生成每日报表数据(Excel)并邮件发送的实例

2019/02/03 Python

python中比较两个列表的实例方法

2019/07/04 Python

Python importlib模块重载使用方法详解

2020/10/13 Python

实体的生命周期

2013/08/31 面试题

实习生个人的自我评价

2013/12/08 职场文书

幼儿园教师国培感言

2014/02/02 职场文书

大学生精神文明先进个人事迹材料

2014/05/02 职场文书

北京申奥口号

2014/06/19 职场文书

纪念九一八爱国演讲稿600字

2014/09/14 职场文书

2014年语文教师工作总结

2014/12/18 职场文书

工程项目合作意向书

2015/05/08 职场文书

考研经验交流会策划书

2015/11/02 职场文书

jquery插件实现悬浮的菜单

2021/04/24 jQuery

Win11 Beta 22621.601 和 22622.601今日发布 KB5017384修复内容汇总

2022/09/23 数码科技