在Python中使用itertools模块中的组合函数的教程


Posted in Python onApril 13, 2015

理解新概念

Python V2.2 中引入了迭代器的思想。唔,这并不十分正确;这种思想的“苗头”早已出现在较老的函数 xrange() 以及文件方法 .xreadlines() 中了。通过引入 yield 关键字,Python 2.2 在内部实现的许多方面推广了这一概念,并使编程定制迭代器变得更为简单( yield 的出现使函数转换成生成器,而生成器反过来又返回迭代器)。

迭代器背后的动机有两方面。将数据作为序列处理通常是最简单的方法,而以线性顺序处理的序列通常并不需要都同时实际 存在。

x*() 前兆提供了这些原理的清晰示例。如果您想对某操作执行成千上万次,那么执行您的程序可能要花些时间,但该程序一般不需要占用大量内存。同样,对于许多类型的文件,可以一行一行地处理,且不需要将整个文件存储在内存中。最好对其它所有种类的序列也进行惰性处理;它们可能依赖于通过通道逐步到达的数据,或者依赖于一步一步执行的计算。

大多数时候,迭代器用在 for 循环内,就象真正的序列那样。迭代器提供了 .next() 方法,它可以被显式调用,但有百分之九十九的可能,您所看到的是以下行:

for x in iterator:
  do_something_with(x)

在对 iterator.next() 进行幕后调用而产生 StopIteration 异常时,该循环就被终止。顺便说一下,通过调用 iter(seq) ,实际序列可以被转换成迭代器 - 这不会节省任何内存,但是在下面讨论的函数中它会很有用。

Python 不断发展的分裂性格

Python 对函数编程(FP)的观点有点相互矛盾。一方面,许多 Python 开发人员轻视传统的 FP 函数 map() 、 filter() 和 reduce() ,常常建议使用“列表理解”来代替它们。但完整的 itertools 模块恰恰是由与这些函数类型完全相同的函数组成的,只不过这些函数对“惰性序列”(迭代器)操作,而不是对完整的序列(列表,元组)操作。而且,Python 2.3 中没有任何“迭代器理解”的语法,这似乎与列表理解拥有一样的动机。

我猜想 Python 最终会产生某种形式的迭代器理解,但这取决于找到合适于它们的自然语法。同时,在 itertools 模块中,我们拥有大量有用的组合函数。大致地,这些函数中的每一个都接受一些参数(通常包含一些基础迭代器)并返回一个新迭代器。例如,函数 ifilter() 、 imap() 和 izip() 都分别直接等同于缺少词首 i 的内置函数。

缺少的等价函数

itertools 中没有 ireduce() ,尽管按道理很自然地应该有这个函数;可能的 Python 实现是:
清单 1. ireduce() 的样本实现

def ireduce(func, iterable, init=None):
  if init is None:
    iterable = iter(iterable)
    curr = iterable.next()
  else:
    curr = init
  for x in iterable:
    curr = func(curr, x)
    yield curr

ireduce() 的用例类似于 reduce() 的用例。例如,假设您想要添加某个大型文件所包含的一列数字,但是当满足一个条件时就停止。您可以使用以下代码来监控正在计算的合计数:
清单 2. 添加并合计一列数

from operator import add
from itertools import *
nums = open('numbers')
for tot in takewhile(condition, ireduce(add, imap(int, nums)):
  print "total =", tot

一个更实际的示例可能类似于将事件流应用于有状态对象上,例如应用到 GUI 窗口小部件上。但是即使是上述简单示例也显示了迭代器组合器的 FP 风格。

基本迭代器工厂

itertools 中的所有函数都可以用纯 Python 轻松地实现为生成器。在 Python 2.3+ 中包含该模块的要点是为一些有用的函数提供标准行为和名称。尽管程序员可以编写他们自己的版本,但是每个人实际创建的变体都会有点不兼容。但是,另一方面是要以高效率的 C 代码实现迭代器组合器。使用 itertools 函数将比编写您自己的组合器稍微快一些。标准文档显示了每个 itertools 函数的等价纯 Python 实现,所以不需要在本文中重复这些内容了。

itertools 中的函数再基本不过了 - 而且命名也完全不同 - 这样从该模块导入所有名称可能就有意义了。例如,函数 enumerate() 可能明显地出现在 itertools 中,但是它在 Python 2.3+ 中却是一个内置函数。值得注意的是,您可以用 itertools 函数很方便地表达 enumerate() :

from itertools import *
enumerate = lambda iterable: izip(count(), iterable)

让我们首先看一下几个 itertools 函数,它们 没有将其它迭代器作为基础,而完全是“从头”创建迭代器。 times() 返回一个多次产生同一对象的迭代器;在本质上,这一能力比较有用,但它确实可以很好地替代使用过多的 xrange() 和索引变量,从而可以简单地重复一个操作。即,不必使用:

for i in xrange(1000):
  do_something()

您现在就可以使用更中性的:

for _ in times(1000):
  do_something()

如果 times() 只有一个参数,那么它只会重复产生 None 。函数 repeat() 类似于 times() ,但它无界地返回同一对象。不管是在包含独立 break 条件的循环中还是在象 izip() 和 imap() 这样的组合器中,这个迭代器都很有用。

函数 count() 有点类似于 repeat() 和 xrange() 的交叉。 count() 无界地返回连续整数(以可选的参数为开始)。但是,如果 count() 当前不支持溢出到现在正确的 longs,那么您可能还是要使用 xrange(n,sys.maxint) ;它并不是完全无界的,但是对于大多数用途,它实际上是一回事。类似于 repeat() , count() 在其它迭代器组合器内部特别有用。

组合函数

我们已经顺便提到了 itertools 中的几个实际组合函数。 ifilter() 、 izip() 和 imap() 的作用就象您会期望从它们相应的序列函数上获得的作用。 ifilterfalse() 很方便,所以您不需要去掉 lambda 和 def 中的谓词函数(而且这还节省了大量的函数调用开销)。但是在功能上,您可以将 ifilterfalse() 定义为(大致的情况,忽略了 None 谓词):

def ifilterfalse(predicate, iterable):
  return ifilter(lambda predicate: not predicate, iterable)

函数 dropwhile() 和函数 takewhile() 根据谓词对迭代器进行划分。 dropwhile() 在直到满足某个谓词 之前忽略所产生的元素, takewhile() 在满足某个谓词 时就终止。 dropwhile() 跳过迭代器的不定数目的初始元素,所以它可能直到某个延迟后才开始迭代。 takewhile() 马上开始迭代,但是如果被传入的谓词变为真,那么就终止迭代器。

函数 islice() 基本上就是列表分片的迭代器版本。您可以指定开始、停止和步长,就象使用常规的片。如果给定了开始,那么会删除大量元素,直到被传递的迭代器到达满足条件的元素为止。这是另一个我认为可以对 Python 进行改进的情形 - 迭代器最好只识别片,就象列表所做的(作为 islice() 行为的同义词)。

最后一个函数 starmap() 在 imap() 基础上略微有些变化。如果这个作为参数传递的函数获取多个参数,那么被传递的 iterable 会产生大小适合的元组。这基本上与包含多个被传入 iterable 的 imap() 相同,只不过它包含先前与 izip() 结合在一起的 iterables 集合。

深入探讨

itertools 中包含的函数是一个很好的开始。不使用其它函数,只用这些函数就可以让 Python 程序员更轻松地利用和组合迭代器。一般说来,迭代器的广泛使用对 Python 的未来无疑是很重要的。但是除了过去所包含的内容以外,我还要对该模块的将来更新提几点建议。您可以立即很方便地使用这些函数 - 当然,如果它们是后来被包含进来的,那么名称或接口细节会有所不同。

一种可能会很通用的类别是一些将多个 iterable 作为参数,随后从每个 iterable 产生单独元素的函数。与此相对照的是, izip() 产生元素元组,而 imap() 产生从基本元素计算而来的值。我头脑中很清晰的两个安排是 chain() 和 weave() 。第一个在效果上类似于序列并置(但是有点惰性)。即,在您可能使用的纯序列中,例如:

for x in ('a','b','c') + (1, 2, 3):
  do_something(x)

对于一般的 iterables,您可以使用:

for x in chain(iter1, iter2, iter3):
  do_something(x)

Python 实现是:
清单 3. chain() 的样本实现

def chain(*iterables):
  for iterable in iterables:
    for item in iterable:
      yield item

使用 iterables,您还可以通过使它们分散排列来组合几个序列。还没有任何对序列执行这样相同操作的内置语法,但是 weave() 本身也非常适用于完整的序列。下面是可能的实现(Magnus Lie Hetland 提出了 comp.lang.python 的类似函数):
清单 4. weave() 的样本实现

def weave(*iterables):
  "Intersperse several iterables, until all are exhausted"
  iterables = map(iter, iterables)
  while iterables:
    for i, it in enumerate(iterables):
      try:
        yield it.next()
      except StopIteration:
        del iterables[i]

让我来演示一下 weave() 的行为,因为从实现上看不是很明显:

>>> for x in weave('abc', xrange(4), [10,11,12,13,14]):
...  print x,
...
a 0 10 b 1 11 c 2 12 13 3 14

即使一些迭代器到达终点,但其余迭代器会继续产生值,直到在某一时刻产生了所有可用的值为止。

我将另外只提出一个可行的 itertools 函数。提出这个函数主要是受到了构思问题的函数编程方法的启发。 icompose() 与上面提出的函数 ireduce() 存在某种对称。但是在 ireduce() 将值的(惰性)序列传递给某个函数并产生每个结果的地方, icompose() 将函数序列应用于每个前趋函数的返回值。可以把 ireduce() 用于将事件序列传递给长期活动的对象。而 icompose() 可能将对象重复地传递给返回新对象的赋值函数。第一种方法是相当传统的考虑事件的 OOP 方法,而第二种的思路更接近于 FP。

以下是可能的 icompose() 实现:
清单 5. icompose() 的样本实现

def icompose(functions, initval):
  currval = initval
  for f in functions:
    currval = f(currval)
    yield currval

结束语

迭代器 - 被认为是惰性序列 - 是功能强大的概念,它开启了 Python 编程的新样式。但是在只把迭代器当作数据源与把它作为一种序列来考虑之间存在着微妙的差别。这两种想法本质上哪一种都不见得比另一种更正确,但是后者开创了操作编程事件的一种组合性的简略表达方法。 itertools 中的组合函数(尤其是它可能产生的一些类似于我建议的函数)接近于编程的声明样式。对我而言,这些声明样式一般都更不易出错且更强大。

Python 相关文章推荐
Python isinstance判断对象类型
Sep 06 Python
Python处理RSS、ATOM模块FEEDPARSER介绍
Feb 18 Python
多版本Python共存的配置方法
May 22 Python
Python中偏函数用法示例
Jun 07 Python
深入浅析Python获取对象信息的函数type()、isinstance()、dir()
Sep 17 Python
python实现海螺图片的方法示例
May 12 Python
Python-Tkinter Text输入内容在界面显示的实例
Jul 12 Python
基于python的itchat库实现微信聊天机器人(推荐)
Oct 29 Python
python3注册全局热键的实现
Mar 22 Python
使用matlab 判断两个矩阵是否相等的实例
May 11 Python
python 模拟登陆github的示例
Dec 04 Python
python绘制箱型图
Apr 27 Python
Python中用Spark模块的使用教程
Apr 13 #Python
简单理解Python中基于生成器的状态机
Apr 13 #Python
Python中的高级函数map/reduce使用实例
Apr 13 #Python
Python遍历目录的4种方法实例介绍
Apr 13 #Python
用Python生成器实现微线程编程的教程
Apr 13 #Python
Python字符串处理函数简明总结
Apr 13 #Python
Python日志模块logging简介
Apr 13 #Python
You might like
PHP语言中global和$GLOBALS[]的分析 之二
2012/02/02 PHP
测试PHP连接MYSQL成功与否的代码
2013/08/16 PHP
php简单判断两个字符串是否相等的方法
2015/07/13 PHP
thinkphp Apache配置重启Apache1 restart 出错解决办法
2017/02/15 PHP
Laravel中批量赋值Mass-Assignment的真正含义详解
2017/09/29 PHP
IE6不能修改NAME问题的解决方法
2010/09/03 Javascript
jquery div 居中技巧应用介绍
2012/11/24 Javascript
jquery 操作iframe的几种方法总结
2013/12/13 Javascript
JavaScript实现计算字符串中出现次数最多的字符和出现的次数
2015/03/12 Javascript
兼容各大浏览器的JavaScript阻止事件冒泡代码
2015/07/09 Javascript
jQuery+json实现动态创建复杂表格table的方法
2016/10/25 Javascript
详解node HTTP请求客户端 - Request
2017/05/05 Javascript
NodeJS如何实现同步的方法示例
2018/08/24 NodeJs
解决vue 项目引入字体图标报错、不显示等问题
2018/09/01 Javascript
vue+导航锚点联动-滚动监听和点击平滑滚动跳转实例
2019/11/13 Javascript
利用Python实现颜色色值转换的小工具
2016/10/27 Python
深入理解Python中的内置常量
2017/05/20 Python
Python 实现删除某路径下文件及文件夹的实例讲解
2018/04/24 Python
彻彻底底地理解Python中的编码问题
2018/10/15 Python
Python hashlib常见摘要算法详解
2020/01/13 Python
django实现日志按日期分割
2020/05/21 Python
html5 canvas 画图教程案例分析
2012/11/23 HTML / CSS
全球摩托车装备领导者:RevZilla
2017/09/04 全球购物
韩国演唱会订票网站:StubHub韩国
2019/01/17 全球购物
AutoShack.com加拿大:北美主要的汽车零部件零售商
2019/07/24 全球购物
美国专业消费电子及摄影器材网站:B&H Photo Video
2019/12/18 全球购物
Fnac西班牙官网:法国文化和电子产品零售商
2021/03/14 全球购物
学校通报表扬范文
2015/05/04 职场文书
承诺书的内容有哪些,怎么写?
2019/06/21 职场文书
python实现简单反弹球游戏
2021/04/12 Python
mysql5.7使用binlog 恢复数据的方法
2021/06/03 MySQL
OpenCV-Python实现人脸美白算法的实例
2021/06/11 Python
python脚本框架webpy的url映射详解
2021/11/20 Python
Django + Taro 前后端分离项目实现企业微信登录功能
2022/04/07 Python
IDEA 2022 Translation 未知错误 翻译文档失败
2022/04/24 Java/Android
Elasticsearch6.2服务器升配后的bug(避坑指南)
2022/09/23 Servers