Python标准库之collections包的使用教程


Posted in Python onApril 27, 2017

前言

Python为我们提供了4种基本的数据结构:list, tuple, dict, set,但是在处理数据量较大的情形的时候,这4种数据结构就明显过于单一了,比如list作为数组在某些情形插入的效率会比较低,有时候我们也需要维护一个有序的dict。所以这个时候我们就要用到Python标准库为我们提供的collections包了,它提供了多个有用的集合类,熟练掌握这些集合类,不仅可以让我们让写出的代码更加Pythonic,也可以提高我们程序的运行效率。

defaultdict

defaultdict(default_factory)在普通的dict之上添加了default_factory,使得key不存在时会自动生成相应类型的value,default_factory参数可以指定成list, set, int等各种合法类型。

我们现在有下面这样一组list,虽然我们有5组数据,但是仔细观察后发现其实我们只有3种color,但是每一种color对应多个值。现在我们想要将这个list转换成一个dict,这个dict的key对应一种color,dict的value设置为一个list存放color对应的多个值。我们可以使用defaultdict(list)来解决这个问题。

>>> from collections import defaultdict
>>> s = [('yellow', 1), ('blue', 2), ('yellow', 3), ('blue', 4), ('red', 1)]
>>> d = defaultdict(list)
>>> for k, v in s:
...  d[k].append(v)
...
>>> sorted(d.items())
[('blue', [2, 4]), ('red', [1]), ('yellow', [1, 3])]

以上等价于:

>>> d = {}
>>> for k, v in s:
...  d.setdefault(k, []).append(v)
...
>>> sorted(d.items())
[('blue', [2, 4]), ('red', [1]), ('yellow', [1, 3])]

如果我们不希望含有重复的元素,可以考虑使用defaultdict(set) 。set相比list的不同之处在于set中不允许存在相同的元素。

>>> from collections import defaultdict
>>> s = [('red', 1), ('blue', 2), ('red', 3), ('blue', 4), ('red', 1), ('blue', 4)]
>>> d = defaultdict(set)
>>> for k, v in s:
...  d[k].add(v)
...
>>> sorted(d.items())
[('blue', {2, 4}), ('red', {1, 3})]

OrderedDict

Python3.6之前的dict是无序的,但是在某些情形我们需要保持dict的有序性,这个时候可以使用OrderedDict,它是dict的一个subclass,但是在dict的基础上保持了dict的有序型,下面我们来看一下使用方法。

>>> # regular unsorted dictionary
>>> d = {'banana': 3, 'apple': 4, 'pear': 1, 'orange': 2}
>>> # dictionary sorted by key
>>> OrderedDict(sorted(d.items(), key=lambda t: t[0]))
OrderedDict([('apple', 4), ('banana', 3), ('orange', 2), ('pear', 1)])
>>> # dictionary sorted by value
>>> OrderedDict(sorted(d.items(), key=lambda t: t[1]))
OrderedDict([('pear', 1), ('orange', 2), ('banana', 3), ('apple', 4)])
>>> # dictionary sorted by length of the key string
>>> OrderedDict(sorted(d.items(), key=lambda t: len(t[0])))
OrderedDict([('pear', 1), ('apple', 4), ('orange', 2), ('banana', 3)])

使用popitem(last=True)方法可以让我们按照LIFO(先进后出)的顺序删除dict中的key-value,即删除最后一个插入的键值对,如果last=False就按照FIFO(先进先出)删除dict中key-value。

>>> d = {'banana': 3, 'apple': 4, 'pear': 1, 'orange': 2}
>>> # dictionary sorted by key
>>> d = OrderedDict(sorted(d.items(), key=lambda t: t[0]))
>>> d
OrderedDict([('apple', 4), ('banana', 3), ('orange', 2), ('pear', 1)])
>>> d.popitem()
('pear', 1)
>>> d.popitem(last=False)
('apple', 4)

使用move_to_end(key, last=True)来改变有序的OrderedDict对象的key-value顺序,通过这个方法我们可以将排序好的OrderedDict对象中的任意一个key-value插入到字典的开头或者结尾。

>>> d = OrderedDict.fromkeys('abcde')
>>> d
OrderedDict([('a', None), ('b', None), ('c', None), ('d', None), ('e', None)])
>>> d.move_to_end('b')
>>> d
OrderedDict([('a', None), ('c', None), ('d', None), ('e', None), ('b', None)])
>>> ''.join(d.keys())
'acdeb'
>>> d.move_to_end('b', last=False)
>>> ''.join(d.keys())
'bacde'

deque

list存储数据的优势在于按索引查找元素会很快,但是插入和删除元素就很慢了,因为list是基于数组实现的。deque是为了高效实现插入和删除操作的双向列表,适合用于队列和栈,而且线程安全。

list只提供了append和pop方法来从list的尾部插入/删除元素,deque新增了appendleft/popleft等方法允许我们高效的在元素的开头来插入/删除元素。而且使用deque在队列两端append或pop元素的算法复杂度大约是O(1),但是对于list对象改变列表长度和数据位置的操作例如 pop(0)insert(0, v)操作的复杂度高达O(n)。

>>> from collections import deque
>>> dq = deque(range(10), maxlen=10)
>>> dq
deque([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10)
>>> dq.rotate(3)
>>> dq
deque([7, 8, 9, 0, 1, 2, 3, 4, 5, 6], maxlen=10)
>>> dq.rotate(-4)
>>> dq
deque([1, 2, 3, 4, 5, 6, 7, 8, 9, 0], maxlen=10)
>>> dq.appendleft(-1)
>>> dq
deque([-1, 1, 2, 3, 4, 5, 6, 7, 8, 9], maxlen=10)
>>> dq.extend([11, 22, 33])
>>> dq
deque([3, 4, 5, 6, 7, 8, 9, 11, 22, 33], maxlen=10)
>>> dq.extendleft([10, 20, 30, 40])
>>> dq
deque([40, 30, 20, 10, 3, 4, 5, 6, 7, 8], maxlen=10)

Counter

Count用来统计相关元素的出现次数。

>>> from collections import Counter
>>> ct = Counter('abracadabra')
>>> ct
Counter({'a': 5, 'r': 2, 'b': 2, 'd': 1, 'c': 1})
>>> ct.update('aaaaazzz')
>>> ct
Counter({'a': 10, 'z': 3, 'r': 2, 'b': 2, 'd': 1, 'c': 1})
>>> ct.most_common(2)
[('a', 10), ('z', 3)]
>>> ct.elements()
<itertools.chain object at 0x7fbaad4b44e0>

namedtuple

使用namedtuple(typename, field_names)命名tuple中的元素来使程序更具可读性。

>>> from collections import namedtuple
>>> City = namedtuple('City', 'name country population coordinates')
>>> tokyo = City('Tokyo', 'JP', 36.933, (35.689722, 139.691667))
>>> tokyo
City(name='Tokyo', country='JP', population=36.933, coordinates=(35.689722, 139.691667))
>>> tokyo.population
36.933
>>> tokyo.coordinates
(35.689722, 139.691667)
>>> tokyo[1]
'JP'
>>> City._fields
('name', 'country', 'population', 'coordinates')
>>> LatLong = namedtuple('LatLong', 'lat long')
>>> delhi_data = ('Delhi NCR', 'IN', 21.935, LatLong(28.613889, 77.208889))
>>> delhi = City._make(delhi_data)
>>> delhi._asdict()
OrderedDict([('name', 'Delhi NCR'), ('country', 'IN'), ('population', 21.935),
   ('coordinates', LatLong(lat=28.613889, long=77.208889))])
>>> for key, value in delhi._asdict().items():
  print(key + ':', value)
name: Delhi NCR
country: IN
population: 21.935
coordinates: LatLong(lat=28.613889, long=77.208889)

ChainMap

ChainMap可以用来合并多个字典。

>>> from collections import ChainMap
>>> d = ChainMap({'zebra': 'black'}, {'elephant': 'blue'}, {'lion': 'yellow'})
>>> d['lion'] = 'orange'
>>> d['snake'] = 'red'
>>> d
ChainMap({'lion': 'orange', 'zebra': 'black', 'snake': 'red'},
   {'elephant': 'blue'}, {'lion': 'yellow'})
>>> del d['lion']
>>> del d['elephant']
Traceback (most recent call last):
 File "/usr/lib/python3.5/collections/__init__.py", line 929, in __delitem__
 del self.maps[0][key]
KeyError: 'elephant'
During handling of the above exception, another exception occurred:
Traceback (most recent call last):
 File "<stdin>", line 1, in <module>
 File "/usr/lib/python3.5/collections/__init__.py", line 931, in __delitem__
 raise KeyError('Key not found in the first mapping: {!r}'.format(key))
KeyError: "Key not found in the first mapping: 'elephant'"

从上面del['elephant']的报错信息可以看出来,对于改变键值的操作ChainMap只会在第一个字典self.maps[0][key]进行查找,新增加的键值对也都会加入第一个字典,我们来改进一下ChainMap解决这个问题:

class DeepChainMap(ChainMap):
 'Variant of ChainMap that allows direct updates to inner scopes'
 def __setitem__(self, key, value):
  for mapping in self.maps:
   if key in mapping:
    mapping[key] = value
    return
  self.maps[0][key] = value
 def __delitem__(self, key):
  for mapping in self.maps:
   if key in mapping:
    del mapping[key]
    return
  raise KeyError(key)
>>> d = DeepChainMap({'zebra': 'black'}, {'elephant': 'blue'}, {'lion': 'yellow'})
>>> d['lion'] = 'orange'   # update an existing key two levels down
>>> d['snake'] = 'red'   # new keys get added to the topmost dict
>>> del d['elephant']   # remove an existing key one level down
DeepChainMap({'zebra': 'black', 'snake': 'red'}, {}, {'lion': 'orange'})

可以使用new_child来deepcopy一个ChainMap:

>>> from collections import ChainMap
>>> a = {'a': 'A', 'c': 'C'}
>>> b = {'b': 'B', 'c': 'D'}
>>> m = ChainMap({'a': 'A', 'c': 'C'}, {'b': 'B', 'c': 'D'})
>>> m
ChainMap({'a': 'A', 'c': 'C'}, {'b': 'B', 'c': 'D'})
>>> m['c']
'C'
>>> m.maps
[{'c': 'C', 'a': 'A'}, {'c': 'D', 'b': 'B'}]
>>> a['c'] = 'E'
>>> m['c']
'E'
>>> m
ChainMap({'c': 'E', 'a': 'A'}, {'c': 'D', 'b': 'B'})
>>> m2 = m.new_child()
>>> m2['c'] = 'f'
>>> m2
ChainMap({'c': 'f'}, {'c': 'E', 'a': 'A'}, {'c': 'D', 'b': 'B'})
>>> m
ChainMap({'c': 'E', 'a': 'A'}, {'c': 'D', 'b': 'B'})
>>> m2.parents
ChainMap({'c': 'E', 'a': 'A'}, {'c': 'D', 'b': 'B'})

UserDict

下面我们来改进一下字典,查询字典的时候将key转换为str的形式:

class StrKeyDict0(dict):
 def __missing__(self, key):
  if isinstance(key, str):
   raise KeyError(key)
  return self[str(key)]
 def get(self, key, default=None):
  try:
   return self[key]
  except KeyError:
   return default
 def __contains__(self, key):
  return key in self.keys() or str(key) in self.keys()

解释一下上面这段程序:

  • 在__missing__中isinstance(key, str)是必须要的,请思考一下为什么? 因为假设一个key不存在的话,这会造成infinite recursion,self[str(key)]会再次调用__getitem__。
  • __contains__也是必须实现的,因为k in d的时候会进行调用,但是注意即使查找失败它也不会调用__missing__。关于__contains__还有一个细节就是:我们并没有使用k in my_dict,因为str(key) in self的形式,因为这会造成递归调用__contains__。

这里还强调一点,在Python2.x中dict.keys()会返回一个list,这意味着k in my_list必须遍历list。在Python3.x中针对dict.keys()做了优化,性能更高,它会返回一个view如同set一样,详情参考官方文档。

上面这个例子可以用UserDict改写,并且将所有的key都以str的形式存储,而且这种写法更加常用简洁:

import collections
class StrKeyDict(collections.UserDict):
 def __missing__(self, key):
  if isinstance(key, str):
   raise KeyError(key)
  return self[str(key)]
 def __contains__(self, key):
  return str(key) in self.data
 def __setitem__(self, key, item):
  self.data[str(key)] = item

UserDict是MutableMapping和Mapping的子类,它继承了MutableMapping.update和Mapping.get两个重要的方法,所以上面我们并没有重写get方法,可以在源码中看到它的实现和我们上面的实现是差不多的。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对三水点靠木的支持。

Python 相关文章推荐
python 中文字符串的处理实现代码
Oct 25 Python
Python set集合类型操作总结
Nov 07 Python
Python的净值数据接口调用示例分享
Mar 15 Python
HTML中使用python屏蔽一些基本功能的方法
Jul 07 Python
单利模式及python实现方式详解
Mar 20 Python
如何爬取通过ajax加载数据的网站
Aug 15 Python
pytorch 获取层权重,对特定层注入hook, 提取中间层输出的方法
Aug 17 Python
pandas将多个dataframe以多个sheet的形式保存到一个excel文件中
Oct 10 Python
Python 基于wxpy库实现微信添加好友功能(简洁)
Nov 29 Python
python3 配置logging日志类的操作
Apr 08 Python
使用OpenCV获取图像某点的颜色值,并设置某点的颜色
Jun 02 Python
用Python爬取某乎手机APP数据
Jun 15 Python
Golang与python线程详解及简单实例
Apr 27 #Python
Mac中升级Python2.7到Python3.5步骤详解
Apr 27 #Python
详解Python 2.6 升级至 Python 2.7 的实践心得
Apr 27 #Python
Python中创建字典的几种方法总结(推荐)
Apr 27 #Python
Python中index()和seek()的用法(详解)
Apr 27 #Python
Python中几种导入模块的方式总结
Apr 27 #Python
Python利用matplotlib生成图片背景及图例透明的效果
Apr 27 #Python
You might like
Yii使用ajax验证显示错误messagebox的解决方法
2014/12/03 PHP
php中的动态调用实例分析
2015/01/07 PHP
php获取一定范围内取N个不重复的随机数
2016/05/28 PHP
php 实现301重定向跳转实例代码
2016/07/18 PHP
PHP调用API接口实现天气查询功能的示例
2017/09/21 PHP
js读取本地excel文档数据的代码
2010/11/11 Javascript
IE6下CSS图片缓存问题解决方法
2010/12/09 Javascript
JS鼠标滑过图片时切换图片实现思路
2013/09/12 Javascript
完美解决jQuery fancybox ie 无法显示关闭按钮的问题
2016/11/29 Javascript
详解jquery easyui之datagrid使用参考
2016/12/05 Javascript
ionic中列表项增加和删除的实现方法
2017/01/22 Javascript
jQuery EasyUI的TreeGrid查询功能实现方法
2017/08/08 jQuery
VUE页面中加载外部HTML的示例代码
2017/09/20 Javascript
原生JS实现 MUI导航栏透明渐变效果
2017/11/07 Javascript
JS添加或删除HTML dom元素的方法实例分析
2019/03/05 Javascript
LayUi使用switch开关,动态的去控制它是否被启用的方法
2019/09/21 Javascript
[02:37]TI8勇士令状不朽珍藏II视频展示
2018/06/23 DOTA
pydev使用wxpython找不到路径的解决方法
2013/02/10 Python
列举Python中吸引人的一些特性
2015/04/09 Python
python之PyMongo使用总结
2017/05/26 Python
numpy实现合并多维矩阵、list的扩展方法
2018/05/08 Python
python检测主机的连通性并记录到文件的实例
2018/06/21 Python
用python写PDF转换器的实现
2020/10/29 Python
python基于win32api实现键盘输入
2020/12/09 Python
利用promise及参数解构封装ajax请求的方法
2021/03/24 Javascript
应届生找工作求职信
2014/06/24 职场文书
大学生找工作求职信
2014/07/09 职场文书
干部作风整顿个人剖析材料
2014/10/06 职场文书
学生违反校规检讨书
2014/10/28 职场文书
小升初自荐信怎么写
2015/03/26 职场文书
离婚被告答辩状
2015/05/22 职场文书
采购员工作总结范文
2015/08/12 职场文书
《牧场之国》教学反思
2016/02/22 职场文书
Java面试题冲刺第十五天--设计模式
2021/08/07 面试题
Python 数据结构之十大经典排序算法一文通关
2021/10/16 Python
腾讯云服务器部署前后分离项目之前端部署
2022/06/28 Servers