用Python中的字典来处理索引统计的方法


Posted in Python onMay 05, 2015

最近折腾索引引擎以及数据统计方面的工作比较多, 与 Python 字典频繁打交道, 至此整理一份此方面 API 的用法与坑法备案.

    索引引擎的基本工作原理便是倒排索引, 即将一个文档所包含的文字反过来映射至文档; 这方面算法并没有太多花样可言, 为了增加效率, 索引数据尽可往内存里面搬, 此法可效王献之习书法之势, 只要把十八台机器内存全部塞满, 那么基本也就功成名就了. 而基本思路举个简单例子, 现在有以下文档 (分词已经完成) 以及其包含的关键词

doc_a: [word_w, word_x, word_y]
  doc_b: [word_x, word_z]
  doc_c: [word_y]

将其变换为

word_w -> [doc_a]
  word_x -> [doc_a, doc_b]
  word_y -> [doc_a, doc_c]
  word_z -> [doc_b]

    写成 Python 代码, 便是
 

doc_a = {'id': 'a', 'words': ['word_w', 'word_x', 'word_y']} 
doc_b = {'id': 'b', 'words': ['word_x', 'word_z']} 
doc_c = {'id': 'c', 'words': ['word_y']} 
 
docs = [doc_a, doc_b, doc_c] 
indices = dict() 
 
for doc in docs: 
  for word in doc['words']: 
    if word not in indices: 
      indices[word] = [] 
    indices[word].append(doc['id']) 
 
print indices

    不过这里有个小技巧, 就是对于判断当前词是否已经在索引字典里的分支
 

if word not in indices: 
  indices[word] = []

可以被  dict  的  setdefault(key, default=None)  接口替换. 此接口的作用是, 如果  key  在字典里, 那么好说, 拿出对应的值来; 否则, 新建此  key , 且设置默认对应值为  default . 但从设计上来说, 我不明白为何  default  有个默认值  None , 看起来并无多大意义, 如果确要使用此接口, 大体都会自带默认值吧, 如下
 

for doc in docs: 
  for word in doc['words']: 
    indices. setdefault(word, []) .append(doc['id'])

    这样就省掉分支了, 代码看起来少很多.
    不过在某些情况下,  setdefault  用起来并不顺手: 当  default  值构造很复杂时, 或产生  default  值有副作用时, 以及一个之后会说到的情况; 前两种情况一言以蔽之, 就是  setdefault  不适用于  default  需要惰性求值的场景. 换言之, 为了兼顾这种需求,  setdefault  可能会设计成
 

def setdefault(self, key, default_factory): 
  if key not in self: 
    self[key] = default_factory() 
  return self[key]

倘若真如此, 那么上面的代码应改成
 

for doc in docs: 
  for word in doc['words']: 
    indices.setdefault(word, list ).append(doc['id'])

不过实际上有其它替代方案, 这个最后会提到.

    如果说上面只是一个能预见但实际上可能根本不会遇到的 API 缺陷, 那么下面这个就略打脸了.
    考虑现在要进行词频统计, 即一个词在文章中出现了多少次, 如果直接拿  dict  来写, 大致是
 

def word_count(words): 
  count = dict() 
  for word in words: 
    count.setdefault(word, 0) += 1
  return count 
 
print word_count(['hiiragi', 'kagami', 'hiiragi', 'tukasa', 'yosimizu', 'kagami'])

    当你兴致勃勃地跑起上面代码时, 代码会以迅雷不及掩脸之势把异常甩到你鼻尖上 --- 因为出现在  +=  操作符左边的  count.setdefault(word, 0)  在 Python 中不是一个左值. 怎样, 现在开始念叨 C艹 类型体系的好了吧.

    因为 Python 把默认的字面常量  {}  等价于  dict()  就认为  dict  是银弹的思想是要不得的; Python 里面各种数据结构不少, 解决统计问题, 理想的方案是  collections.defaultdict  这个类. 下面的代码想必看一眼就明白
 

from collections import defaultdict 
 
doc_a = {'id': 'a', 'words': ['word_w', 'word_x', 'word_y']} 
doc_b = {'id': 'b', 'words': ['word_x', 'word_z']} 
doc_c = {'id': 'c', 'words': ['word_y']} 
 
docs = [doc_a, doc_b, doc_c] 
indices = defaultdict(list) 
 
for doc in docs: 
  for word in doc['words']: 
    indices[word].append(doc['id']) 
 
print indices 
 
def word_count(words): 
  count = defaultdict(int) 
  for word in words: 
    count[word] += 1
  return count 
 
print word_count(['hiiragi', 'kagami', 'hiiragi', 'tukasa', 'yosimizu', 'kagami'])

    完满解决了之前遇到的那些破事.

    此外  collections  里还有个  Counter , 可以粗略认为它是  defaultdict(int)  的扩展.

Python 相关文章推荐
Python模块学习 datetime介绍
Aug 27 Python
通过代码实例展示Python中列表生成式的用法
Mar 31 Python
Python字符串格式化%s%d%f详解
Feb 02 Python
python如何为被装饰的函数保留元数据
Mar 21 Python
python实战教程之自动扫雷
Jul 13 Python
python 多线程将大文件分开下载后在合并的实例
Nov 09 Python
pandas删除行删除列增加行增加列的实现
Jul 06 Python
这可能是最好玩的python GUI入门实例(推荐)
Jul 19 Python
pip安装python库的方法总结
Aug 02 Python
python实现大量图片重命名
Mar 23 Python
python字典通过值反查键的实现(简洁写法)
Sep 30 Python
python实现局部图像放大
Nov 17 Python
python递归计算N!的方法
May 05 #Python
浅谈Python中数据解析
May 05 #Python
探究Python多进程编程下线程之间变量的共享问题
May 05 #Python
浅谈Python中的数据类型
May 05 #Python
用Python实现一个简单的能够上传下载的HTTP服务器
May 05 #Python
使用Python程序抓取新浪在国内的所有IP的教程
May 04 #Python
Python版微信红包分配算法
May 04 #Python
You might like
如何将数据从文本导入到mysql
2006/10/09 PHP
PHP中str_split()函数的用法讲解
2019/04/11 PHP
指定js可访问其它域名的cookie的方法
2007/09/18 Javascript
JavaScript和ActionScript的交互实现代码
2010/08/01 Javascript
非阻塞动态加载javascript广告实现代码
2010/11/17 Javascript
基于jQuery倒计时插件实现团购秒杀效果
2016/05/13 Javascript
JavaScript职责链模式概述
2016/09/17 Javascript
理解JavaScript原型链
2016/10/25 Javascript
angularjs实现的前端分页控件示例
2017/02/10 Javascript
jquery拼接ajax 的json和字符串拼接的方法
2017/03/11 Javascript
Map.vue基于百度地图组件重构笔记分享
2017/04/17 Javascript
JS常用的几种数组遍历方式以及性能分析对比实例详解
2018/04/11 Javascript
vue webpack实用技巧总结
2018/04/24 Javascript
element vue Array数组和Map对象的添加与删除操作
2018/11/14 Javascript
浅析JavaScript中的事件委托机制跟深浅拷贝
2021/01/20 Javascript
Bootstrap FileInput实现图片上传功能
2021/01/28 Javascript
python实现模拟按键,自动翻页看u17漫画
2015/03/17 Python
Python实时获取cmd的输出
2015/12/13 Python
基于python实现微信模板消息
2015/12/21 Python
Python 爬虫学习笔记之多线程爬虫
2016/09/21 Python
Python中django学习心得
2017/12/06 Python
python解析html提取数据,并生成word文档实例解析
2018/01/22 Python
python 通过可变参数计算n个数的乘积方法
2019/06/13 Python
python中绕过反爬虫的方法总结
2020/11/25 Python
HTML5中的postMessage API基本使用教程
2016/05/20 HTML / CSS
HTML5和以前HTML4的区别整理
2013/10/20 HTML / CSS
处理textarea中的换行和空格
2019/12/12 HTML / CSS
高性能钓鱼服装:Huk Gear
2019/02/20 全球购物
Java提供了哪些企业应用编程接口
2015/02/13 面试题
工程师岗位职责规定
2014/02/26 职场文书
小学生学习雷锋倡议书
2014/05/15 职场文书
回门宴新娘答谢词
2015/09/29 职场文书
初一英语教学反思
2016/02/15 职场文书
朋友圈早安励志语录!
2019/07/08 职场文书
html5表单的required属性使用
2021/07/07 HTML / CSS
浅谈Redis的keys命令到底有多慢
2021/10/05 Redis