用Python中的字典来处理索引统计的方法


Posted in Python onMay 05, 2015

最近折腾索引引擎以及数据统计方面的工作比较多, 与 Python 字典频繁打交道, 至此整理一份此方面 API 的用法与坑法备案.

    索引引擎的基本工作原理便是倒排索引, 即将一个文档所包含的文字反过来映射至文档; 这方面算法并没有太多花样可言, 为了增加效率, 索引数据尽可往内存里面搬, 此法可效王献之习书法之势, 只要把十八台机器内存全部塞满, 那么基本也就功成名就了. 而基本思路举个简单例子, 现在有以下文档 (分词已经完成) 以及其包含的关键词

doc_a: [word_w, word_x, word_y]
  doc_b: [word_x, word_z]
  doc_c: [word_y]

将其变换为

word_w -> [doc_a]
  word_x -> [doc_a, doc_b]
  word_y -> [doc_a, doc_c]
  word_z -> [doc_b]

    写成 Python 代码, 便是
 

doc_a = {'id': 'a', 'words': ['word_w', 'word_x', 'word_y']} 
doc_b = {'id': 'b', 'words': ['word_x', 'word_z']} 
doc_c = {'id': 'c', 'words': ['word_y']} 
 
docs = [doc_a, doc_b, doc_c] 
indices = dict() 
 
for doc in docs: 
  for word in doc['words']: 
    if word not in indices: 
      indices[word] = [] 
    indices[word].append(doc['id']) 
 
print indices

    不过这里有个小技巧, 就是对于判断当前词是否已经在索引字典里的分支
 

if word not in indices: 
  indices[word] = []

可以被  dict  的  setdefault(key, default=None)  接口替换. 此接口的作用是, 如果  key  在字典里, 那么好说, 拿出对应的值来; 否则, 新建此  key , 且设置默认对应值为  default . 但从设计上来说, 我不明白为何  default  有个默认值  None , 看起来并无多大意义, 如果确要使用此接口, 大体都会自带默认值吧, 如下
 

for doc in docs: 
  for word in doc['words']: 
    indices. setdefault(word, []) .append(doc['id'])

    这样就省掉分支了, 代码看起来少很多.
    不过在某些情况下,  setdefault  用起来并不顺手: 当  default  值构造很复杂时, 或产生  default  值有副作用时, 以及一个之后会说到的情况; 前两种情况一言以蔽之, 就是  setdefault  不适用于  default  需要惰性求值的场景. 换言之, 为了兼顾这种需求,  setdefault  可能会设计成
 

def setdefault(self, key, default_factory): 
  if key not in self: 
    self[key] = default_factory() 
  return self[key]

倘若真如此, 那么上面的代码应改成
 

for doc in docs: 
  for word in doc['words']: 
    indices.setdefault(word, list ).append(doc['id'])

不过实际上有其它替代方案, 这个最后会提到.

    如果说上面只是一个能预见但实际上可能根本不会遇到的 API 缺陷, 那么下面这个就略打脸了.
    考虑现在要进行词频统计, 即一个词在文章中出现了多少次, 如果直接拿  dict  来写, 大致是
 

def word_count(words): 
  count = dict() 
  for word in words: 
    count.setdefault(word, 0) += 1
  return count 
 
print word_count(['hiiragi', 'kagami', 'hiiragi', 'tukasa', 'yosimizu', 'kagami'])

    当你兴致勃勃地跑起上面代码时, 代码会以迅雷不及掩脸之势把异常甩到你鼻尖上 --- 因为出现在  +=  操作符左边的  count.setdefault(word, 0)  在 Python 中不是一个左值. 怎样, 现在开始念叨 C艹 类型体系的好了吧.

    因为 Python 把默认的字面常量  {}  等价于  dict()  就认为  dict  是银弹的思想是要不得的; Python 里面各种数据结构不少, 解决统计问题, 理想的方案是  collections.defaultdict  这个类. 下面的代码想必看一眼就明白
 

from collections import defaultdict 
 
doc_a = {'id': 'a', 'words': ['word_w', 'word_x', 'word_y']} 
doc_b = {'id': 'b', 'words': ['word_x', 'word_z']} 
doc_c = {'id': 'c', 'words': ['word_y']} 
 
docs = [doc_a, doc_b, doc_c] 
indices = defaultdict(list) 
 
for doc in docs: 
  for word in doc['words']: 
    indices[word].append(doc['id']) 
 
print indices 
 
def word_count(words): 
  count = defaultdict(int) 
  for word in words: 
    count[word] += 1
  return count 
 
print word_count(['hiiragi', 'kagami', 'hiiragi', 'tukasa', 'yosimizu', 'kagami'])

    完满解决了之前遇到的那些破事.

    此外  collections  里还有个  Counter , 可以粗略认为它是  defaultdict(int)  的扩展.

Python 相关文章推荐
pycharm 使用心得(七)一些实用功能介绍
Jun 06 Python
详解python 发送邮件实例代码
Dec 22 Python
分享Pycharm中一些不为人知的技巧
Apr 03 Python
pycharm执行python时,填写参数的方法
Oct 29 Python
numpy下的flatten()函数用法详解
May 27 Python
python 的 scapy库,实现网卡收发包的例子
Jul 23 Python
python opencv将图片转为灰度图的方法示例
Jul 31 Python
Python从列表推导到zip()函数的5种技巧总结
Oct 23 Python
简单了解python装饰器原理及使用方法
Dec 18 Python
python 工具 字符串转numpy浮点数组的实现
Mar 14 Python
python和pywin32实现窗口查找、遍历和点击的示例代码
Apr 01 Python
Python web如何在IIS发布应用过程解析
May 27 Python
python递归计算N!的方法
May 05 #Python
浅谈Python中数据解析
May 05 #Python
探究Python多进程编程下线程之间变量的共享问题
May 05 #Python
浅谈Python中的数据类型
May 05 #Python
用Python实现一个简单的能够上传下载的HTTP服务器
May 05 #Python
使用Python程序抓取新浪在国内的所有IP的教程
May 04 #Python
Python版微信红包分配算法
May 04 #Python
You might like
PHP实现图片自动清理的方法
2015/07/08 PHP
PHP随手笔记整理之PHP脚本和JAVA连接mysql数据库
2015/11/25 PHP
PHP中key和current,next的联合运用实例分析
2016/03/29 PHP
PHP完全二叉树定义与实现方法示例
2017/10/09 PHP
php实现将数据做成json的格式给前端使用
2018/08/21 PHP
jquery淡化版banner异步图片文字效果切换图片特效
2014/04/08 Javascript
javascript将浮点数转换成整数的三个方法
2014/06/23 Javascript
JavaScript中实现map功能代码分享
2015/06/11 Javascript
JavaScript清空数组元素的两种方法简单比较
2015/07/10 Javascript
jQuery xml字符串的解析、读取及查找方法
2016/03/01 Javascript
AngularJS模块详解及示例代码
2016/08/17 Javascript
AngularJS验证信息框架的封装插件用法【w5cValidator扩展插件】
2016/11/03 Javascript
如何选择jQuery版本 1.x? 2.x? 3.x?
2017/04/01 jQuery
原生js简单实现放大镜特效
2017/05/16 Javascript
JavaScript数据结构之双向链表和双向循环链表的实现
2017/11/28 Javascript
详解vue移动端日期选择组件
2018/02/22 Javascript
JavaScript 2018 中即将迎来的新功能
2018/09/21 Javascript
vue-i18n实现中英文切换的方法
2020/07/06 Javascript
Python实现基本数据结构中队列的操作方法示例
2017/12/04 Python
matplotlib在python上绘制3D散点图实例详解
2017/12/09 Python
python实现猜数字小游戏
2020/03/24 Python
Windows系统下PhantomJS的安装和基本用法
2018/10/21 Python
python requests 库请求带有文件参数的接口实例
2019/01/03 Python
python中使用you-get库批量在线下载bilibili视频的教程
2020/03/10 Python
python安装dlib库报错问题及解决方法
2020/03/16 Python
Python响应对象text属性乱码解决方案
2020/03/31 Python
解决Jupyter NoteBook输出的图表太小看不清问题
2020/04/16 Python
Canvas在超级玛丽游戏中的应用详解
2021/02/06 HTML / CSS
英国知名的护肤彩妆与时尚配饰大型综合零售电商:Unineed
2016/11/21 全球购物
酒店中秋节活动方案
2014/01/31 职场文书
庆祝新中国成立65周年“向国旗敬礼”网上签名寄语
2014/09/27 职场文书
股东出资证明书范例
2014/10/04 职场文书
2015年个人工作总结报告
2015/04/25 职场文书
标枪加油稿
2015/07/22 职场文书
建立共青团委员会的请示
2019/04/02 职场文书
《我的美好婚事》动画化决定纪念插画与先导PV公开
2022/04/06 日漫