用Python中的字典来处理索引统计的方法


Posted in Python onMay 05, 2015

最近折腾索引引擎以及数据统计方面的工作比较多, 与 Python 字典频繁打交道, 至此整理一份此方面 API 的用法与坑法备案.

    索引引擎的基本工作原理便是倒排索引, 即将一个文档所包含的文字反过来映射至文档; 这方面算法并没有太多花样可言, 为了增加效率, 索引数据尽可往内存里面搬, 此法可效王献之习书法之势, 只要把十八台机器内存全部塞满, 那么基本也就功成名就了. 而基本思路举个简单例子, 现在有以下文档 (分词已经完成) 以及其包含的关键词

doc_a: [word_w, word_x, word_y]
  doc_b: [word_x, word_z]
  doc_c: [word_y]

将其变换为

word_w -> [doc_a]
  word_x -> [doc_a, doc_b]
  word_y -> [doc_a, doc_c]
  word_z -> [doc_b]

    写成 Python 代码, 便是
 

doc_a = {'id': 'a', 'words': ['word_w', 'word_x', 'word_y']} 
doc_b = {'id': 'b', 'words': ['word_x', 'word_z']} 
doc_c = {'id': 'c', 'words': ['word_y']} 
 
docs = [doc_a, doc_b, doc_c] 
indices = dict() 
 
for doc in docs: 
  for word in doc['words']: 
    if word not in indices: 
      indices[word] = [] 
    indices[word].append(doc['id']) 
 
print indices

    不过这里有个小技巧, 就是对于判断当前词是否已经在索引字典里的分支
 

if word not in indices: 
  indices[word] = []

可以被  dict  的  setdefault(key, default=None)  接口替换. 此接口的作用是, 如果  key  在字典里, 那么好说, 拿出对应的值来; 否则, 新建此  key , 且设置默认对应值为  default . 但从设计上来说, 我不明白为何  default  有个默认值  None , 看起来并无多大意义, 如果确要使用此接口, 大体都会自带默认值吧, 如下
 

for doc in docs: 
  for word in doc['words']: 
    indices. setdefault(word, []) .append(doc['id'])

    这样就省掉分支了, 代码看起来少很多.
    不过在某些情况下,  setdefault  用起来并不顺手: 当  default  值构造很复杂时, 或产生  default  值有副作用时, 以及一个之后会说到的情况; 前两种情况一言以蔽之, 就是  setdefault  不适用于  default  需要惰性求值的场景. 换言之, 为了兼顾这种需求,  setdefault  可能会设计成
 

def setdefault(self, key, default_factory): 
  if key not in self: 
    self[key] = default_factory() 
  return self[key]

倘若真如此, 那么上面的代码应改成
 

for doc in docs: 
  for word in doc['words']: 
    indices.setdefault(word, list ).append(doc['id'])

不过实际上有其它替代方案, 这个最后会提到.

    如果说上面只是一个能预见但实际上可能根本不会遇到的 API 缺陷, 那么下面这个就略打脸了.
    考虑现在要进行词频统计, 即一个词在文章中出现了多少次, 如果直接拿  dict  来写, 大致是
 

def word_count(words): 
  count = dict() 
  for word in words: 
    count.setdefault(word, 0) += 1
  return count 
 
print word_count(['hiiragi', 'kagami', 'hiiragi', 'tukasa', 'yosimizu', 'kagami'])

    当你兴致勃勃地跑起上面代码时, 代码会以迅雷不及掩脸之势把异常甩到你鼻尖上 --- 因为出现在  +=  操作符左边的  count.setdefault(word, 0)  在 Python 中不是一个左值. 怎样, 现在开始念叨 C艹 类型体系的好了吧.

    因为 Python 把默认的字面常量  {}  等价于  dict()  就认为  dict  是银弹的思想是要不得的; Python 里面各种数据结构不少, 解决统计问题, 理想的方案是  collections.defaultdict  这个类. 下面的代码想必看一眼就明白
 

from collections import defaultdict 
 
doc_a = {'id': 'a', 'words': ['word_w', 'word_x', 'word_y']} 
doc_b = {'id': 'b', 'words': ['word_x', 'word_z']} 
doc_c = {'id': 'c', 'words': ['word_y']} 
 
docs = [doc_a, doc_b, doc_c] 
indices = defaultdict(list) 
 
for doc in docs: 
  for word in doc['words']: 
    indices[word].append(doc['id']) 
 
print indices 
 
def word_count(words): 
  count = defaultdict(int) 
  for word in words: 
    count[word] += 1
  return count 
 
print word_count(['hiiragi', 'kagami', 'hiiragi', 'tukasa', 'yosimizu', 'kagami'])

    完满解决了之前遇到的那些破事.

    此外  collections  里还有个  Counter , 可以粗略认为它是  defaultdict(int)  的扩展.

Python 相关文章推荐
Python计算三角函数之asin()方法的使用
May 15 Python
Python的mysql数据库的更新如何实现
Jul 31 Python
TensorFlow如何实现反向传播
Feb 06 Python
python中返回矩阵的行列方法
Apr 04 Python
python socket网络编程之粘包问题详解
Apr 28 Python
Python编程深度学习计算库之numpy
Dec 28 Python
postman模拟访问具有Session的post请求方法
Jul 15 Python
python 类的继承 实例方法.静态方法.类方法的代码解析
Aug 23 Python
TensorFlow tf.nn.softmax_cross_entropy_with_logits的用法
Apr 19 Python
Python列表推导式实现代码实例
Sep 09 Python
在Django中使用MQTT的方法
May 10 Python
Python matplotlib 利用随机函数生成变化图形
Apr 26 Python
python递归计算N!的方法
May 05 #Python
浅谈Python中数据解析
May 05 #Python
探究Python多进程编程下线程之间变量的共享问题
May 05 #Python
浅谈Python中的数据类型
May 05 #Python
用Python实现一个简单的能够上传下载的HTTP服务器
May 05 #Python
使用Python程序抓取新浪在国内的所有IP的教程
May 04 #Python
Python版微信红包分配算法
May 04 #Python
You might like
PHP开发中的错误收集,不定期更新。
2011/02/03 PHP
php中mysql连接和基本操作代码(快速测试使用,简单方便)
2014/04/25 PHP
php基于base64解码图片与加密图片还原实例
2014/11/03 PHP
PHP动态规划解决0-1背包问题实例分析
2015/03/23 PHP
Smarty foreach控制循环次数的一些方法
2015/07/01 PHP
php+MySQL实现登录时验证登录名和密码是否正确
2016/05/10 PHP
PHP面向对象之里氏替换原则简单示例
2018/04/08 PHP
thinkPHP5.1框架中Request类四种调用方式示例
2019/08/03 PHP
PHP队列场景以及实现代码实例详解
2021/02/26 PHP
Prototype Template对象 学习
2009/07/19 Javascript
原生javascript实现图片轮播效果代码
2010/09/03 Javascript
IE6、IE7中setAttribute不支持class/for/rowspan/colspan等属性
2011/08/28 Javascript
JS子父窗口互相操作取值赋值的方法介绍
2013/05/11 Javascript
jQuery制作简单柱状图实例
2015/01/28 Javascript
jQuery右下角旋转环状菜单特效代码
2015/08/10 Javascript
angular双向绑定模拟探索
2016/12/26 Javascript
详解AngularJS 路由 resolve用法
2017/04/24 Javascript
使用vue-resource进行数据交互的实例
2017/09/02 Javascript
js简单的分页器插件代码实例
2019/09/11 Javascript
layui-select动态选中值的例子
2019/09/23 Javascript
vue-cli 为项目设置别名的方法
2019/10/15 Javascript
JavaScript中展开运算符及应用的实例代码
2021/01/14 Javascript
[01:05:30]VP vs TNC 2018国际邀请赛小组赛BO2 第一场 8.17
2018/08/20 DOTA
python应用程序在windows下不出现cmd窗口的办法
2014/05/29 Python
Python验证文件是否可读写代码分享
2017/12/11 Python
利用python将pdf输出为txt的实例讲解
2018/04/23 Python
python如何生成各种随机分布图
2018/08/27 Python
Python grequests模块使用场景及代码实例
2020/08/10 Python
css3一款3D字体带阴影效果的实现步骤
2013/03/20 HTML / CSS
Joe Fresh官网:加拿大时尚品牌和零售连锁店
2016/11/30 全球购物
JBL加拿大官方商店:扬声器、耳机等
2020/10/23 全球购物
前处理班长职位说明书
2014/03/01 职场文书
企业办公室岗位职责
2014/03/12 职场文书
党的群众路线教育实践活动整改方案
2014/10/28 职场文书
2014年职称评定工作总结
2014/11/26 职场文书
师德师风学习材料
2014/12/19 职场文书