用Python中的字典来处理索引统计的方法


Posted in Python onMay 05, 2015

最近折腾索引引擎以及数据统计方面的工作比较多, 与 Python 字典频繁打交道, 至此整理一份此方面 API 的用法与坑法备案.

    索引引擎的基本工作原理便是倒排索引, 即将一个文档所包含的文字反过来映射至文档; 这方面算法并没有太多花样可言, 为了增加效率, 索引数据尽可往内存里面搬, 此法可效王献之习书法之势, 只要把十八台机器内存全部塞满, 那么基本也就功成名就了. 而基本思路举个简单例子, 现在有以下文档 (分词已经完成) 以及其包含的关键词

doc_a: [word_w, word_x, word_y]
  doc_b: [word_x, word_z]
  doc_c: [word_y]

将其变换为

word_w -> [doc_a]
  word_x -> [doc_a, doc_b]
  word_y -> [doc_a, doc_c]
  word_z -> [doc_b]

    写成 Python 代码, 便是
 

doc_a = {'id': 'a', 'words': ['word_w', 'word_x', 'word_y']} 
doc_b = {'id': 'b', 'words': ['word_x', 'word_z']} 
doc_c = {'id': 'c', 'words': ['word_y']} 
 
docs = [doc_a, doc_b, doc_c] 
indices = dict() 
 
for doc in docs: 
  for word in doc['words']: 
    if word not in indices: 
      indices[word] = [] 
    indices[word].append(doc['id']) 
 
print indices

    不过这里有个小技巧, 就是对于判断当前词是否已经在索引字典里的分支
 

if word not in indices: 
  indices[word] = []

可以被  dict  的  setdefault(key, default=None)  接口替换. 此接口的作用是, 如果  key  在字典里, 那么好说, 拿出对应的值来; 否则, 新建此  key , 且设置默认对应值为  default . 但从设计上来说, 我不明白为何  default  有个默认值  None , 看起来并无多大意义, 如果确要使用此接口, 大体都会自带默认值吧, 如下
 

for doc in docs: 
  for word in doc['words']: 
    indices. setdefault(word, []) .append(doc['id'])

    这样就省掉分支了, 代码看起来少很多.
    不过在某些情况下,  setdefault  用起来并不顺手: 当  default  值构造很复杂时, 或产生  default  值有副作用时, 以及一个之后会说到的情况; 前两种情况一言以蔽之, 就是  setdefault  不适用于  default  需要惰性求值的场景. 换言之, 为了兼顾这种需求,  setdefault  可能会设计成
 

def setdefault(self, key, default_factory): 
  if key not in self: 
    self[key] = default_factory() 
  return self[key]

倘若真如此, 那么上面的代码应改成
 

for doc in docs: 
  for word in doc['words']: 
    indices.setdefault(word, list ).append(doc['id'])

不过实际上有其它替代方案, 这个最后会提到.

    如果说上面只是一个能预见但实际上可能根本不会遇到的 API 缺陷, 那么下面这个就略打脸了.
    考虑现在要进行词频统计, 即一个词在文章中出现了多少次, 如果直接拿  dict  来写, 大致是
 

def word_count(words): 
  count = dict() 
  for word in words: 
    count.setdefault(word, 0) += 1
  return count 
 
print word_count(['hiiragi', 'kagami', 'hiiragi', 'tukasa', 'yosimizu', 'kagami'])

    当你兴致勃勃地跑起上面代码时, 代码会以迅雷不及掩脸之势把异常甩到你鼻尖上 --- 因为出现在  +=  操作符左边的  count.setdefault(word, 0)  在 Python 中不是一个左值. 怎样, 现在开始念叨 C艹 类型体系的好了吧.

    因为 Python 把默认的字面常量  {}  等价于  dict()  就认为  dict  是银弹的思想是要不得的; Python 里面各种数据结构不少, 解决统计问题, 理想的方案是  collections.defaultdict  这个类. 下面的代码想必看一眼就明白
 

from collections import defaultdict 
 
doc_a = {'id': 'a', 'words': ['word_w', 'word_x', 'word_y']} 
doc_b = {'id': 'b', 'words': ['word_x', 'word_z']} 
doc_c = {'id': 'c', 'words': ['word_y']} 
 
docs = [doc_a, doc_b, doc_c] 
indices = defaultdict(list) 
 
for doc in docs: 
  for word in doc['words']: 
    indices[word].append(doc['id']) 
 
print indices 
 
def word_count(words): 
  count = defaultdict(int) 
  for word in words: 
    count[word] += 1
  return count 
 
print word_count(['hiiragi', 'kagami', 'hiiragi', 'tukasa', 'yosimizu', 'kagami'])

    完满解决了之前遇到的那些破事.

    此外  collections  里还有个  Counter , 可以粗略认为它是  defaultdict(int)  的扩展.

Python 相关文章推荐
轻松理解Python 中的 descriptor
Sep 15 Python
python中如何正确使用正则表达式的详细模式(Verbose mode expression)
Nov 08 Python
解决Python2.7读写文件中的中文乱码问题
Apr 12 Python
PyQt5每天必学之进度条效果
Apr 19 Python
Python实现string字符串连接的方法总结【8种方式】
Jul 06 Python
Pytorch 的损失函数Loss function使用详解
Jan 02 Python
python GUI库图形界面开发之PyQt5布局控件QGridLayout详细使用方法与实例
Mar 06 Python
django 连接数据库出现1045错误的解决方式
May 14 Python
基于python 将列表作为参数传入函数时的测试与理解
Jun 05 Python
python怎么提高计算速度
Jun 11 Python
浅谈tensorflow使用张量时的一些注意点tf.concat,tf.reshape,tf.stack
Jun 23 Python
Keras构建神经网络踩坑(解决model.predict预测值全为0.0的问题)
Jul 07 Python
python递归计算N!的方法
May 05 #Python
浅谈Python中数据解析
May 05 #Python
探究Python多进程编程下线程之间变量的共享问题
May 05 #Python
浅谈Python中的数据类型
May 05 #Python
用Python实现一个简单的能够上传下载的HTTP服务器
May 05 #Python
使用Python程序抓取新浪在国内的所有IP的教程
May 04 #Python
Python版微信红包分配算法
May 04 #Python
You might like
PHP使用trim函数去除字符串左右空格及特殊字符实例
2016/01/07 PHP
php file_get_contents取文件中数组元素的方法
2017/04/01 PHP
Laravel5.1 框架表单验证操作实例详解
2020/01/07 PHP
PHP的图像处理实例小结【文字水印、图片水印、压缩图像等】
2019/12/20 PHP
Jquery实现无刷新DropDownList联动实现代码
2010/03/08 Javascript
JavaScript调试工具汇总
2014/12/23 Javascript
node.js下LDAP查询实例分享
2015/09/30 Javascript
JavaScript创建对象的方式小结(4种方式)
2015/12/17 Javascript
js闭包用法实例详解
2016/12/13 Javascript
nodejs根据ip数组在百度地图中进行定位
2017/03/06 NodeJs
React服务端渲染(总结)
2017/07/01 Javascript
Vue.js中extend选项和delimiters选项的比较
2017/07/17 Javascript
js和jQuery以及easyui实现对下拉框的指定赋值方法
2018/01/23 jQuery
微信小程序有旋转动画效果的音乐组件实例代码
2018/08/22 Javascript
解决微信小程序中转换时间格式IOS不兼容的问题
2019/02/15 Javascript
Vue router传递参数并解决刷新页面参数丢失问题
2020/12/02 Vue.js
Python中条件选择和循环语句使用方法介绍
2013/03/13 Python
python中函数传参详解
2016/07/03 Python
django中静态文件配置static的方法
2018/05/20 Python
django manage.py扩展自定义命令方法
2018/05/27 Python
Django 接收Post请求数据,并保存到数据库的实现方法
2019/07/12 Python
python 实现性别识别
2020/11/21 Python
python压包的概念及实例详解
2021/02/17 Python
WoolOvers澳洲官方网站:英国针织服装公司
2018/05/13 全球购物
护理专业应届毕业生推荐信
2013/11/15 职场文书
毕业生优秀推荐信
2013/11/26 职场文书
成品仓管员工作职责
2013/12/29 职场文书
办理护照介绍信
2014/01/16 职场文书
师德建设实施方案
2014/03/21 职场文书
黄金搭档广告词
2014/03/21 职场文书
园艺专业毕业生求职信
2014/09/02 职场文书
电影雨中的树观后感
2015/06/15 职场文书
行政处罚告知书
2015/07/01 职场文书
Apache Hudi 加速传统的批处理模式
2022/04/24 Servers
python数字图像处理:图像的绘制
2022/06/28 Python
python中validators库的使用方法详解
2022/09/23 Python