用Python中的字典来处理索引统计的方法


Posted in Python onMay 05, 2015

最近折腾索引引擎以及数据统计方面的工作比较多, 与 Python 字典频繁打交道, 至此整理一份此方面 API 的用法与坑法备案.

    索引引擎的基本工作原理便是倒排索引, 即将一个文档所包含的文字反过来映射至文档; 这方面算法并没有太多花样可言, 为了增加效率, 索引数据尽可往内存里面搬, 此法可效王献之习书法之势, 只要把十八台机器内存全部塞满, 那么基本也就功成名就了. 而基本思路举个简单例子, 现在有以下文档 (分词已经完成) 以及其包含的关键词

doc_a: [word_w, word_x, word_y]
  doc_b: [word_x, word_z]
  doc_c: [word_y]

将其变换为

word_w -> [doc_a]
  word_x -> [doc_a, doc_b]
  word_y -> [doc_a, doc_c]
  word_z -> [doc_b]

    写成 Python 代码, 便是
 

doc_a = {'id': 'a', 'words': ['word_w', 'word_x', 'word_y']} 
doc_b = {'id': 'b', 'words': ['word_x', 'word_z']} 
doc_c = {'id': 'c', 'words': ['word_y']} 
 
docs = [doc_a, doc_b, doc_c] 
indices = dict() 
 
for doc in docs: 
  for word in doc['words']: 
    if word not in indices: 
      indices[word] = [] 
    indices[word].append(doc['id']) 
 
print indices

    不过这里有个小技巧, 就是对于判断当前词是否已经在索引字典里的分支
 

if word not in indices: 
  indices[word] = []

可以被  dict  的  setdefault(key, default=None)  接口替换. 此接口的作用是, 如果  key  在字典里, 那么好说, 拿出对应的值来; 否则, 新建此  key , 且设置默认对应值为  default . 但从设计上来说, 我不明白为何  default  有个默认值  None , 看起来并无多大意义, 如果确要使用此接口, 大体都会自带默认值吧, 如下
 

for doc in docs: 
  for word in doc['words']: 
    indices. setdefault(word, []) .append(doc['id'])

    这样就省掉分支了, 代码看起来少很多.
    不过在某些情况下,  setdefault  用起来并不顺手: 当  default  值构造很复杂时, 或产生  default  值有副作用时, 以及一个之后会说到的情况; 前两种情况一言以蔽之, 就是  setdefault  不适用于  default  需要惰性求值的场景. 换言之, 为了兼顾这种需求,  setdefault  可能会设计成
 

def setdefault(self, key, default_factory): 
  if key not in self: 
    self[key] = default_factory() 
  return self[key]

倘若真如此, 那么上面的代码应改成
 

for doc in docs: 
  for word in doc['words']: 
    indices.setdefault(word, list ).append(doc['id'])

不过实际上有其它替代方案, 这个最后会提到.

    如果说上面只是一个能预见但实际上可能根本不会遇到的 API 缺陷, 那么下面这个就略打脸了.
    考虑现在要进行词频统计, 即一个词在文章中出现了多少次, 如果直接拿  dict  来写, 大致是
 

def word_count(words): 
  count = dict() 
  for word in words: 
    count.setdefault(word, 0) += 1
  return count 
 
print word_count(['hiiragi', 'kagami', 'hiiragi', 'tukasa', 'yosimizu', 'kagami'])

    当你兴致勃勃地跑起上面代码时, 代码会以迅雷不及掩脸之势把异常甩到你鼻尖上 --- 因为出现在  +=  操作符左边的  count.setdefault(word, 0)  在 Python 中不是一个左值. 怎样, 现在开始念叨 C艹 类型体系的好了吧.

    因为 Python 把默认的字面常量  {}  等价于  dict()  就认为  dict  是银弹的思想是要不得的; Python 里面各种数据结构不少, 解决统计问题, 理想的方案是  collections.defaultdict  这个类. 下面的代码想必看一眼就明白
 

from collections import defaultdict 
 
doc_a = {'id': 'a', 'words': ['word_w', 'word_x', 'word_y']} 
doc_b = {'id': 'b', 'words': ['word_x', 'word_z']} 
doc_c = {'id': 'c', 'words': ['word_y']} 
 
docs = [doc_a, doc_b, doc_c] 
indices = defaultdict(list) 
 
for doc in docs: 
  for word in doc['words']: 
    indices[word].append(doc['id']) 
 
print indices 
 
def word_count(words): 
  count = defaultdict(int) 
  for word in words: 
    count[word] += 1
  return count 
 
print word_count(['hiiragi', 'kagami', 'hiiragi', 'tukasa', 'yosimizu', 'kagami'])

    完满解决了之前遇到的那些破事.

    此外  collections  里还有个  Counter , 可以粗略认为它是  defaultdict(int)  的扩展.

Python 相关文章推荐
python使用sorted函数对列表进行排序的方法
Apr 04 Python
对Python进行数据分析_关于Package的安装问题
May 22 Python
对python添加模块路径的三种方法总结
Oct 16 Python
python os模块简单应用示例
May 23 Python
使用 Python 快速实现 HTTP 和 FTP 服务器的方法
Jul 22 Python
QML使用Python的函数过程解析
Sep 26 Python
用Python解数独的方法示例
Oct 24 Python
Python使用type动态创建类操作示例
Feb 29 Python
pytorch 中的重要模块化接口nn.Module的使用
Apr 02 Python
利用Python实现Json序列化库的方法步骤
Sep 09 Python
python 5个实用的技巧
Sep 27 Python
python之PySide2安装使用及QT Designer UI设计案例教程
Jul 26 Python
python递归计算N!的方法
May 05 #Python
浅谈Python中数据解析
May 05 #Python
探究Python多进程编程下线程之间变量的共享问题
May 05 #Python
浅谈Python中的数据类型
May 05 #Python
用Python实现一个简单的能够上传下载的HTTP服务器
May 05 #Python
使用Python程序抓取新浪在国内的所有IP的教程
May 04 #Python
Python版微信红包分配算法
May 04 #Python
You might like
destoon供应信息title调用出公司名称的方法
2014/08/22 PHP
PHP用户管理中常用接口调用实例及解析(含源码)
2017/03/09 PHP
在IIS下安装PHP扩展的方法(超简单)
2017/04/10 PHP
基于 Swoole 的微信扫码登录功能实现代码
2018/01/15 PHP
jquery 使用点滴函数代码
2011/05/20 Javascript
jQuery+CSS 实现随滚动条增减的汽水瓶中的液体效果
2011/09/26 Javascript
JavaScript模板入门介绍
2012/09/26 Javascript
利用JavaScript实现新闻滚动效果(实例代码)
2013/11/27 Javascript
JavaScript修改css样式style动态改变元素样式
2013/12/16 Javascript
Javascript动态创建div的方法
2015/02/09 Javascript
jQuery $.each遍历对象、数组用法实例
2015/04/16 Javascript
jquery中绑定事件的异同
2017/02/28 Javascript
理解 JavaScript EventEmitter
2018/03/29 Javascript
vue-cli开发环境实现跨域请求的方法
2018/04/07 Javascript
jQuery实现鼠标点击处心形漂浮的炫酷效果示例
2018/04/12 jQuery
JS中Promise函数then的奥秘探究
2018/07/30 Javascript
JavaScript基础之静态方法和实例方法分析
2018/12/26 Javascript
微信小程序实现购物车代码实例详解
2019/08/29 Javascript
Vue.js数字输入框组件使用方法详解
2019/10/19 Javascript
ES2020系列之空值合并运算符 '??'
2020/07/22 Javascript
[05:43]VG.R战队教练Mikasa专访:为目标从未停止战斗
2016/08/02 DOTA
Python中的Django基本命令实例详解
2018/07/15 Python
使用python搭建服务器并实现Android端与之通信的方法
2019/06/28 Python
python numpy库np.percentile用法说明
2020/06/08 Python
python获取本周、上周、本月、上月及本季的时间代码实例
2020/09/08 Python
基于HTML5实现类似微信手机摇一摇功能(计算摇动次数)
2017/07/24 HTML / CSS
在校生党员自我评价
2013/09/25 职场文书
期末考试动员演讲稿
2014/01/10 职场文书
理财投资建议书
2014/03/12 职场文书
2014年教师节活动总结
2014/08/29 职场文书
风之谷观后感
2015/06/11 职场文书
行政处罚事先告知书
2015/07/01 职场文书
2015秋季开学演讲稿范文
2015/07/16 职场文书
2019年消防宣传标语集锦
2019/11/21 职场文书
MySQL系列之八 MySQL服务器变量
2021/07/02 MySQL
sql注入报错之注入原理实例解析
2022/06/10 MySQL