编程 Python

用Python中的字典来处理索引统计的方法

Posted in Python onMay 05, 2015

最近折腾索引引擎以及数据统计方面的工作比较多, 与 Python 字典频繁打交道, 至此整理一份此方面 API 的用法与坑法备案.

索引引擎的基本工作原理便是倒排索引, 即将一个文档所包含的文字反过来映射至文档; 这方面算法并没有太多花样可言, 为了增加效率, 索引数据尽可往内存里面搬, 此法可效王献之习书法之势, 只要把十八台机器内存全部塞满, 那么基本也就功成名就了. 而基本思路举个简单例子, 现在有以下文档 (分词已经完成) 以及其包含的关键词

doc_a: [word_w, word_x, word_y]
  doc_b: [word_x, word_z]
  doc_c: [word_y]

将其变换为

word_w -> [doc_a]
  word_x -> [doc_a, doc_b]
  word_y -> [doc_a, doc_c]
  word_z -> [doc_b]

写成 Python 代码, 便是

doc_a = {'id': 'a', 'words': ['word_w', 'word_x', 'word_y']} 
doc_b = {'id': 'b', 'words': ['word_x', 'word_z']} 
doc_c = {'id': 'c', 'words': ['word_y']} 
 
docs = [doc_a, doc_b, doc_c] 
indices = dict() 
 
for doc in docs: 
  for word in doc['words']: 
    if word not in indices: 
      indices[word] = [] 
    indices[word].append(doc['id']) 
 
print indices

不过这里有个小技巧, 就是对于判断当前词是否已经在索引字典里的分支

if word not in indices: 
  indices[word] = []

可以被 dict 的 setdefault(key, default=None) 接口替换. 此接口的作用是, 如果 key 在字典里, 那么好说, 拿出对应的值来; 否则, 新建此 key , 且设置默认对应值为 default . 但从设计上来说, 我不明白为何 default 有个默认值 None , 看起来并无多大意义, 如果确要使用此接口, 大体都会自带默认值吧, 如下

for doc in docs: 
  for word in doc['words']: 
    indices. setdefault(word, []) .append(doc['id'])

这样就省掉分支了, 代码看起来少很多.
不过在某些情况下, setdefault 用起来并不顺手: 当 default 值构造很复杂时, 或产生 default 值有副作用时, 以及一个之后会说到的情况; 前两种情况一言以蔽之, 就是 setdefault 不适用于 default 需要惰性求值的场景. 换言之, 为了兼顾这种需求, setdefault 可能会设计成

def setdefault(self, key, default_factory): 
  if key not in self: 
    self[key] = default_factory() 
  return self[key]

倘若真如此, 那么上面的代码应改成

for doc in docs: 
  for word in doc['words']: 
    indices.setdefault(word, list ).append(doc['id'])

不过实际上有其它替代方案, 这个最后会提到.

如果说上面只是一个能预见但实际上可能根本不会遇到的 API 缺陷, 那么下面这个就略打脸了.
考虑现在要进行词频统计, 即一个词在文章中出现了多少次, 如果直接拿 dict 来写, 大致是

def word_count(words): 
  count = dict() 
  for word in words: 
    count.setdefault(word, 0) += 1
  return count 
 
print word_count(['hiiragi', 'kagami', 'hiiragi', 'tukasa', 'yosimizu', 'kagami'])

当你兴致勃勃地跑起上面代码时, 代码会以迅雷不及掩脸之势把异常甩到你鼻尖上 --- 因为出现在 += 操作符左边的 count.setdefault(word, 0) 在 Python 中不是一个左值. 怎样, 现在开始念叨 C艹类型体系的好了吧.

因为 Python 把默认的字面常量 {} 等价于 dict() 就认为 dict 是银弹的思想是要不得的; Python 里面各种数据结构不少, 解决统计问题, 理想的方案是 collections.defaultdict 这个类. 下面的代码想必看一眼就明白

from collections import defaultdict 
 
doc_a = {'id': 'a', 'words': ['word_w', 'word_x', 'word_y']} 
doc_b = {'id': 'b', 'words': ['word_x', 'word_z']} 
doc_c = {'id': 'c', 'words': ['word_y']} 
 
docs = [doc_a, doc_b, doc_c] 
indices = defaultdict(list) 
 
for doc in docs: 
  for word in doc['words']: 
    indices[word].append(doc['id']) 
 
print indices 
 
def word_count(words): 
  count = defaultdict(int) 
  for word in words: 
    count[word] += 1
  return count 
 
print word_count(['hiiragi', 'kagami', 'hiiragi', 'tukasa', 'yosimizu', 'kagami'])

完满解决了之前遇到的那些破事.

此外 collections 里还有个 Counter , 可以粗略认为它是 defaultdict(int) 的扩展.

用Python中的字典来处理索引统计的方法

- Author -

xrzs

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python操作ie登陆土豆网的方法

May 09 Python

Python中subprocess的简单使用示例

Jul 28 Python

python2.7 mayavi 安装图文教程(推荐)

Jun 22 Python

解决PyCharm的Python.exe已经停止工作的问题

Nov 29 Python

Pycharm配置远程调试的方法步骤

Dec 17 Python

python 导入数据及作图的实现

Dec 03 Python

pytorch对梯度进行可视化进行梯度检查教程

Feb 04 Python

python 插入日期数据到Oracle实例

Mar 02 Python

用Python生成HTML表格的方法示例

Mar 06 Python

Pycharm及python安装详细步骤及PyCharm配置整理(推荐)

Jul 31 Python

python判断变量是否为列表的方法

Sep 17 Python

浅析Python的命名空间与作用域

Nov 25 Python

python递归计算N！的方法

May 05 #Python

浅谈Python中数据解析

May 05 #Python

探究Python多进程编程下线程之间变量的共享问题

May 05 #Python

浅谈Python中的数据类型

May 05 #Python

用Python实现一个简单的能够上传下载的HTTP服务器

May 05 #Python

使用Python程序抓取新浪在国内的所有IP的教程

May 04 #Python

Python版微信红包分配算法

May 04 #Python

You might like

WINXP下apache+php4+mysql

2006/11/25 PHP

main.php

2006/12/09 PHP

PHP5.2下chunk_split()函数整数溢出漏洞分析

2007/06/06 PHP

ThinkPHP整合百度Ueditor图文教程

2014/10/21 PHP

Thinkphp微信公众号支付接口

2016/08/04 PHP

php版微信自定义回复功能示例

2016/12/05 PHP

PHP封装XML和JSON格式数据接口操作示例

2019/03/06 PHP

用window.location.href实现刷新另个框架页面

2007/03/07 Javascript

js 鼠标拖动对象可让任何div实现拖动效果

2009/11/09 Javascript

jQuery源码分析-03构造jQuery对象-源码结构和核心函数

2011/11/14 Javascript

将字符串转换成gb2312或者utf-8编码的参数(js版)

2013/04/10 Javascript

鼠标左键单击冲突的问题解决方法(防止冒泡)

2014/05/14 Javascript

jQuery实现的背景动态变化导航菜单效果

2015/08/24 Javascript

BootStrap框架个人总结(bootstrap框架、导航条、下拉菜单、轮播广告carousel、栅格系统布局、标签页tabs、模态框、菜单定位)

2016/12/01 Javascript

js中常用的Math方法总结

2017/01/12 Javascript

Webpack打包慢问题的完美解决方法

2017/03/16 Javascript

vue.js内部自定义指令与全局自定义指令的实现详解（利用directive）

2017/07/11 Javascript

jQuery扇形定时器插件pietimer使用方法详解

2017/07/18 jQuery

自制简易打赏功能的实例

2017/09/02 Javascript

vue 1.x 交互实现仿百度下拉列表示例

2017/10/21 Javascript

jQuery替换节点元素的操作方法

2018/03/18 jQuery

关于vue编译版本引入的问题的解决

2018/09/17 Javascript

小程序实现图片预览裁剪插件

2019/11/22 Javascript

Python基于scrapy采集数据时使用代理服务器的方法

2015/04/16 Python

在Django同1个页面中的多表单处理详解

2017/01/25 Python

《望洞庭》教学反思

2014/02/16 职场文书

应聘编辑自荐信范文

2014/03/12 职场文书

共产党员承诺书

2014/03/25 职场文书

2014年英语教研组工作总结

2014/12/06 职场文书

社会治安综合治理责任书

2015/01/29 职场文书

大学生安全教育主题班会

2015/08/12 职场文书

2016大一新生军训感言

2015/12/08 职场文书

干货：如何写好工作计划！

2019/05/17 职场文书

Python如何解决secure_filename对中文不支持问题

2021/07/16 Python

什么是Python装饰器？如何定义和使用？

2022/04/11 Python

Python多线程实用方法以及共享变量资源竞争问题

2022/04/12 Python