用Python中的字典来处理索引统计的方法


Posted in Python onMay 05, 2015

最近折腾索引引擎以及数据统计方面的工作比较多, 与 Python 字典频繁打交道, 至此整理一份此方面 API 的用法与坑法备案.

    索引引擎的基本工作原理便是倒排索引, 即将一个文档所包含的文字反过来映射至文档; 这方面算法并没有太多花样可言, 为了增加效率, 索引数据尽可往内存里面搬, 此法可效王献之习书法之势, 只要把十八台机器内存全部塞满, 那么基本也就功成名就了. 而基本思路举个简单例子, 现在有以下文档 (分词已经完成) 以及其包含的关键词

doc_a: [word_w, word_x, word_y]
  doc_b: [word_x, word_z]
  doc_c: [word_y]

将其变换为

word_w -> [doc_a]
  word_x -> [doc_a, doc_b]
  word_y -> [doc_a, doc_c]
  word_z -> [doc_b]

    写成 Python 代码, 便是
 

doc_a = {'id': 'a', 'words': ['word_w', 'word_x', 'word_y']} 
doc_b = {'id': 'b', 'words': ['word_x', 'word_z']} 
doc_c = {'id': 'c', 'words': ['word_y']} 
 
docs = [doc_a, doc_b, doc_c] 
indices = dict() 
 
for doc in docs: 
  for word in doc['words']: 
    if word not in indices: 
      indices[word] = [] 
    indices[word].append(doc['id']) 
 
print indices

    不过这里有个小技巧, 就是对于判断当前词是否已经在索引字典里的分支
 

if word not in indices: 
  indices[word] = []

可以被  dict  的  setdefault(key, default=None)  接口替换. 此接口的作用是, 如果  key  在字典里, 那么好说, 拿出对应的值来; 否则, 新建此  key , 且设置默认对应值为  default . 但从设计上来说, 我不明白为何  default  有个默认值  None , 看起来并无多大意义, 如果确要使用此接口, 大体都会自带默认值吧, 如下
 

for doc in docs: 
  for word in doc['words']: 
    indices. setdefault(word, []) .append(doc['id'])

    这样就省掉分支了, 代码看起来少很多.
    不过在某些情况下,  setdefault  用起来并不顺手: 当  default  值构造很复杂时, 或产生  default  值有副作用时, 以及一个之后会说到的情况; 前两种情况一言以蔽之, 就是  setdefault  不适用于  default  需要惰性求值的场景. 换言之, 为了兼顾这种需求,  setdefault  可能会设计成
 

def setdefault(self, key, default_factory): 
  if key not in self: 
    self[key] = default_factory() 
  return self[key]

倘若真如此, 那么上面的代码应改成
 

for doc in docs: 
  for word in doc['words']: 
    indices.setdefault(word, list ).append(doc['id'])

不过实际上有其它替代方案, 这个最后会提到.

    如果说上面只是一个能预见但实际上可能根本不会遇到的 API 缺陷, 那么下面这个就略打脸了.
    考虑现在要进行词频统计, 即一个词在文章中出现了多少次, 如果直接拿  dict  来写, 大致是
 

def word_count(words): 
  count = dict() 
  for word in words: 
    count.setdefault(word, 0) += 1
  return count 
 
print word_count(['hiiragi', 'kagami', 'hiiragi', 'tukasa', 'yosimizu', 'kagami'])

    当你兴致勃勃地跑起上面代码时, 代码会以迅雷不及掩脸之势把异常甩到你鼻尖上 --- 因为出现在  +=  操作符左边的  count.setdefault(word, 0)  在 Python 中不是一个左值. 怎样, 现在开始念叨 C艹 类型体系的好了吧.

    因为 Python 把默认的字面常量  {}  等价于  dict()  就认为  dict  是银弹的思想是要不得的; Python 里面各种数据结构不少, 解决统计问题, 理想的方案是  collections.defaultdict  这个类. 下面的代码想必看一眼就明白
 

from collections import defaultdict 
 
doc_a = {'id': 'a', 'words': ['word_w', 'word_x', 'word_y']} 
doc_b = {'id': 'b', 'words': ['word_x', 'word_z']} 
doc_c = {'id': 'c', 'words': ['word_y']} 
 
docs = [doc_a, doc_b, doc_c] 
indices = defaultdict(list) 
 
for doc in docs: 
  for word in doc['words']: 
    indices[word].append(doc['id']) 
 
print indices 
 
def word_count(words): 
  count = defaultdict(int) 
  for word in words: 
    count[word] += 1
  return count 
 
print word_count(['hiiragi', 'kagami', 'hiiragi', 'tukasa', 'yosimizu', 'kagami'])

    完满解决了之前遇到的那些破事.

    此外  collections  里还有个  Counter , 可以粗略认为它是  defaultdict(int)  的扩展.

Python 相关文章推荐
使用BeautifulSoup爬虫程序获取百度搜索结果的标题和url示例
Jan 19 Python
Python编程中对super函数的正确理解和用法解析
Jul 02 Python
CentOS 7下安装Python 3.5并与Python2.7兼容并存详解
Jul 07 Python
基于python的字节编译详解
Sep 20 Python
Python实现图片滑动式验证识别方法
Nov 09 Python
Python基于TCP实现会聊天的小机器人功能示例
Apr 09 Python
python实现动态数组的示例代码
Jul 15 Python
python统计文章中单词出现次数实例
Feb 27 Python
VScode连接远程服务器上的jupyter notebook的实现
Apr 23 Python
python 生成正态分布数据,并绘图和解析
Dec 21 Python
python 如何用urllib与服务端交互(发送和接收数据)
Mar 04 Python
Python+Pillow+Pytesseract实现验证码识别
May 11 Python
python递归计算N!的方法
May 05 #Python
浅谈Python中数据解析
May 05 #Python
探究Python多进程编程下线程之间变量的共享问题
May 05 #Python
浅谈Python中的数据类型
May 05 #Python
用Python实现一个简单的能够上传下载的HTTP服务器
May 05 #Python
使用Python程序抓取新浪在国内的所有IP的教程
May 04 #Python
Python版微信红包分配算法
May 04 #Python
You might like
索尼SONY ICF-SW7600GR电路分析与改良
2021/03/02 无线电
关于文本留言本的分页代码
2006/10/09 PHP
php session 错误
2009/05/21 PHP
php面向对象全攻略 (十一)__toString()用法 克隆对象 __call处理调用错误
2009/09/30 PHP
PHP静态调用非静态方法的应用分析
2013/05/02 PHP
php基础教程
2015/08/26 PHP
Laravel中日期时间处理包Carbon的简单使用
2017/09/21 PHP
HR vs ForZe BO3 第一场 2.13
2021/03/10 DOTA
jsonp原理及使用
2013/10/28 Javascript
JavaScript Math.ceil() 函数使用介绍
2013/12/11 Javascript
node.js中的fs.readdir方法使用说明
2014/12/17 Javascript
nodejs开发——express路由与中间件
2017/03/24 NodeJs
angularjs实现对表单输入改变的监控(ng-change和watch两种方式)
2018/08/29 Javascript
iview在vue-cli3如何按需加载的方法
2018/10/31 Javascript
微信小程序实现页面分享onShareAppMessage
2019/08/12 Javascript
浅谈VUE中演示v-for为什么要加key
2020/01/16 Javascript
JQuery获得内容和属性方法解析
2020/05/30 jQuery
Element Dropdown下拉菜单的使用方法
2020/07/26 Javascript
vue 组件之间事件触发($emit)与event Bus($on)的用法说明
2020/07/28 Javascript
Python中的Classes和Metaclasses详解
2015/04/02 Python
详细解读Python中的__init__()方法
2015/05/02 Python
python用户管理系统的实例讲解
2017/12/23 Python
Python数据结构之双向链表的定义与使用方法示例
2018/01/16 Python
详解Python静态网页爬取获取高清壁纸
2019/04/23 Python
面向对象学习之pygame坦克大战
2019/09/11 Python
简单了解python数组的基本操作
2019/11/26 Python
关于tensorflow softmax函数用法解析
2020/06/30 Python
mui几种页面跳转方式对比总结概括
2017/08/18 HTML / CSS
Gucci法国官方网站:意大利奢侈品牌
2018/07/25 全球购物
软件生产职位结构化面试主要考察要素及面试题库
2015/06/12 面试题
医学检验专业个人求职信范文
2013/12/04 职场文书
秋游活动策划方案
2014/02/16 职场文书
公司请假条格式
2014/04/11 职场文书
2014年就业工作总结
2014/11/26 职场文书
新教师教学工作总结
2015/08/14 职场文书
Redis读写分离搭建的完整步骤
2021/09/14 Redis