Python实现快速计算词频功能示例


Posted in Python onJune 25, 2018

本文实例讲述了Python实现快速计算词频功能。分享给大家供大家参考,具体如下:

这几天看到一位同事的代码,方法如下:

def cut_word(body):
  temp_dict={}
  if body is not None:
    temp=jieba.cut(body)
    for t in temp:
      temp_dict[t]=1
  else:
    pass
  return temp_dict

这个函数的功能是,输入一段字符串,比如:'今天天气很不错',输出一个字典,key为使用结巴的cut方法之后切分的词,value为1,如:{'很':1,'今天天气':1,'不错': 1}。

然后我看到同事的另一个方法:

def union_dict(x,y):
  _keys = set(sum([obj.keys() for obj in [x,y]],[]))
  _total = {}
  for _key in _keys:
    _total[_key] = sum([obj.get(_key,0) for obj in [x,y]])
  return _total

是这样调用的:

final_dict=reduce(union_dict,result)

result是这样产生的:

result=df['body'].apply(cut_word)

也就是把df的body列每一行进行cut_word函数操作(即将字符串转换成一个字典)。

result的类型是series,随后对result用reduce函数进行union_dict操作。

union_dict的作用是,输入两个字典,比如{'很':1,'今天天气':1,'不错': 1}和{'很':1,'今天天气':1,'差': 1},对key相同的进行value求和,也就是输出会变成{'很':2,'今天天气':2,'不错': 1,'差':1}

所以这一系列的操作其实是为了计算一大堆文字的词频数,但同事使用的是对每一行分别进行拆分,生成字典,随后

对字典进行合并,其实有些麻烦。

再学习自然语言处理的时候,我了解到nltk有一个方法,可以直接计算词频,用在此处正好。

# -*- coding:utf-8 -*-
import nltk
import jieba
str = '今天天气很不错。今天天气很差'
a = list(jieba.cut(str))
cfd = nltk.FreqDist(a)

结果直接是一个带有频数的字典:{'很':2,'今天天气':2,'不错': 1,'很差':1,'。'}

由于同事的函数cut_word对每个词只计一次频数,所以不能直接拼接字符串后调用FreqDist函数,需要对每个cut出来的列表去重,随后再拼接为大字符串调用FreqDist,这也比之前写这两个函数简单许多。

对于普通的计算频数的需求来说,这个函数能直接解决,十分方便。

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
在Heroku云平台上部署Python的Django框架的教程
Apr 20 Python
使用python对excle和json互相转换的示例
Oct 23 Python
python 实现对文件夹中的图像连续重命名方法
Oct 25 Python
对python多线程中互斥锁Threading.Lock的简单应用详解
Jan 11 Python
对python 合并 累加两个dict的实例详解
Jan 21 Python
基于Python打造账号共享浏览器功能
May 30 Python
Pandas中DataFrame的分组/分割/合并的实现
Jul 16 Python
Python DataFrame一列拆成多列以及一行拆成多行
Aug 06 Python
Python socket实现的文件下载器功能示例
Nov 15 Python
Pycharm小白级简单使用教程
Jan 08 Python
pycharm的python_stubs问题
Apr 08 Python
python查找特定名称文件并按序号、文件名分行打印输出的方法
Apr 24 Python
python实现画一颗树和一片森林
Jun 25 #Python
完美解决在oj中Python的循环输入问题
Jun 25 #Python
django rest framework 数据的查找、过滤、排序的示例
Jun 25 #Python
python使用turtle库绘制树
Jun 25 #Python
使用Python微信库itchat获得好友和群组已撤回的消息
Jun 24 #Python
python库lxml在linux和WIN系统下的安装
Jun 24 #Python
Python3中详解fabfile的编写
Jun 24 #Python
You might like
php获取文章上一页与下一页的方法
2014/12/01 PHP
PHP中使用hidef扩展代替define提高性能
2015/04/09 PHP
php实现网站文件批量压缩下载功能
2015/10/28 PHP
PHP格式化MYSQL返回float类型的方法
2016/03/30 PHP
laravel 实现关闭CSRF(全部关闭、部分关闭)
2019/10/21 PHP
jQuery AJAX 调用WebService实现代码
2010/03/24 Javascript
JS判定是否原生方法
2013/07/22 Javascript
原生JavaScript编写canvas版的连连看游戏
2016/05/29 Javascript
轻松掌握JavaScript策略模式
2016/08/25 Javascript
Angularjs实现上传图片预览功能
2017/09/01 Javascript
原生JS控制多个滚动条同步跟随滚动效果
2017/12/22 Javascript
图片文字识别(OCR)插件Ocrad.js教程
2018/11/26 Javascript
JavaScript计算正方形面积
2019/11/26 Javascript
Layui弹框中数据表格中可双击选择一条数据的实现
2020/05/06 Javascript
vue实现按钮切换图片
2021/01/20 Vue.js
Python中for循环和while循环的基本使用方法
2015/08/21 Python
对python中return和print的一些理解
2017/08/18 Python
tensorflow 输出权重到csv或txt的实例
2018/06/14 Python
python创建文件备份的脚本
2018/09/11 Python
Django uwsgi Nginx 的生产环境部署详解
2019/02/02 Python
pytorch构建多模型实例
2020/01/15 Python
2020新版本pycharm+anaconda+opencv+pyqt环境配置学习笔记,亲测可用
2020/03/24 Python
python 比较字典value的最大值的几种方法
2020/04/17 Python
浅析pandas随机排列与随机抽样
2021/01/22 Python
聊聊Python pandas 中loc函数的使用,及跟iloc的区别说明
2021/03/03 Python
amazeui树节点自动展开折叠面板并选中第一个树节点的实现
2020/08/24 HTML / CSS
Ray-Ban雷朋太阳眼镜英国官网:Ray-Ban UK
2019/11/23 全球购物
abstract 可以和 virtual 一起使用吗?可以和 override 一起使用吗?
2012/10/15 面试题
小学语文国培感言
2014/03/04 职场文书
大学共青团员个人自我评价
2014/04/16 职场文书
2014高考励志标语
2014/06/05 职场文书
会计求职自荐信
2014/06/20 职场文书
2015年五一劳动节活动总结
2015/02/09 职场文书
幼儿园辞职信范文
2015/02/27 职场文书
2015年妇产科工作总结
2015/05/18 职场文书
2019最新版试用期劳动合同模板!
2019/07/04 职场文书