Python实现的统计文章单词次数功能示例


Posted in Python onJuly 08, 2019

本文实例讲述了Python实现的统计文章单词次数功能。分享给大家供大家参考,具体如下:

题目是这样的:你有一个目录,放了你一个月的日记,都是 txt,为了避免分词的问题,假设内容都是英文,请统计出你认为每篇日记最重要的词。

其实就是统计一篇文章出现最多的单词,但是要去除那些常见的连词、介词和谓语动词等,代码:

#coding=utf-8
import collections
import re
import os
useless_words=('the','a','an','and','by','of','in','on','is','to')
def get_important_word(file):
  f=open(file)
  word_counter=collections.Counter()
  for line in f:
    words=re.findall('\w+',line.lower())
    word_counter.update(words)
  f.close()
  most_important_word=word_counter.most_common(1)[0][0]
  count=2
  while(most_important_word in useless_words):
    most_important_word=word_counter.most_common(count)[count-1][0]
    count+=1
  num=word_counter.most_common(count)[count-1][1]
  print 'the most important word in %s is %s,it appears %d times'%(file,most_important_word,num)
if __name__=='__main__':
  filepath='.'
  for dirpath,dirname,dirfiles in os.walk(filepath):
    for file in dirfiles:
      if os.path.splitext(file)[1]=='.txt':
        abspath=os.path.join(dirpath,file)
        if os.path.isfile(abspath):
          get_important_word(abspath)

学习笔记:

collections模块,是python内建的模块,提供了许多有用的集合类。我们这里用到了Counter类和其中的most_common()方法

Python 相关文章推荐
python 类对象和实例对象动态添加方法(分享)
Dec 31 Python
Python paramiko模块的使用示例
Apr 11 Python
在Python中增加和插入元素的示例
Nov 01 Python
Python编程图形库之Pillow使用方法讲解
Dec 28 Python
Python3实现定时任务的四种方式
Jun 03 Python
python调用动态链接库的基本过程详解
Jun 19 Python
django-rest-swagger的优化使用方法
Aug 29 Python
python列表推导式入门学习解析
Dec 02 Python
Pytorch 数据加载与数据预处理方式
Dec 31 Python
Tensorflow读取并输出已保存模型的权重数值方式
Jan 04 Python
浅谈keras使用中val_acc和acc值不同步的思考
Jun 18 Python
如何用python批量调整视频声音
Dec 22 Python
用python建立两个Y轴的XY曲线图方法
Jul 08 #Python
python绘制双Y轴折线图以及单Y轴双变量柱状图的实例
Jul 08 #Python
简单了解python的内存管理机制
Jul 08 #Python
python用for循环求和的方法总结
Jul 08 #Python
python面试题之列表声明实例分析
Jul 08 #Python
python 一个figure上显示多个图像的实例
Jul 08 #Python
Python3实现汉语转换为汉语拼音
Jul 08 #Python
You might like
apache+codeigniter 通过.htcaccess做动态二级域名解析
2012/07/01 PHP
php文本转图片自动换行的方法
2013/03/13 PHP
PHP常用数组函数介绍
2014/07/28 PHP
php利用imagemagick实现复古老照片效果实例
2017/02/16 PHP
php图形jpgraph操作实例分析
2017/02/22 PHP
jquery ready()的几种实现方法小结
2010/06/18 Javascript
javascript中callee与caller的用法和应用场景
2010/12/08 Javascript
JavaScript生成GUID的多种算法小结
2013/08/18 Javascript
JQuery中阻止事件冒泡几种方式及其区别介绍
2014/01/15 Javascript
alert和confirm功能介绍
2014/05/21 Javascript
jQuery.Uploadify插件实现带进度条的批量上传功能
2016/06/08 Javascript
jQuery自定义元素右键点击事件(实现案例)
2017/04/28 jQuery
js求数组中全部数字可拼接出的最大整数示例代码
2017/08/25 Javascript
JS分页的实现(同步与异步)
2017/09/16 Javascript
VUE2实现事件驱动弹窗示例
2017/10/21 Javascript
jQuery实现输入框的放大和缩小功能示例
2018/07/21 jQuery
深入理解Vue父子组件生命周期执行顺序及钩子函数
2018/08/12 Javascript
微信小程序实现发送模板消息功能示例【通过openid推送消息给用户】
2019/05/05 Javascript
JS学习笔记之闭包小案例分析
2019/05/29 Javascript
深入浅析vue中cross-env的使用
2019/09/12 Javascript
Vue项目打包部署到iis服务器的配置方法
2019/10/14 Javascript
windows如何把已安装的nodejs高版本降级为低版本(图文教程)
2020/12/14 NodeJs
python字典序问题实例
2014/09/26 Python
在Python中操作列表之List.pop()方法的使用
2015/05/21 Python
Python编程之字符串模板(Template)用法实例分析
2017/07/22 Python
Python3计算三角形的面积代码
2017/12/18 Python
Python字典操作详细介绍及字典内建方法分享
2018/01/04 Python
TensorFlow损失函数专题详解
2018/04/26 Python
Django开发中的日志输出的方法
2018/07/02 Python
Python-opencv 双线性插值实例
2020/01/17 Python
让Django的BooleanField支持字符串形式的输入方式
2020/05/20 Python
Roxy俄罗斯官方网站:冲浪和滑雪板的一切
2020/06/20 全球购物
材料会计岗位职责
2014/03/06 职场文书
婚礼主持结束词
2014/03/13 职场文书
合伙经营协议书
2014/04/18 职场文书
MySQL 用 limit 为什么会影响性能
2021/09/15 MySQL