Python实现的统计文章单词次数功能示例


Posted in Python onJuly 08, 2019

本文实例讲述了Python实现的统计文章单词次数功能。分享给大家供大家参考,具体如下:

题目是这样的:你有一个目录,放了你一个月的日记,都是 txt,为了避免分词的问题,假设内容都是英文,请统计出你认为每篇日记最重要的词。

其实就是统计一篇文章出现最多的单词,但是要去除那些常见的连词、介词和谓语动词等,代码:

#coding=utf-8
import collections
import re
import os
useless_words=('the','a','an','and','by','of','in','on','is','to')
def get_important_word(file):
  f=open(file)
  word_counter=collections.Counter()
  for line in f:
    words=re.findall('\w+',line.lower())
    word_counter.update(words)
  f.close()
  most_important_word=word_counter.most_common(1)[0][0]
  count=2
  while(most_important_word in useless_words):
    most_important_word=word_counter.most_common(count)[count-1][0]
    count+=1
  num=word_counter.most_common(count)[count-1][1]
  print 'the most important word in %s is %s,it appears %d times'%(file,most_important_word,num)
if __name__=='__main__':
  filepath='.'
  for dirpath,dirname,dirfiles in os.walk(filepath):
    for file in dirfiles:
      if os.path.splitext(file)[1]=='.txt':
        abspath=os.path.join(dirpath,file)
        if os.path.isfile(abspath):
          get_important_word(abspath)

学习笔记:

collections模块,是python内建的模块,提供了许多有用的集合类。我们这里用到了Counter类和其中的most_common()方法

Python 相关文章推荐
python搭建简易服务器分析与实现
Dec 15 Python
Tornado服务器中绑定域名、虚拟主机的方法
Aug 22 Python
Python编程中字符串和列表的基本知识讲解
Oct 14 Python
python3使用PyMysql连接mysql数据库实例
Feb 07 Python
Python正则表达式完全指南
May 25 Python
Python实现的合并两个有序数组算法示例
Mar 04 Python
如何在Django项目中引入静态文件
Jul 26 Python
解决springboot yml配置 logging.level 报错问题
Feb 21 Python
windows支持哪个版本的python
Jul 03 Python
Python结合Window计划任务监测邮件的示例代码
Aug 05 Python
Python pandas求方差和标准差的方法实例
Aug 04 Python
Python中三种花式打印的示例详解
Mar 19 Python
用python建立两个Y轴的XY曲线图方法
Jul 08 #Python
python绘制双Y轴折线图以及单Y轴双变量柱状图的实例
Jul 08 #Python
简单了解python的内存管理机制
Jul 08 #Python
python用for循环求和的方法总结
Jul 08 #Python
python面试题之列表声明实例分析
Jul 08 #Python
python 一个figure上显示多个图像的实例
Jul 08 #Python
Python3实现汉语转换为汉语拼音
Jul 08 #Python
You might like
解析php获取字符串的编码格式的方法(函数)
2013/06/21 PHP
纯PHP生成的一个树叶图片画图例子
2014/04/16 PHP
CI框架安全类Security.php源码分析
2014/11/04 PHP
PHP实现通过Luhn算法校验信用卡卡号是否有效
2015/03/23 PHP
thinkphp框架无限级栏目的排序功能实现方法示例
2020/03/29 PHP
js 动态添加标签(新增一行,其实很简单,就是几个函数的应用)
2009/03/26 Javascript
js实现的真正的iframe高度自适应(兼容IE,FF,Opera)
2010/03/07 Javascript
锋利的jQuery 要点归纳(三) jQuery中的事件和动画(下:动画篇)
2010/03/24 Javascript
jquery的$getjson调用并获取远程的JSON字符串问题
2012/12/10 Javascript
javascript if条件判断方法小结
2014/05/17 Javascript
简介JavaScript中的setTime()方法的使用
2015/06/11 Javascript
基于jQuery实现Div窗口震动特效代码-代码简单
2015/08/28 Javascript
基于jquery实现智能提示控件intellSeach.js
2016/03/17 Javascript
jQuery插件扩展操作入门示例
2017/01/16 Javascript
Express与NodeJs创建服务器的两种方法
2017/02/06 NodeJs
vue2.0数据双向绑定与表单bootstrap+vue组件
2017/02/27 Javascript
Vue表单类的父子组件数据传递示例
2018/05/03 Javascript
jQuery实现的监听导航滚动置顶状态功能示例
2018/07/23 jQuery
详解VUE里子组件如何获取父组件动态变化的值
2018/12/26 Javascript
nodejs和react实现即时通讯简易聊天室功能
2019/08/21 NodeJs
Vue组件生命周期运行原理解析
2020/11/25 Vue.js
windows如何把已安装的nodejs高版本降级为低版本(图文教程)
2020/12/14 NodeJs
python使用ctypes模块调用windowsapi获取系统版本示例
2014/04/17 Python
Python FTP操作类代码分享
2014/05/13 Python
深入解析Python中的__builtins__内建对象
2016/06/21 Python
Python3实现的字典、列表和json对象互转功能示例
2018/05/22 Python
django2.0扩展用户字段示例
2019/02/13 Python
Django url,从一个页面调到另个页面的方法
2019/08/21 Python
详细整理python 字符串(str)与列表(list)以及数组(array)之间的转换方法
2019/08/30 Python
Python如何用filter函数筛选数据
2020/03/05 Python
北美大型运动类产品商城:Champs Sports
2017/01/12 全球购物
英国最大的在线蜡烛商店:Candles Direct
2019/03/26 全球购物
Jdbc数据访问技术面试题
2012/03/30 面试题
翻译专业应届生求职信
2013/11/23 职场文书
邀请函怎么写
2015/01/30 职场文书
2016元旦主持人经典开场白台词
2015/12/03 职场文书