Python实现的统计文章单词次数功能示例


Posted in Python onJuly 08, 2019

本文实例讲述了Python实现的统计文章单词次数功能。分享给大家供大家参考,具体如下:

题目是这样的:你有一个目录,放了你一个月的日记,都是 txt,为了避免分词的问题,假设内容都是英文,请统计出你认为每篇日记最重要的词。

其实就是统计一篇文章出现最多的单词,但是要去除那些常见的连词、介词和谓语动词等,代码:

#coding=utf-8
import collections
import re
import os
useless_words=('the','a','an','and','by','of','in','on','is','to')
def get_important_word(file):
  f=open(file)
  word_counter=collections.Counter()
  for line in f:
    words=re.findall('\w+',line.lower())
    word_counter.update(words)
  f.close()
  most_important_word=word_counter.most_common(1)[0][0]
  count=2
  while(most_important_word in useless_words):
    most_important_word=word_counter.most_common(count)[count-1][0]
    count+=1
  num=word_counter.most_common(count)[count-1][1]
  print 'the most important word in %s is %s,it appears %d times'%(file,most_important_word,num)
if __name__=='__main__':
  filepath='.'
  for dirpath,dirname,dirfiles in os.walk(filepath):
    for file in dirfiles:
      if os.path.splitext(file)[1]=='.txt':
        abspath=os.path.join(dirpath,file)
        if os.path.isfile(abspath):
          get_important_word(abspath)

学习笔记:

collections模块,是python内建的模块,提供了许多有用的集合类。我们这里用到了Counter类和其中的most_common()方法

Python 相关文章推荐
Python3利用SMTP协议发送E-mail电子邮件的方法
Sep 30 Python
Python自动化运维_文件内容差异对比分析
Dec 13 Python
Python中的单行、多行、中文注释方法
Jul 19 Python
python解析json串与正则匹配对比方法
Dec 20 Python
使用python爬取微博数据打造一颗“心”
Jun 28 Python
pandas read_excel()和to_excel()函数解析
Sep 19 Python
python类共享变量操作
Sep 03 Python
Python 实现微信自动回复的方法
Sep 11 Python
Python 开发工具通过 agent 代理使用的方法
Sep 27 Python
Python 解析xml文件的示例
Sep 29 Python
numpy实现RNN原理实现
Mar 02 Python
Python实战之实现简易的学生选课系统
May 25 Python
用python建立两个Y轴的XY曲线图方法
Jul 08 #Python
python绘制双Y轴折线图以及单Y轴双变量柱状图的实例
Jul 08 #Python
简单了解python的内存管理机制
Jul 08 #Python
python用for循环求和的方法总结
Jul 08 #Python
python面试题之列表声明实例分析
Jul 08 #Python
python 一个figure上显示多个图像的实例
Jul 08 #Python
Python3实现汉语转换为汉语拼音
Jul 08 #Python
You might like
php 编写安全的代码时容易犯的错误小结
2010/05/20 PHP
CI框架整合widget(页面格局)的方法
2016/05/17 PHP
Yii2中SqlDataProvider用法示例
2016/09/22 PHP
PHPExcel实现的读取多工作表操作示例
2020/04/14 PHP
javascript 通用简单的table选项卡实现
2010/05/07 Javascript
在javascript中如何得到中英文混合字符串的长度
2014/01/17 Javascript
jQuery超精致图片轮播幻灯片特效代码分享
2015/09/10 Javascript
smartcrop.js智能图片裁剪库
2015/10/14 Javascript
js 声明数组和向数组中添加对象变量的简单实例
2016/07/28 Javascript
浅谈jQuery效果函数
2016/09/16 Javascript
微信小程序 底部导航栏目开发资料
2016/12/05 Javascript
jquery实现静态搜索功能(可输入搜索文字)
2017/03/28 jQuery
深入剖析Express cookie-parser中间件实现示例
2018/02/01 Javascript
Koa2 之文件上传下载的示例代码
2018/03/29 Javascript
Vue.js中Line第三方登录api的实现代码
2020/06/29 Javascript
python爬虫获取京东手机图片的图文教程
2017/12/29 Python
使用python 爬虫抓站的一些技巧总结
2018/01/10 Python
Python HTML解析模块HTMLParser用法分析【爬虫工具】
2019/04/05 Python
python GUI库图形界面开发之PyQt5信号与槽事件处理机制详细介绍与实例解析
2020/03/08 Python
keras 如何保存最佳的训练模型
2020/05/25 Python
keras读取训练好的模型参数并把参数赋值给其它模型详解
2020/06/15 Python
python爬虫数据保存到mongoDB的实例方法
2020/07/28 Python
阿联酋网上花店:Ferns N Petals
2018/02/14 全球购物
Ibatis的核心配置文件都有什么
2014/09/08 面试题
GWT都有什么特性
2016/12/02 面试题
医生实习工作总结的自我评价
2013/09/27 职场文书
出纳的岗位职责
2013/11/09 职场文书
关于赌博的检讨书
2014/01/08 职场文书
副厂长岗位职责
2014/02/02 职场文书
爱国主义演讲稿
2014/05/07 职场文书
学校三节实施方案
2014/06/09 职场文书
三好生演讲稿
2014/09/12 职场文书
海南召开党的群众路线教育实践活动总结大会新闻稿
2014/10/21 职场文书
小学四年级班主任工作经验交流材料
2015/11/02 职场文书
2019个人工作计划书的格式及范文!
2019/07/04 职场文书
vue实现列表垂直无缝滚动
2022/04/08 Vue.js