Python英文文章词频统计(14份剑桥真题词频统计)


Posted in Python onOctober 13, 2019

Python剑桥真题词频统计

最好还是要学以致用,自主搜集了19年最近的14份剑桥真题之后,通过Python提供的jieba第三方库,对所有的文章信息进行了词频统计,并选择性地剔除了部分简易词汇,比如数字,普通冠词等,博主较懒,未清楚干净。

Python代码如下:

import jieba
# 以只读方式打开text(即真题库)
text = open('text.txt', 'r', encoding = 'utf-8').read()
# len(text)

#统一为小写 
text = text.lower()

# 需要剔除的词汇列表,也可以用记事本的形式,添加一个打开记事本的语句即可
# 即 stwlist = [line.strip() for line in open 'stopwords.txt',encoding='utf-8').readlines()]
# 这里使用列表
stwlist = ['the','a','of','to','end','in','you','is','that','for','on','it','as','your','...','14',
      'this','or','20','40','27','30','13','21','26','10','15','22',
      '32','31','1','2','4','5','6','7','8','9','0','10','11','12','13',
      '12','13','15','16','17','25','33','35','36','18','23','19','24',
      '38','29','34','37','000','...............................']

# 先进行分词
words = jieba.cut(text, cut_all = False, HMM = True)
#cut_all:是否采用全模式
#HMM:是否采用HMM模型

word_ = {}
for word in words:
  if (word.strip() not in stwlist):
    if len(word) > 1:
      if word != '\t':
        if word != '\r\n':
 # 计算词频
          if word in word_:
            word_[word] += 1
          else:
            word_[word] = 1

# 将结果保存为元组
word_freq = []
for word, freq in word_.items():
  word_freq.append((word, freq))

# 降序排列
word_freq.sort(key = lambda x:x[1], reverse = True)

#输出前3500个词汇
for i in range(3500):
  word, freq = word_freq[i]
  print('{0:10}{1:5}'.format(word, freq))

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python读写ini文件的方法
May 28 Python
详解Python中的日志模块logging
Jun 19 Python
Python正则表达式使用经典实例
Jun 21 Python
学习python中matplotlib绘图设置坐标轴刻度、文本
Feb 07 Python
使用pandas read_table读取csv文件的方法
Jul 04 Python
详解如何设置Python环境变量?
May 13 Python
python爬虫开发之使用Python爬虫库requests多线程抓取猫眼电影TOP100实例
Mar 10 Python
解决django 向mysql中写入中文字符出错的问题
May 18 Python
Python建造者模式案例运行原理解析
Jun 29 Python
Python基于xlrd模块处理合并单元格
Jul 28 Python
还在手动盖楼抽奖?教你用Python实现自动评论盖楼抽奖(一)
Jun 07 Python
Python中的xlrd模块使用整理
Jun 15 Python
Python 转换RGB颜色值的示例代码
Oct 13 #Python
Django中自定义查询对象的具体使用
Oct 13 #Python
PyCharm导入python项目并配置虚拟环境的教程详解
Oct 13 #Python
Python 用三行代码提取PDF表格数据
Oct 13 #Python
Python3离线安装Requests模块问题
Oct 13 #Python
详解使用Python下载文件的几种方法
Oct 13 #Python
Python中输入和输出(打印)数据实例方法
Oct 13 #Python
You might like
Discuz!下Memcache缓存实现方法
2010/05/28 PHP
PHP生成树的方法
2015/07/28 PHP
PHP Header失效的原因分析及解决方法
2016/11/16 PHP
老生常谈PHP数组函数array_merge(必看篇)
2017/05/25 PHP
PHP crc32()函数讲解
2019/02/14 PHP
js 动态添加标签(新增一行,其实很简单,就是几个函数的应用)
2009/03/26 Javascript
解决js数据包含加号+通过ajax传到后台时出现连接错误
2013/08/01 Javascript
javascript中replace( )方法的使用
2015/04/24 Javascript
深入理解jQuery之事件移除
2016/06/02 Javascript
JavaScript“尽快失败”的原则实例详解
2016/10/08 Javascript
jQuery Datatable 多个查询条件自定义提交事件(推荐)
2017/08/24 jQuery
微信小程序排坑指南详解
2018/05/23 Javascript
NodeJs 文件系统操作模块fs使用方法详解
2018/11/26 NodeJs
vue实现滑动切换效果(仅在手机模式下可用)
2020/06/29 Javascript
npx create-react-app xxx创建项目报错的解决办法
2020/02/17 Javascript
js构造函数constructor和原型prototype原理与用法实例分析
2020/03/02 Javascript
vue如何使用外部特殊字体的操作
2020/07/30 Javascript
vue切换菜单取消未完成接口请求的案例
2020/11/13 Javascript
vue实现树状表格效果
2020/12/29 Vue.js
[02:54]DOTA2亚洲邀请赛 VG战队出场宣传片
2015/02/07 DOTA
[38:23]完美世界DOTA2联赛循环赛 FTD vs PXG BO2第二场 11.01
2020/11/02 DOTA
python使用cookie库操保存cookie详解
2014/03/03 Python
Python psutil模块简单使用实例
2015/04/28 Python
Python学习入门之区块链详解
2017/07/25 Python
python使用筛选法计算小于给定数字的所有素数
2018/03/19 Python
python使用if语句实现一个猜拳游戏详解
2019/08/27 Python
postman传递当前时间戳实例详解
2019/09/14 Python
Pytorch的mean和std调查实例
2020/01/02 Python
Python读取yaml文件的详细教程
2020/07/21 Python
Python eval函数介绍及用法
2020/11/09 Python
你所知道的集合类都有哪些?主要方法?
2012/12/31 面试题
蔬菜基地的创业计划书
2014/01/06 职场文书
领导检查欢迎词
2014/01/14 职场文书
三八红旗手先进事迹材料
2014/05/13 职场文书
和谐家庭演讲稿
2014/05/24 职场文书
幼儿园法制宣传日活动总结
2014/11/01 职场文书