Python英文文章词频统计(14份剑桥真题词频统计)


Posted in Python onOctober 13, 2019

Python剑桥真题词频统计

最好还是要学以致用,自主搜集了19年最近的14份剑桥真题之后,通过Python提供的jieba第三方库,对所有的文章信息进行了词频统计,并选择性地剔除了部分简易词汇,比如数字,普通冠词等,博主较懒,未清楚干净。

Python代码如下:

import jieba
# 以只读方式打开text(即真题库)
text = open('text.txt', 'r', encoding = 'utf-8').read()
# len(text)

#统一为小写 
text = text.lower()

# 需要剔除的词汇列表,也可以用记事本的形式,添加一个打开记事本的语句即可
# 即 stwlist = [line.strip() for line in open 'stopwords.txt',encoding='utf-8').readlines()]
# 这里使用列表
stwlist = ['the','a','of','to','end','in','you','is','that','for','on','it','as','your','...','14',
      'this','or','20','40','27','30','13','21','26','10','15','22',
      '32','31','1','2','4','5','6','7','8','9','0','10','11','12','13',
      '12','13','15','16','17','25','33','35','36','18','23','19','24',
      '38','29','34','37','000','...............................']

# 先进行分词
words = jieba.cut(text, cut_all = False, HMM = True)
#cut_all:是否采用全模式
#HMM:是否采用HMM模型

word_ = {}
for word in words:
  if (word.strip() not in stwlist):
    if len(word) > 1:
      if word != '\t':
        if word != '\r\n':
 # 计算词频
          if word in word_:
            word_[word] += 1
          else:
            word_[word] = 1

# 将结果保存为元组
word_freq = []
for word, freq in word_.items():
  word_freq.append((word, freq))

# 降序排列
word_freq.sort(key = lambda x:x[1], reverse = True)

#输出前3500个词汇
for i in range(3500):
  word, freq = word_freq[i]
  print('{0:10}{1:5}'.format(word, freq))

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python生成指定长度的随机数密码
Jan 23 Python
win10环境下python3.5安装步骤图文教程
Feb 03 Python
Tensorflow简单验证码识别应用
May 25 Python
python简单商城购物车实例代码
Mar 15 Python
python监控文件并且发送告警邮件
Jun 21 Python
django之跨表查询及添加记录的示例代码
Oct 16 Python
python读出当前时间精度到秒的代码
Jul 05 Python
Django中Q查询及Q()对象 F查询及F()对象用法
Jul 09 Python
python中sys模块是做什么用的
Aug 16 Python
Python安装Bs4的多种方法
Nov 28 Python
Python .py生成.pyd文件并打包.exe 的注意事项说明
Mar 04 Python
用Python爬取某乎手机APP数据
Jun 15 Python
Python 转换RGB颜色值的示例代码
Oct 13 #Python
Django中自定义查询对象的具体使用
Oct 13 #Python
PyCharm导入python项目并配置虚拟环境的教程详解
Oct 13 #Python
Python 用三行代码提取PDF表格数据
Oct 13 #Python
Python3离线安装Requests模块问题
Oct 13 #Python
详解使用Python下载文件的几种方法
Oct 13 #Python
Python中输入和输出(打印)数据实例方法
Oct 13 #Python
You might like
实用函数7
2007/11/08 PHP
比较好用的PHP防注入漏洞过滤函数代码
2012/04/11 PHP
php中多维数组按指定value排序的实现代码
2014/08/19 PHP
PHP中使用GD库创建圆形饼图的例子
2014/11/19 PHP
PHP+Redis事务解决高并发下商品超卖问题(推荐)
2020/08/03 PHP
PHP延迟静态绑定使用方法实例解析
2020/09/05 PHP
JS分页控件 可用于无刷新分页
2013/07/23 Javascript
兼容ie、firefox的图片自动缩放的css跟js代码分享
2013/08/12 Javascript
javascript中处理时间戳为日期格式的方法
2014/01/02 Javascript
jquery动态添加删除(tr/td)
2015/02/09 Javascript
jQuery在线选座位插件seat-charts特效代码分享
2015/08/27 Javascript
javascript中加var和不加var的区别 你真的懂吗
2016/01/06 Javascript
微信小程序 location API实例详解
2016/10/02 Javascript
jQuery快速高效制作网页交互特效
2017/02/24 Javascript
js遍历json对象所有key及根据动态key获取值的方法(必看)
2017/03/09 Javascript
Bootstrap Table使用整理(四)之工具栏
2017/06/09 Javascript
在微信小程序中渲染HTML内容的方法示例
2018/09/28 Javascript
js实现类似iphone的网页滑屏解锁功能示例【附源码下载】
2019/06/10 Javascript
d3.js 地铁轨道交通项目实战
2019/11/27 Javascript
使用Typescript和ES模块发布Node模块的方法
2020/05/25 Javascript
[02:03]《现实生活中的DOTA2》—林书豪&DOTA2职业选手出演短片
2015/08/18 DOTA
Python判断某个用户对某个文件的权限
2016/10/13 Python
Python基于回溯法子集树模板解决选排问题示例
2017/09/07 Python
opencv改变imshow窗口大小,窗口位置的方法
2018/04/02 Python
python3结合openpyxl库实现excel操作的实例代码
2018/09/11 Python
python for循环remove同一个list过程解析
2019/08/14 Python
python数据处理之如何选取csv文件中某几行的数据
2019/09/02 Python
什么是Python中的匿名函数
2020/06/02 Python
python中的时区问题
2021/01/14 Python
python 如何在测试中使用 Mock
2021/03/01 Python
在DELPHI中调用存储过程和使用内嵌SQL哪种方式更好
2016/11/22 面试题
电气自动化大学生求职信
2013/10/16 职场文书
家长会主持词
2014/03/26 职场文书
食品委托检验协议书范本
2014/09/12 职场文书
生日答谢词
2015/01/05 职场文书
社会实践活动总结格式
2015/05/11 职场文书