Python英文文章词频统计(14份剑桥真题词频统计)


Posted in Python onOctober 13, 2019

Python剑桥真题词频统计

最好还是要学以致用,自主搜集了19年最近的14份剑桥真题之后,通过Python提供的jieba第三方库,对所有的文章信息进行了词频统计,并选择性地剔除了部分简易词汇,比如数字,普通冠词等,博主较懒,未清楚干净。

Python代码如下:

import jieba
# 以只读方式打开text(即真题库)
text = open('text.txt', 'r', encoding = 'utf-8').read()
# len(text)

#统一为小写 
text = text.lower()

# 需要剔除的词汇列表,也可以用记事本的形式,添加一个打开记事本的语句即可
# 即 stwlist = [line.strip() for line in open 'stopwords.txt',encoding='utf-8').readlines()]
# 这里使用列表
stwlist = ['the','a','of','to','end','in','you','is','that','for','on','it','as','your','...','14',
      'this','or','20','40','27','30','13','21','26','10','15','22',
      '32','31','1','2','4','5','6','7','8','9','0','10','11','12','13',
      '12','13','15','16','17','25','33','35','36','18','23','19','24',
      '38','29','34','37','000','...............................']

# 先进行分词
words = jieba.cut(text, cut_all = False, HMM = True)
#cut_all:是否采用全模式
#HMM:是否采用HMM模型

word_ = {}
for word in words:
  if (word.strip() not in stwlist):
    if len(word) > 1:
      if word != '\t':
        if word != '\r\n':
 # 计算词频
          if word in word_:
            word_[word] += 1
          else:
            word_[word] = 1

# 将结果保存为元组
word_freq = []
for word, freq in word_.items():
  word_freq.append((word, freq))

# 降序排列
word_freq.sort(key = lambda x:x[1], reverse = True)

#输出前3500个词汇
for i in range(3500):
  word, freq = word_freq[i]
  print('{0:10}{1:5}'.format(word, freq))

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
跟老齐学Python之变量和参数
Oct 10 Python
Python中使用PIPE操作Linux管道
Feb 04 Python
安装Python和pygame及相应的环境变量配置(图文教程)
Jun 04 Python
Flask web开发处理POST请求实现(登录案例)
Jul 26 Python
itchat-python搭建微信机器人(附示例)
Jun 11 Python
python使用Qt界面以及逻辑实现方法
Jul 10 Python
Django接收照片储存文件的实例代码
Mar 07 Python
Django怎么在admin后台注册数据库表
Nov 14 Python
python中entry用法讲解
Dec 04 Python
使用OpenCV实现人脸图像卡通化的示例代码
Jan 15 Python
Python的Tqdm模块实现进度条配置
Feb 24 Python
windows安装python超详细图文教程
May 21 Python
Python 转换RGB颜色值的示例代码
Oct 13 #Python
Django中自定义查询对象的具体使用
Oct 13 #Python
PyCharm导入python项目并配置虚拟环境的教程详解
Oct 13 #Python
Python 用三行代码提取PDF表格数据
Oct 13 #Python
Python3离线安装Requests模块问题
Oct 13 #Python
详解使用Python下载文件的几种方法
Oct 13 #Python
Python中输入和输出(打印)数据实例方法
Oct 13 #Python
You might like
session 加入redis的实现代码
2016/07/15 PHP
php常用字符函数实例小结
2016/12/29 PHP
Laravel实现定时任务的示例代码
2017/08/10 PHP
PHP实现的贪婪算法实例
2017/10/17 PHP
JavaScript实现网页图片等比例缩放实现代码及调用方式
2013/02/25 Javascript
jquery显示隐藏input对象
2014/07/21 Javascript
js中的事件捕捉模型与冒泡模型实例分析
2015/01/10 Javascript
JavaScript获取页面上被选中文字的方法技巧
2015/03/13 Javascript
AngularJS的依赖注入实例分析(使用module和injector)
2017/01/19 Javascript
Jquery uploadify 多余的Get请求(404错误)的解决方法
2017/01/26 Javascript
jQuery点击头像上传并预览图片
2017/02/23 Javascript
js实现手机发送验证码功能
2017/03/13 Javascript
详解VueJs中的V-bind指令
2018/05/03 Javascript
vue.js将时间戳转化为日期格式的实现代码
2018/06/05 Javascript
elementUI 动态生成几行几列的方法示例
2019/07/11 Javascript
使用webpack/gulp构建TypeScript项目的方法示例
2019/12/18 Javascript
[03:49]辉夜杯现场龙骑士COSER秀情商“我喜欢芬队!”
2015/12/27 DOTA
Python反射的用法实例分析
2018/02/11 Python
windows下 兼容Python2和Python3的解决方法
2018/12/05 Python
利用django model save方法对未更改的字段依然进行了保存
2020/03/28 Python
Django 解决新建表删除后无法重新创建等问题
2020/05/21 Python
Python sklearn中的.fit与.predict的用法说明
2020/06/28 Python
详解python实现可视化的MD5、sha256哈希加密小工具
2020/09/14 Python
Python爬虫入门教程02之笔趣阁小说爬取
2021/01/24 Python
纯css3实现的动画按钮的实例教程
2014/11/17 HTML / CSS
HTML5之SVG 2D入门4—笔画与填充
2013/01/30 HTML / CSS
俄罗斯香水和化妆品在线商店:Aroma-butik
2020/02/28 全球购物
介绍一下如何优化MySql
2016/12/20 面试题
优秀学生自我鉴定范例
2013/12/18 职场文书
电子商务网站的创业计划书
2014/01/05 职场文书
论文答谢词
2015/01/20 职场文书
小学安全工作总结2015
2015/05/18 职场文书
800字作文之大雪
2019/12/04 职场文书
Python中OpenCV实现简单车牌字符切割
2021/06/11 Python
使用CSS实现一个搜索引擎的原理解析
2021/09/25 HTML / CSS
JavaScript模拟实现网易云轮播效果
2022/04/04 Javascript