Python英文文章词频统计(14份剑桥真题词频统计)


Posted in Python onOctober 13, 2019

Python剑桥真题词频统计

最好还是要学以致用,自主搜集了19年最近的14份剑桥真题之后,通过Python提供的jieba第三方库,对所有的文章信息进行了词频统计,并选择性地剔除了部分简易词汇,比如数字,普通冠词等,博主较懒,未清楚干净。

Python代码如下:

import jieba
# 以只读方式打开text(即真题库)
text = open('text.txt', 'r', encoding = 'utf-8').read()
# len(text)

#统一为小写 
text = text.lower()

# 需要剔除的词汇列表,也可以用记事本的形式,添加一个打开记事本的语句即可
# 即 stwlist = [line.strip() for line in open 'stopwords.txt',encoding='utf-8').readlines()]
# 这里使用列表
stwlist = ['the','a','of','to','end','in','you','is','that','for','on','it','as','your','...','14',
      'this','or','20','40','27','30','13','21','26','10','15','22',
      '32','31','1','2','4','5','6','7','8','9','0','10','11','12','13',
      '12','13','15','16','17','25','33','35','36','18','23','19','24',
      '38','29','34','37','000','...............................']

# 先进行分词
words = jieba.cut(text, cut_all = False, HMM = True)
#cut_all:是否采用全模式
#HMM:是否采用HMM模型

word_ = {}
for word in words:
  if (word.strip() not in stwlist):
    if len(word) > 1:
      if word != '\t':
        if word != '\r\n':
 # 计算词频
          if word in word_:
            word_[word] += 1
          else:
            word_[word] = 1

# 将结果保存为元组
word_freq = []
for word, freq in word_.items():
  word_freq.append((word, freq))

# 降序排列
word_freq.sort(key = lambda x:x[1], reverse = True)

#输出前3500个词汇
for i in range(3500):
  word, freq = word_freq[i]
  print('{0:10}{1:5}'.format(word, freq))

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python网络编程学习笔记(一)
Jun 09 Python
python 二分查找和快速排序实例详解
Oct 13 Python
详解基于django实现的webssh简单例子
Jul 17 Python
Python统计纯文本文件中英文单词出现个数的方法总结【测试可用】
Jul 25 Python
Pycharm无法显示动态图片的解决方法
Oct 28 Python
解决Python3 被PHP程序调用执行返回乱码的问题
Feb 16 Python
Python两个字典键同值相加的几种方法
Mar 05 Python
Pycharm中import torch报错的快速解决方法
Mar 05 Python
服务器端jupyter notebook映射到本地浏览器的操作
Apr 14 Python
python实现MySQL指定表增量同步数据到clickhouse的脚本
Feb 26 Python
Python3中最常用的5种线程锁实例总结
Jul 07 Python
使用Python获取字典键对应值的方法
Apr 26 Python
Python 转换RGB颜色值的示例代码
Oct 13 #Python
Django中自定义查询对象的具体使用
Oct 13 #Python
PyCharm导入python项目并配置虚拟环境的教程详解
Oct 13 #Python
Python 用三行代码提取PDF表格数据
Oct 13 #Python
Python3离线安装Requests模块问题
Oct 13 #Python
详解使用Python下载文件的几种方法
Oct 13 #Python
Python中输入和输出(打印)数据实例方法
Oct 13 #Python
You might like
PHP 文件上传源码分析(RFC1867)
2009/10/30 PHP
手把手教你打印出PDF(关于fpdf的简单应用)
2013/06/25 PHP
php打开文件fopen函数的使用说明
2013/07/05 PHP
PHP查询网站的PR值
2013/10/30 PHP
php过滤HTML标签、属性等正则表达式汇总
2014/09/22 PHP
PHP pthreads v3下同步处理synchronized用法示例
2020/02/21 PHP
Whatever:hover 无需javascript让IE支持丰富伪类
2010/06/29 Javascript
jquery中dom操作和事件的实例学习-表单验证
2011/11/30 Javascript
更换select下拉菜单背景样式的实现代码
2011/12/20 Javascript
JavaScript框架(iframe)操作总结
2014/04/16 Javascript
Jquery 监视按键,按下回车键触发某方法的实现代码
2014/05/11 Javascript
JavaScript中的原型和继承详解(图文)
2014/07/18 Javascript
基于jQuery实现的扇形定时器附源码下载
2015/10/20 Javascript
vue插件tab选项卡使用小结
2016/10/27 Javascript
javascript实现非常简单的小数取整功能示例
2017/06/13 Javascript
easyui下拉框动态级联加载的示例代码
2017/11/29 Javascript
微信小程序定位当前城市的方法
2018/07/19 Javascript
微信小程序用户授权弹窗 拒绝时引导用户重新授权实现
2019/07/29 Javascript
[04:32]DOTA2著名解说配音敌法师 现场专访海涛怒切假腿
2013/12/20 DOTA
python爬虫 正则表达式使用技巧及爬取个人博客的实例讲解
2017/10/20 Python
python合并已经存在的sheet数据到新sheet的方法
2018/12/11 Python
python GUI库图形界面开发之PyQt5窗口背景与不规则窗口实例
2020/02/25 Python
使用python处理题库表格并转化为word形式的实现
2020/04/14 Python
基于TensorFlow的CNN实现Mnist手写数字识别
2020/06/17 Python
CSS3之边框多颜色Border-color属性使用示例
2013/10/11 HTML / CSS
Html5之自定义属性(data-,dataset)
2019/11/19 HTML / CSS
如何使用canvas绘制可移动网格的示例代码
2020/12/14 HTML / CSS
阿根廷网上配眼镜:SmartBuyGlasses阿根廷
2016/08/19 全球购物
世界上最好的精品店:Shoptiques
2018/02/05 全球购物
幼儿园教学管理制度
2014/02/04 职场文书
卫生厅领导班子党的群众路线教育实践活动整改措施
2014/09/20 职场文书
社保转移委托书范本
2014/10/08 职场文书
公安机关纪律作风整顿剖析
2014/10/10 职场文书
创卫工作总结2015
2015/04/22 职场文书
Html5同时支持多端sdk的小技巧
2021/11/17 HTML / CSS
前端监听websocket消息并实时弹出(实例代码)
2021/11/27 Javascript