Python英文文章词频统计(14份剑桥真题词频统计)


Posted in Python onOctober 13, 2019

Python剑桥真题词频统计

最好还是要学以致用,自主搜集了19年最近的14份剑桥真题之后,通过Python提供的jieba第三方库,对所有的文章信息进行了词频统计,并选择性地剔除了部分简易词汇,比如数字,普通冠词等,博主较懒,未清楚干净。

Python代码如下:

import jieba
# 以只读方式打开text(即真题库)
text = open('text.txt', 'r', encoding = 'utf-8').read()
# len(text)

#统一为小写 
text = text.lower()

# 需要剔除的词汇列表,也可以用记事本的形式,添加一个打开记事本的语句即可
# 即 stwlist = [line.strip() for line in open 'stopwords.txt',encoding='utf-8').readlines()]
# 这里使用列表
stwlist = ['the','a','of','to','end','in','you','is','that','for','on','it','as','your','...','14',
      'this','or','20','40','27','30','13','21','26','10','15','22',
      '32','31','1','2','4','5','6','7','8','9','0','10','11','12','13',
      '12','13','15','16','17','25','33','35','36','18','23','19','24',
      '38','29','34','37','000','...............................']

# 先进行分词
words = jieba.cut(text, cut_all = False, HMM = True)
#cut_all:是否采用全模式
#HMM:是否采用HMM模型

word_ = {}
for word in words:
  if (word.strip() not in stwlist):
    if len(word) > 1:
      if word != '\t':
        if word != '\r\n':
 # 计算词频
          if word in word_:
            word_[word] += 1
          else:
            word_[word] = 1

# 将结果保存为元组
word_freq = []
for word, freq in word_.items():
  word_freq.append((word, freq))

# 降序排列
word_freq.sort(key = lambda x:x[1], reverse = True)

#输出前3500个词汇
for i in range(3500):
  word, freq = word_freq[i]
  print('{0:10}{1:5}'.format(word, freq))

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
用python删除java文件头上版权信息的方法
Jul 31 Python
Python中对象的引用与复制代码示例
Dec 04 Python
python十进制和二进制的转换方法(含浮点数)
Jul 07 Python
python 自动重连wifi windows的方法
Dec 18 Python
对Python 多线程统计所有csv文件的行数方法详解
Feb 12 Python
python的pstuil模块使用方法总结
Jul 26 Python
python用win32gui遍历窗口并设置窗口位置的方法
Jul 26 Python
python GUI库图形界面开发之PyQt5计数器控件QSpinBox详细使用方法与实例
Feb 28 Python
Python定时任务APScheduler原理及实例解析
May 30 Python
python时间time模块处理大全
Oct 25 Python
Python实现机器学习算法的分类
Jun 03 Python
python 实现图片特效处理
Apr 03 Python
Python 转换RGB颜色值的示例代码
Oct 13 #Python
Django中自定义查询对象的具体使用
Oct 13 #Python
PyCharm导入python项目并配置虚拟环境的教程详解
Oct 13 #Python
Python 用三行代码提取PDF表格数据
Oct 13 #Python
Python3离线安装Requests模块问题
Oct 13 #Python
详解使用Python下载文件的几种方法
Oct 13 #Python
Python中输入和输出(打印)数据实例方法
Oct 13 #Python
You might like
table标签的结构与合并单元格的实现方法
2013/07/24 PHP
destoon后台网站设置变成空白的解决方法
2014/06/21 PHP
php利用scws实现mysql全文搜索功能的方法
2014/12/25 PHP
地址栏上的一段语句,改变页面的风格。(教程)
2008/04/02 Javascript
下载站控制介绍字数显示的脚本 显示全部 隐藏介绍等功能
2009/09/19 Javascript
JavaScript 读取元素的CSS信息的代码
2010/02/07 Javascript
html5的自定义data-*属性和jquery的data()方法的使用示例
2013/08/21 Javascript
javascript进行数组追加方法小结
2014/06/16 Javascript
javascript实现多级联动下拉菜单的方法
2015/02/06 Javascript
jQuery实现的仿百度,仿谷歌搜索下拉框效果示例
2016/12/30 Javascript
javascript将url解析为json格式的两种方法
2017/08/18 Javascript
解决Vue+Element ui开发中碰到的IE问题
2018/09/03 Javascript
默认浏览器设置及vue自动打开页面的方法
2018/09/21 Javascript
深入Node TCP模块的理解
2019/03/13 Javascript
vue19 组建 Vue.extend component、组件模版、动态组件 的实例代码
2019/04/04 Javascript
小程序云开发如何实现图片上传及发表文字
2019/05/17 Javascript
Vue组件间通信 Vuex的用法解析
2019/08/05 Javascript
JS实现关闭小广告特效
2021/01/29 Javascript
[03:11]TI9战队档案 - Alliance
2019/08/20 DOTA
pygame游戏之旅 添加键盘按键的方法
2018/11/20 Python
Python中zip()函数的简单用法举例
2019/09/02 Python
python 怎样将dataframe中的字符串日期转化为日期的方法
2019/09/26 Python
后端开发使用pycharm的技巧(推荐)
2020/03/27 Python
Python如何获取文件指定行的内容
2020/05/27 Python
PyQt中使用QtSql连接MySql数据库的方法
2020/07/28 Python
学生如何注册Pycharm专业版以及pycharm的安装
2020/09/24 Python
马来西亚最好的婴儿商店:Motherhood
2017/09/14 全球购物
美国最受欢迎的度假目的地优惠套餐:BookVIP
2018/09/27 全球购物
植树造林的宣传标语
2014/06/23 职场文书
投资入股合作协议书
2014/10/28 职场文书
红白喜事主持词
2015/07/06 职场文书
2015年迎新晚会策划书
2015/07/16 职场文书
交通事故责任认定书
2015/08/06 职场文书
《社戏》教学反思
2016/02/22 职场文书
多属性、多分类MySQL模式设计
2021/04/05 MySQL
Python实现信息管理系统
2022/06/05 Python