Python英文文章词频统计(14份剑桥真题词频统计)


Posted in Python onOctober 13, 2019

Python剑桥真题词频统计

最好还是要学以致用,自主搜集了19年最近的14份剑桥真题之后,通过Python提供的jieba第三方库,对所有的文章信息进行了词频统计,并选择性地剔除了部分简易词汇,比如数字,普通冠词等,博主较懒,未清楚干净。

Python代码如下:

import jieba
# 以只读方式打开text(即真题库)
text = open('text.txt', 'r', encoding = 'utf-8').read()
# len(text)

#统一为小写 
text = text.lower()

# 需要剔除的词汇列表,也可以用记事本的形式,添加一个打开记事本的语句即可
# 即 stwlist = [line.strip() for line in open 'stopwords.txt',encoding='utf-8').readlines()]
# 这里使用列表
stwlist = ['the','a','of','to','end','in','you','is','that','for','on','it','as','your','...','14',
      'this','or','20','40','27','30','13','21','26','10','15','22',
      '32','31','1','2','4','5','6','7','8','9','0','10','11','12','13',
      '12','13','15','16','17','25','33','35','36','18','23','19','24',
      '38','29','34','37','000','...............................']

# 先进行分词
words = jieba.cut(text, cut_all = False, HMM = True)
#cut_all:是否采用全模式
#HMM:是否采用HMM模型

word_ = {}
for word in words:
  if (word.strip() not in stwlist):
    if len(word) > 1:
      if word != '\t':
        if word != '\r\n':
 # 计算词频
          if word in word_:
            word_[word] += 1
          else:
            word_[word] = 1

# 将结果保存为元组
word_freq = []
for word, freq in word_.items():
  word_freq.append((word, freq))

# 降序排列
word_freq.sort(key = lambda x:x[1], reverse = True)

#输出前3500个词汇
for i in range(3500):
  word, freq = word_freq[i]
  print('{0:10}{1:5}'.format(word, freq))

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实现的多线程http压力测试代码
Feb 08 Python
Python实现的基数排序算法原理与用法实例分析
Nov 23 Python
TensorFlow中权重的随机初始化的方法
Feb 11 Python
pandas全表查询定位某个值所在行列的方法
Apr 12 Python
Python使用一行代码获取上个月是几月
Aug 30 Python
Python实现的微信支付方式总结【三种方式】
Apr 13 Python
Pycharm 文件更改目录后,执行路径未更新的解决方法
Jul 19 Python
安装python及pycharm的教程图解
Oct 10 Python
Python aiohttp百万并发极限测试实例分析
Oct 26 Python
Python3实现配置文件差异对比脚本
Nov 18 Python
keras 如何保存最佳的训练模型
May 25 Python
Pycharm制作搞怪弹窗的实现代码
Feb 19 Python
Python 转换RGB颜色值的示例代码
Oct 13 #Python
Django中自定义查询对象的具体使用
Oct 13 #Python
PyCharm导入python项目并配置虚拟环境的教程详解
Oct 13 #Python
Python 用三行代码提取PDF表格数据
Oct 13 #Python
Python3离线安装Requests模块问题
Oct 13 #Python
详解使用Python下载文件的几种方法
Oct 13 #Python
Python中输入和输出(打印)数据实例方法
Oct 13 #Python
You might like
PHP EOT定界符的使用详解
2008/09/30 PHP
hessian 在PHP中的使用介绍
2010/12/13 PHP
php array_push()数组函数:将一个或多个单元压入数组的末尾(入栈)
2011/07/12 PHP
iOS10推送通知开发教程
2016/09/19 PHP
PHP 多任务秒级定时器的实现方法
2018/05/13 PHP
js 页面输出值
2008/11/30 Javascript
js 覆盖和重载 函数
2009/09/25 Javascript
IE和firefox浏览器的event事件兼容性汇总
2009/12/06 Javascript
JavaScript创建一个欢迎cookie弹出窗实现代码
2013/03/15 Javascript
Clipboard.js 无需Flash的JavaScript复制粘贴库
2015/10/02 Javascript
JavaScript鼠标事件,点击鼠标右键,弹出div的简单实例
2016/08/03 Javascript
vue.js组件之间传递数据的方法
2017/07/10 Javascript
VUE axios上传图片到七牛的实例代码
2017/07/28 Javascript
JS实现div模块的截图并下载功能
2017/10/17 Javascript
Vue 中axios配置实例详解
2018/07/27 Javascript
vue-cli3.0+element-ui上传组件el-upload的使用
2018/12/03 Javascript
js实现通过开始结束控制的计时器
2019/02/25 Javascript
微信浏览器下拉黑边解决方案 wScroollFix
2020/01/21 Javascript
js实现类选择器和name属性选择器的示例步骤
2021/02/07 Javascript
python 内置函数filter
2017/06/01 Python
python 递归遍历文件夹,并打印满足条件的文件路径实例
2017/08/30 Python
使用Pyinstaller的最新踩坑实战记录
2017/11/08 Python
Python logging管理不同级别log打印和存储实例
2018/01/19 Python
python调用API实现智能回复机器人
2018/04/10 Python
python实现词法分析器
2019/01/31 Python
对Python3中dict.keys()转换成list类型的方法详解
2019/02/03 Python
Python3基础教程之递归函数简单示例
2019/06/07 Python
使用Bazel编译TensorBoard教程
2020/02/15 Python
python 读取.nii格式图像实例
2020/07/01 Python
用CSS3来实现社交分享按钮
2014/11/11 HTML / CSS
高中生的自我鉴定范文
2014/01/24 职场文书
质检员岗位职责范本
2015/04/07 职场文书
小学运动会通讯稿
2015/07/18 职场文书
2015年计算机教学工作总结
2015/07/22 职场文书
python 多态 协议 鸭子类型详解
2021/11/27 Python
2022新作动画《福星小子》释出宣传影片 加入内田真礼&宫野真守配音演出
2022/04/08 日漫