Python英文文章词频统计(14份剑桥真题词频统计)


Posted in Python onOctober 13, 2019

Python剑桥真题词频统计

最好还是要学以致用,自主搜集了19年最近的14份剑桥真题之后,通过Python提供的jieba第三方库,对所有的文章信息进行了词频统计,并选择性地剔除了部分简易词汇,比如数字,普通冠词等,博主较懒,未清楚干净。

Python代码如下:

import jieba
# 以只读方式打开text(即真题库)
text = open('text.txt', 'r', encoding = 'utf-8').read()
# len(text)

#统一为小写 
text = text.lower()

# 需要剔除的词汇列表,也可以用记事本的形式,添加一个打开记事本的语句即可
# 即 stwlist = [line.strip() for line in open 'stopwords.txt',encoding='utf-8').readlines()]
# 这里使用列表
stwlist = ['the','a','of','to','end','in','you','is','that','for','on','it','as','your','...','14',
      'this','or','20','40','27','30','13','21','26','10','15','22',
      '32','31','1','2','4','5','6','7','8','9','0','10','11','12','13',
      '12','13','15','16','17','25','33','35','36','18','23','19','24',
      '38','29','34','37','000','...............................']

# 先进行分词
words = jieba.cut(text, cut_all = False, HMM = True)
#cut_all:是否采用全模式
#HMM:是否采用HMM模型

word_ = {}
for word in words:
  if (word.strip() not in stwlist):
    if len(word) > 1:
      if word != '\t':
        if word != '\r\n':
 # 计算词频
          if word in word_:
            word_[word] += 1
          else:
            word_[word] = 1

# 将结果保存为元组
word_freq = []
for word, freq in word_.items():
  word_freq.append((word, freq))

# 降序排列
word_freq.sort(key = lambda x:x[1], reverse = True)

#输出前3500个词汇
for i in range(3500):
  word, freq = word_freq[i]
  print('{0:10}{1:5}'.format(word, freq))

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python contextlib模块使用示例
Feb 18 Python
使用url_helper简化Python中Django框架的url配置教程
May 30 Python
详解Python的Django框架中的Cookie相关处理
Jul 22 Python
python实现求最长回文子串长度
Jan 22 Python
python生成器,可迭代对象,迭代器区别和联系
Feb 04 Python
新手常见6种的python报错及解决方法
Mar 09 Python
Python中函数参数调用方式分析
Aug 09 Python
使用Python的SymPy库解决数学运算问题的方法
Mar 27 Python
Python3中函数参数传递方式实例详解
May 05 Python
python 图片去噪的方法示例
Jul 09 Python
Python操作Mongodb数据库的方法小结
Sep 10 Python
Python实现进度条和时间预估的示例代码
Jun 02 Python
Python 转换RGB颜色值的示例代码
Oct 13 #Python
Django中自定义查询对象的具体使用
Oct 13 #Python
PyCharm导入python项目并配置虚拟环境的教程详解
Oct 13 #Python
Python 用三行代码提取PDF表格数据
Oct 13 #Python
Python3离线安装Requests模块问题
Oct 13 #Python
详解使用Python下载文件的几种方法
Oct 13 #Python
Python中输入和输出(打印)数据实例方法
Oct 13 #Python
You might like
探讨多键值cookie(php中cookie存取数组)的详解
2013/06/06 PHP
thinkPHP5.0框架开发规范简介
2017/03/25 PHP
php curl简单采集图片生成base64编码(并附curl函数参数说明)
2019/02/15 PHP
统一接口:为FireFox添加IE的方法和属性的js代码
2007/03/25 Javascript
javascript 复杂的嵌套环境中输出单引号和双引号
2009/05/26 Javascript
让mayfish支持mysqli数据库驱动的实现方法
2010/05/22 Javascript
js 设置缓存及获取设置的缓存
2014/05/08 Javascript
用JavaScript实现一个代码简洁、逻辑不复杂的多级树
2014/05/23 Javascript
使用JSON.parse将json字符串转换成json对象的时候会出错
2014/09/04 Javascript
jQuery监控文本框事件并作相应处理的方法
2015/04/16 Javascript
jQuery密码强度检测插件passwordStrength用法实例分析
2015/10/30 Javascript
Javascript自执行匿名函数(function() { })()的原理浅析
2016/05/15 Javascript
js调用屏幕宽度的简单方法
2016/11/14 Javascript
基于JavaScript实现本地图片预览
2017/02/08 Javascript
JS验证字符串功能
2017/02/22 Javascript
nodejs mysql 实现分页的方法
2017/06/06 NodeJs
微信小程序实现滚动消息通知
2018/02/02 Javascript
JS实现方形抽奖效果
2018/08/27 Javascript
Nuxt.js实战和配置详解
2019/08/05 Javascript
p5.js临摹动态图形的方法
2019/10/23 Javascript
[01:38]【DOTA2亚洲邀请赛】Sumail——梦开始的地方
2017/03/03 DOTA
忘记ftp密码使用python ftplib库暴力破解密码的方法示例
2014/01/22 Python
Python实现类似jQuery使用中的链式调用的示例
2016/06/16 Python
python逐行读写txt文件的实例讲解
2018/04/03 Python
Python callable内置函数原理解析
2020/03/05 Python
python中pivot()函数基础知识点
2021/01/03 Python
CSS3中Color的一些特性介绍
2012/05/27 HTML / CSS
css3 box-sizing属性使用参考指南
2013/01/08 HTML / CSS
澳大利亚优质的家居用品和生活方式公司:Bed Bath N’ Table
2019/04/16 全球购物
保密承诺书范文
2014/03/27 职场文书
节约用水的口号
2014/06/20 职场文书
2014年乡镇团委工作总结
2014/12/18 职场文书
求职推荐信范文
2015/03/27 职场文书
干货!开幕词的写作方法
2019/04/02 职场文书
jquery插件实现代码雨特效
2021/04/24 jQuery
人工智能深度学习OpenAI baselines的使用方法
2022/05/20 Python