Python英文文章词频统计(14份剑桥真题词频统计)


Posted in Python onOctober 13, 2019

Python剑桥真题词频统计

最好还是要学以致用,自主搜集了19年最近的14份剑桥真题之后,通过Python提供的jieba第三方库,对所有的文章信息进行了词频统计,并选择性地剔除了部分简易词汇,比如数字,普通冠词等,博主较懒,未清楚干净。

Python代码如下:

import jieba
# 以只读方式打开text(即真题库)
text = open('text.txt', 'r', encoding = 'utf-8').read()
# len(text)

#统一为小写 
text = text.lower()

# 需要剔除的词汇列表,也可以用记事本的形式,添加一个打开记事本的语句即可
# 即 stwlist = [line.strip() for line in open 'stopwords.txt',encoding='utf-8').readlines()]
# 这里使用列表
stwlist = ['the','a','of','to','end','in','you','is','that','for','on','it','as','your','...','14',
      'this','or','20','40','27','30','13','21','26','10','15','22',
      '32','31','1','2','4','5','6','7','8','9','0','10','11','12','13',
      '12','13','15','16','17','25','33','35','36','18','23','19','24',
      '38','29','34','37','000','...............................']

# 先进行分词
words = jieba.cut(text, cut_all = False, HMM = True)
#cut_all:是否采用全模式
#HMM:是否采用HMM模型

word_ = {}
for word in words:
  if (word.strip() not in stwlist):
    if len(word) > 1:
      if word != '\t':
        if word != '\r\n':
 # 计算词频
          if word in word_:
            word_[word] += 1
          else:
            word_[word] = 1

# 将结果保存为元组
word_freq = []
for word, freq in word_.items():
  word_freq.append((word, freq))

# 降序排列
word_freq.sort(key = lambda x:x[1], reverse = True)

#输出前3500个词汇
for i in range(3500):
  word, freq = word_freq[i]
  print('{0:10}{1:5}'.format(word, freq))

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
详解python进行mp3格式判断
Dec 23 Python
Python实现的排列组合计算操作示例
Oct 13 Python
详解Python 定时框架 Apscheduler原理及安装过程
Jun 14 Python
使用python将mysql数据库的数据转换为json数据的方法
Jul 01 Python
python命令 -u参数用法解析
Oct 24 Python
Python抓包程序mitmproxy安装和使用过程图解
Mar 02 Python
Python序列化pickle模块使用详解
Mar 05 Python
python GUI库图形界面开发之PyQt5信号与槽的高级使用技巧装饰器信号与槽详细使用方法与实例
Mar 06 Python
Python小白不正确的使用类变量实例
May 29 Python
Python 中如何写注释
Aug 28 Python
Python列表的深复制和浅复制示例详解
Feb 12 Python
python 学习GCN图卷积神经网络
May 11 Python
Python 转换RGB颜色值的示例代码
Oct 13 #Python
Django中自定义查询对象的具体使用
Oct 13 #Python
PyCharm导入python项目并配置虚拟环境的教程详解
Oct 13 #Python
Python 用三行代码提取PDF表格数据
Oct 13 #Python
Python3离线安装Requests模块问题
Oct 13 #Python
详解使用Python下载文件的几种方法
Oct 13 #Python
Python中输入和输出(打印)数据实例方法
Oct 13 #Python
You might like
PHP4之COOKIE支持详解
2006/10/09 PHP
用户的详细注册和判断
2006/10/09 PHP
php实现微信公众平台发红包功能
2018/06/14 PHP
Laravel5.4框架中视图共享数据的方法详解
2019/09/05 PHP
js判断浏览器的比较全的代码
2007/02/13 Javascript
Javascript 中的 && 和 || 使用小结
2010/04/25 Javascript
基于jQuery的前端数据通用验证库
2011/08/08 Javascript
jQuery向上遍历DOM树之parents(),parent(),closest()之间的区别
2013/12/02 Javascript
使用js检测浏览器是否支持html5中的video标签的方法
2014/03/12 Javascript
jQuery中outerWidth()方法用法实例
2015/01/19 Javascript
js控制网页前进和后退的方法
2015/06/08 Javascript
浅谈Javascript数组的使用
2015/07/29 Javascript
再谈Javascript中的基本类型和引用类型(推荐)
2016/07/01 Javascript
jQuery 3.0中存在问题及解决办法
2016/07/15 Javascript
使用DeviceOne实现微信小程序功能
2016/12/29 Javascript
vue2利用Bus.js如何实现非父子组件通信详解
2017/08/25 Javascript
Angular 4根据组件名称动态创建出组件的方法教程
2017/11/01 Javascript
JavaScript 跨域之POST实现方法
2018/05/07 Javascript
详解vue-cli脚手架中webpack配置方法
2018/08/22 Javascript
使用python调用浏览器并打开一个网址的例子
2014/06/05 Python
python调用摄像头显示图像的实例
2018/08/03 Python
详解python分布式进程
2018/10/08 Python
Python线程之定位与销毁的实现
2019/02/17 Python
Python如何应用cx_Oracle获取oracle中的clob字段问题
2019/08/27 Python
Keras实现支持masking的Flatten层代码
2020/06/16 Python
基于python实现操作git过程代码解析
2020/07/27 Python
HTML5实现Notification API桌面通知功能
2016/03/02 HTML / CSS
美国护肤咨询及美容产品电商:Askderm
2017/02/24 全球购物
ZWILLING双立人英国网上商店:德国刀具锅具厨具品牌
2018/05/15 全球购物
琳达·法罗眼镜英国官网:Linda Farrow英国
2021/01/19 全球购物
编写strcpy函数
2014/06/24 面试题
DTD的含义以及作用
2014/01/26 面试题
医学生实习自荐信
2013/10/01 职场文书
饭店工作计划书
2014/01/10 职场文书
2017寒假社会实践心得体会范文
2016/01/14 职场文书
《地。-关于地球的运动-》单行本第七集上市,小说家朝井辽献上期待又害怕的推荐文
2022/03/31 日漫