Python英文文章词频统计(14份剑桥真题词频统计)


Posted in Python onOctober 13, 2019

Python剑桥真题词频统计

最好还是要学以致用,自主搜集了19年最近的14份剑桥真题之后,通过Python提供的jieba第三方库,对所有的文章信息进行了词频统计,并选择性地剔除了部分简易词汇,比如数字,普通冠词等,博主较懒,未清楚干净。

Python代码如下:

import jieba
# 以只读方式打开text(即真题库)
text = open('text.txt', 'r', encoding = 'utf-8').read()
# len(text)

#统一为小写 
text = text.lower()

# 需要剔除的词汇列表,也可以用记事本的形式,添加一个打开记事本的语句即可
# 即 stwlist = [line.strip() for line in open 'stopwords.txt',encoding='utf-8').readlines()]
# 这里使用列表
stwlist = ['the','a','of','to','end','in','you','is','that','for','on','it','as','your','...','14',
      'this','or','20','40','27','30','13','21','26','10','15','22',
      '32','31','1','2','4','5','6','7','8','9','0','10','11','12','13',
      '12','13','15','16','17','25','33','35','36','18','23','19','24',
      '38','29','34','37','000','...............................']

# 先进行分词
words = jieba.cut(text, cut_all = False, HMM = True)
#cut_all:是否采用全模式
#HMM:是否采用HMM模型

word_ = {}
for word in words:
  if (word.strip() not in stwlist):
    if len(word) > 1:
      if word != '\t':
        if word != '\r\n':
 # 计算词频
          if word in word_:
            word_[word] += 1
          else:
            word_[word] = 1

# 将结果保存为元组
word_freq = []
for word, freq in word_.items():
  word_freq.append((word, freq))

# 降序排列
word_freq.sort(key = lambda x:x[1], reverse = True)

#输出前3500个词汇
for i in range(3500):
  word, freq = word_freq[i]
  print('{0:10}{1:5}'.format(word, freq))

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
在Mac OS系统上安装Python的Pillow库的教程
Nov 20 Python
Python selenium 三种等待方式解读
Sep 15 Python
itchat和matplotlib的结合使用爬取微信信息的实例
Aug 25 Python
python基础while循环及if判断的实例讲解
Aug 25 Python
基于Python pip用国内镜像下载的方法
Jun 12 Python
用Python将结果保存为xlsx的方法
Jan 28 Python
对Django中static(静态)文件详解以及{% static %}标签的使用方法
Jul 28 Python
在Django admin中编辑ManyToManyField的实现方法
Aug 09 Python
python实现多线程端口扫描
Aug 31 Python
基于python实现蓝牙通信代码实例
Nov 19 Python
python创建学生管理系统
Nov 22 Python
Python中logging日志的四个等级和使用
Nov 17 Python
Python 转换RGB颜色值的示例代码
Oct 13 #Python
Django中自定义查询对象的具体使用
Oct 13 #Python
PyCharm导入python项目并配置虚拟环境的教程详解
Oct 13 #Python
Python 用三行代码提取PDF表格数据
Oct 13 #Python
Python3离线安装Requests模块问题
Oct 13 #Python
详解使用Python下载文件的几种方法
Oct 13 #Python
Python中输入和输出(打印)数据实例方法
Oct 13 #Python
You might like
php 静态变量的初始化
2009/11/15 PHP
PHP开发中四种查询返回结果分析
2011/01/02 PHP
介绍一些PHP判断变量的函数
2012/04/24 PHP
Erlang的运算符(比较运算符,数值运算符,移位运算符,逻辑运算符)
2012/07/23 PHP
PHP遍历数组的三种方法及效率对比分析
2015/02/12 PHP
Extjs学习笔记之四 工具栏和菜单
2010/01/07 Javascript
使用SyntaxHighlighter实现HTML高亮显示代码的方法
2010/02/04 Javascript
Javascript图像处理—为矩阵添加常用方法
2012/12/27 Javascript
js调用webservice中的方法实现思路及代码
2013/02/25 Javascript
js判断两个日期是否相等的方法
2013/09/10 Javascript
异步动态加载js与css文件的js代码
2013/09/15 Javascript
深入理解js数组的sort排序
2016/05/28 Javascript
Vue2.x中的Render函数详解
2017/05/30 Javascript
JavaScript实现简单评论功能
2017/08/17 Javascript
vue+springboot前后端分离实现单点登录跨域问题解决方法
2018/01/30 Javascript
谈谈IntersectionObserver懒加载的具体使用
2019/10/15 Javascript
vuex actions异步修改状态的实例详解
2019/11/06 Javascript
Vue Element校验validate的实例
2020/09/21 Javascript
原生js实现自定义滚动条组件
2021/01/20 Javascript
Python中字符串的修改及传参详解
2016/11/30 Python
Python实现PS滤镜的万花筒效果示例
2018/01/23 Python
浅谈Python里面小数点精度的控制
2018/07/16 Python
Windows 8.1 64bit下搭建 Scrapy 0.22 环境
2018/11/18 Python
Python实现对特定列表进行从小到大排序操作示例
2019/02/11 Python
python使用mitmproxy抓取浏览器请求的方法
2019/07/02 Python
python 实现return返回多个值
2019/11/19 Python
关于tensorflow softmax函数用法解析
2020/06/30 Python
Famous Footwear加拿大:美国多品牌运动休闲鞋店
2018/12/05 全球购物
我有一个char * 型指针正巧指向一些int 型变量, 我想跳过它们。 为什么如下的代码((int *)p)++; 不行?
2013/05/09 面试题
python+selenium小米商城红米K40手机自动抢购的示例代码
2021/03/24 Python
咖啡蛋糕店创业计划书
2014/01/28 职场文书
《鱼游到了纸上》教学反思
2014/02/20 职场文书
品质管理部岗位职责范文
2014/03/01 职场文书
2015年大学班长个人工作总结
2015/04/24 职场文书
2020年个人安全保证书参考模板
2020/01/08 职场文书
详解Spring Security中的HttpBasic登录验证模式
2022/03/17 Java/Android