编程 Python

Python英文文章词频统计(14份剑桥真题词频统计)

Posted in Python onOctober 13, 2019

Python剑桥真题词频统计

最好还是要学以致用，自主搜集了19年最近的14份剑桥真题之后，通过Python提供的jieba第三方库，对所有的文章信息进行了词频统计，并选择性地剔除了部分简易词汇，比如数字，普通冠词等，博主较懒，未清楚干净。

Python代码如下：

import jieba
# 以只读方式打开text（即真题库）
text = open('text.txt', 'r', encoding = 'utf-8').read()
# len(text)

#统一为小写 
text = text.lower()

# 需要剔除的词汇列表，也可以用记事本的形式，添加一个打开记事本的语句即可
# 即 stwlist = [line.strip() for line in open 'stopwords.txt',encoding='utf-8').readlines()]
# 这里使用列表
stwlist = ['the','a','of','to','end','in','you','is','that','for','on','it','as','your','...','14',
      'this','or','20','40','27','30','13','21','26','10','15','22',
      '32','31','1','2','4','5','6','7','8','9','0','10','11','12','13',
      '12','13','15','16','17','25','33','35','36','18','23','19','24',
      '38','29','34','37','000','...............................']

# 先进行分词
words = jieba.cut(text, cut_all = False, HMM = True)
#cut_all:是否采用全模式
#HMM：是否采用HMM模型

word_ = {}
for word in words:
  if (word.strip() not in stwlist):
    if len(word) > 1:
      if word != '\t':
        if word != '\r\n':
 # 计算词频
          if word in word_:
            word_[word] += 1
          else:
            word_[word] = 1

# 将结果保存为元组
word_freq = []
for word, freq in word_.items():
  word_freq.append((word, freq))

# 降序排列
word_freq.sort(key = lambda x:x[1], reverse = True)

#输出前3500个词汇
for i in range(3500):
  word, freq = word_freq[i]
  print('{0:10}{1:5}'.format(word, freq))

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python英文文章词频统计(14份剑桥真题词频统计)

- Author -

予微胡不归

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

在Mac OS系统上安装Python的Pillow库的教程

Nov 20 Python

Python selenium 三种等待方式解读

Sep 15 Python

itchat和matplotlib的结合使用爬取微信信息的实例

Aug 25 Python

python基础while循环及if判断的实例讲解

Aug 25 Python

基于Python pip用国内镜像下载的方法

Jun 12 Python

用Python将结果保存为xlsx的方法

Jan 28 Python

对Django中static(静态)文件详解以及{% static %}标签的使用方法

Jul 28 Python

在Django admin中编辑ManyToManyField的实现方法

Aug 09 Python

python实现多线程端口扫描

Aug 31 Python

基于python实现蓝牙通信代码实例

Nov 19 Python

python创建学生管理系统

Nov 22 Python

Python中logging日志的四个等级和使用

Nov 17 Python

Python 转换RGB颜色值的示例代码

Oct 13 #Python

Django中自定义查询对象的具体使用

Oct 13 #Python

PyCharm导入python项目并配置虚拟环境的教程详解

Oct 13 #Python

Python 用三行代码提取PDF表格数据

Oct 13 #Python

Python3离线安装Requests模块问题

Oct 13 #Python

详解使用Python下载文件的几种方法

Oct 13 #Python

Python中输入和输出（打印）数据实例方法

Oct 13 #Python

You might like

php 静态变量的初始化

2009/11/15 PHP

PHP开发中四种查询返回结果分析

2011/01/02 PHP

介绍一些PHP判断变量的函数

2012/04/24 PHP

Erlang的运算符(比较运算符,数值运算符,移位运算符,逻辑运算符)

2012/07/23 PHP

PHP遍历数组的三种方法及效率对比分析

2015/02/12 PHP

Extjs学习笔记之四工具栏和菜单

2010/01/07 Javascript

使用SyntaxHighlighter实现HTML高亮显示代码的方法

2010/02/04 Javascript

Javascript图像处理—为矩阵添加常用方法

2012/12/27 Javascript

js调用webservice中的方法实现思路及代码

2013/02/25 Javascript

js判断两个日期是否相等的方法

2013/09/10 Javascript

异步动态加载js与css文件的js代码

2013/09/15 Javascript

深入理解js数组的sort排序

2016/05/28 Javascript

Vue2.x中的Render函数详解

2017/05/30 Javascript

JavaScript实现简单评论功能

2017/08/17 Javascript

vue+springboot前后端分离实现单点登录跨域问题解决方法

2018/01/30 Javascript

谈谈IntersectionObserver懒加载的具体使用

2019/10/15 Javascript

vuex actions异步修改状态的实例详解

2019/11/06 Javascript

Vue Element校验validate的实例

2020/09/21 Javascript

原生js实现自定义滚动条组件

2021/01/20 Javascript

Python中字符串的修改及传参详解

2016/11/30 Python

Python实现PS滤镜的万花筒效果示例

2018/01/23 Python

浅谈Python里面小数点精度的控制

2018/07/16 Python

Windows 8.1 64bit下搭建 Scrapy 0.22 环境

2018/11/18 Python

Python实现对特定列表进行从小到大排序操作示例

2019/02/11 Python

python使用mitmproxy抓取浏览器请求的方法

2019/07/02 Python

python 实现return返回多个值

2019/11/19 Python

关于tensorflow softmax函数用法解析

2020/06/30 Python

Famous Footwear加拿大：美国多品牌运动休闲鞋店

2018/12/05 全球购物

我有一个char * 型指针正巧指向一些int 型变量, 我想跳过它们。为什么如下的代码((int *)p)++; 不行？

2013/05/09 面试题

python+selenium小米商城红米K40手机自动抢购的示例代码

2021/03/24 Python

咖啡蛋糕店创业计划书

2014/01/28 职场文书

《鱼游到了纸上》教学反思

2014/02/20 职场文书

品质管理部岗位职责范文

2014/03/01 职场文书

2015年大学班长个人工作总结

2015/04/24 职场文书

2020年个人安全保证书参考模板

2020/01/08 职场文书

详解Spring Security中的HttpBasic登录验证模式

2022/03/17 Java/Android