Python英文文章词频统计(14份剑桥真题词频统计)


Posted in Python onOctober 13, 2019

Python剑桥真题词频统计

最好还是要学以致用,自主搜集了19年最近的14份剑桥真题之后,通过Python提供的jieba第三方库,对所有的文章信息进行了词频统计,并选择性地剔除了部分简易词汇,比如数字,普通冠词等,博主较懒,未清楚干净。

Python代码如下:

import jieba
# 以只读方式打开text(即真题库)
text = open('text.txt', 'r', encoding = 'utf-8').read()
# len(text)

#统一为小写 
text = text.lower()

# 需要剔除的词汇列表,也可以用记事本的形式,添加一个打开记事本的语句即可
# 即 stwlist = [line.strip() for line in open 'stopwords.txt',encoding='utf-8').readlines()]
# 这里使用列表
stwlist = ['the','a','of','to','end','in','you','is','that','for','on','it','as','your','...','14',
      'this','or','20','40','27','30','13','21','26','10','15','22',
      '32','31','1','2','4','5','6','7','8','9','0','10','11','12','13',
      '12','13','15','16','17','25','33','35','36','18','23','19','24',
      '38','29','34','37','000','...............................']

# 先进行分词
words = jieba.cut(text, cut_all = False, HMM = True)
#cut_all:是否采用全模式
#HMM:是否采用HMM模型

word_ = {}
for word in words:
  if (word.strip() not in stwlist):
    if len(word) > 1:
      if word != '\t':
        if word != '\r\n':
 # 计算词频
          if word in word_:
            word_[word] += 1
          else:
            word_[word] = 1

# 将结果保存为元组
word_freq = []
for word, freq in word_.items():
  word_freq.append((word, freq))

# 降序排列
word_freq.sort(key = lambda x:x[1], reverse = True)

#输出前3500个词汇
for i in range(3500):
  word, freq = word_freq[i]
  print('{0:10}{1:5}'.format(word, freq))

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python使用百度翻译进行中翻英示例
Apr 14 Python
python多线程操作实例
Nov 21 Python
Python 操作MySQL详解及实例
Apr 30 Python
Python实现获取命令行输出结果的方法
Jun 10 Python
使用pygame模块编写贪吃蛇的实例讲解
Feb 05 Python
python增加矩阵维度的实例讲解
Apr 04 Python
基于python 爬虫爬到含空格的url的处理方法
May 11 Python
python 实现A*算法的示例代码
Aug 13 Python
python实现简单http服务器功能
Sep 17 Python
python 检查是否为中文字符串的方法
Dec 28 Python
Python3 批量扫描端口的例子
Jul 25 Python
Python实现信息轰炸工具(再也不怕说不过别人了)
Jun 11 Python
Python 转换RGB颜色值的示例代码
Oct 13 #Python
Django中自定义查询对象的具体使用
Oct 13 #Python
PyCharm导入python项目并配置虚拟环境的教程详解
Oct 13 #Python
Python 用三行代码提取PDF表格数据
Oct 13 #Python
Python3离线安装Requests模块问题
Oct 13 #Python
详解使用Python下载文件的几种方法
Oct 13 #Python
Python中输入和输出(打印)数据实例方法
Oct 13 #Python
You might like
PHP中3种生成XML文件方法的速度效率比较
2012/10/06 PHP
php中unlink()、mkdir()、rmdir()等方法的使用介绍
2012/12/21 PHP
手把手教你打印出PDF(关于fpdf的简单应用)
2013/06/25 PHP
PHP实现根据银行卡号判断银行
2015/04/29 PHP
PHP与服务器文件系统的简单交互
2016/10/21 PHP
Jquery上传插件 uploadify v3.1使用说明
2012/06/18 Javascript
node.js [superAgent] 请求使用示例
2015/03/13 Javascript
js/jquery判断浏览器类型的方法小结
2015/05/12 Javascript
jQuery Mobile动态刷新页面样式的实现方法
2016/05/28 Javascript
jQuery实现导航滚动到指定内容效果完整实例【附demo源码下载】
2016/09/20 Javascript
JS匿名函数类生成方式实例分析
2016/11/26 Javascript
vue-hook-form使用详解
2017/04/07 Javascript
js 只比较时间大小的实例
2017/10/26 Javascript
初识 Vue.js 中的 *.Vue文件
2017/11/22 Javascript
详解React项目的服务端渲染改造(koa2+webpack3.11)
2018/03/19 Javascript
vue中使用heatmapjs的示例代码(结合百度地图)
2018/09/05 Javascript
微信小程序与后台PHP交互的方法实例分析
2018/12/10 Javascript
vue实现瀑布流组件滑动加载更多
2020/03/10 Javascript
vue+springboot+element+vue-resource实现文件上传教程
2020/10/21 Javascript
原生js实现滑块区间组件
2021/01/20 Javascript
python实现绘制树枝简单示例
2014/07/24 Python
python扫描proxy并获取可用代理ip的实例
2017/08/07 Python
Python排序搜索基本算法之堆排序实例详解
2017/12/08 Python
Python模拟脉冲星伪信号频率实例代码
2018/01/03 Python
django将图片上传数据库后在前端显式的方法
2018/05/25 Python
Python3使用pandas模块读写excel操作示例
2018/07/03 Python
英国现代、当代和设计师家具店:Furntastic
2020/07/18 全球购物
新浪网技术部笔试题
2016/08/26 面试题
专科毕业生自我鉴定
2013/12/01 职场文书
毕业寄语大全
2014/04/09 职场文书
学期评语大全
2014/04/30 职场文书
2014年科室工作总结
2014/11/20 职场文书
2014年政协委员工作总结
2014/12/01 职场文书
新郎答谢词
2015/01/04 职场文书
win11系统中dhcp服务异常什么意思? Win11 DHCP服务异常修复方法
2022/04/08 数码科技
python 使用pandas读取csv文件的方法
2022/12/24 Python