python统计文章中单词出现次数实例


Posted in Python onFebruary 27, 2020

python统计单词出现次数

做单词词频统计,用字典无疑是最合适的数据类型,单词作为字典的key, 单词出现的次数作为字典的 value,很方便地就记录好了每个单词的频率,字典很像我们的电话本,每个名字关联一个电话号码。

下面是具体的实现代码,实现了从importthis.txt文件读取单词,并统计出现次数最多的5个单词。

# -*- coding:utf-8 -*-
import io
import re
 
class Counter:
  def __init__(self, path):
    """
    :param path: 文件路径
    """
    self.mapping = dict()
    with io.open(path, encoding="utf-8") as f:
      data = f.read()
      words = [s.lower() for s in re.findall("\w+", data)]
      for word in words:
        self.mapping[word] = self.mapping.get(word, 0) + 1
 
  def most_common(self, n):
    assert n > 0, "n should be large than 0"
    return sorted(self.mapping.items(), key=lambda item: item[1], reverse=True)[:n]
 
if __name__ == '__main__':
  most_common_5 = Counter("importthis.txt").most_common(5)
  for item in most_common_5:
    print(item)

执行效果:

('is', 10)
('better', 8)
('than', 8)
('the', 6)
('to', 5)

知识点补充

1、如何正确读写文件

2、如何对数据进行排序

3、字典数据类型的运用

4、正则表达式的运用

到此这篇关于python统计文章中单词出现次数实例的文章就介绍到这了,更多相关python统计单词出现次数内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
王纯业的Python学习笔记 下载
Feb 10 Python
python测试驱动开发实例
Oct 08 Python
python使用arp欺骗伪造网关的方法
Apr 24 Python
在Python中使用第三方模块的教程
Apr 27 Python
在Python的web框架中配置app的教程
Apr 30 Python
Python3读取文件常用方法实例分析
May 22 Python
pyenv命令管理多个Python版本
Mar 26 Python
spyder常用快捷键(分享)
Jul 19 Python
kaggle+mnist实现手写字体识别
Jul 26 Python
python多线程并发及测试框架案例
Oct 15 Python
Python识别验证码的实现示例
Sep 30 Python
Python使用MapReduce进行简单的销售统计
Apr 22 Python
python GUI库图形界面开发之PyQt5打开保存对话框QFileDialog详细使用方法与实例
Feb 27 #Python
python GUI库图形界面开发之PyQt5输入对话框QInputDialog详细使用方法与实例
Feb 27 #Python
python GUI库图形界面开发之PyQt5单行文本框控件QLineEdit详细使用方法与实例
Feb 27 #Python
Python如何使用OS模块调用cmd
Feb 27 #Python
python之生成多层json结构的实现
Feb 27 #Python
Python查找不限层级Json数据中某个key或者value的路径方式
Feb 27 #Python
python GUI库图形界面开发之PyQt5窗口布局控件QStackedWidget详细使用方法
Feb 27 #Python
You might like
Zend Framework入门之环境配置及第一个Hello World示例(附demo源码下载)
2016/03/21 PHP
PHP实现根据密码长度显示安全条
2017/07/04 PHP
php制作圆形用户头像的实例_自定义封装类源代码
2017/09/18 PHP
PHP实现的DES加密解密类定义与用法示例
2020/11/02 PHP
PHP实现读取文件夹及批量重命名文件操作示例
2019/04/15 PHP
srcElement表格样式
2006/09/03 Javascript
Javascript实例教程(19) 使用HoTMetal(1)
2006/12/23 Javascript
静态的动态续篇之来点XML
2006/12/23 Javascript
js+FSO遍历文件夹下文件并显示
2007/03/07 Javascript
JS实现两表格里数据来回转移的方法
2015/05/28 Javascript
jQuery easyui的validatebox校验规则扩展及easyui校验框validatebox用法
2016/01/18 Javascript
实例讲解JS中setTimeout()的用法
2016/01/28 Javascript
JS 对象(Object)和字符串(String)互转方法
2016/05/20 Javascript
Angularjs 自定义服务的三种方式(推荐)
2016/08/02 Javascript
详解闭包解决jQuery中AJAX的外部变量问题
2017/02/22 Javascript
关于foreach循环中遇到的问题小结
2017/05/08 Javascript
mui开发中获取单选按钮、复选框的值(实例讲解)
2017/07/24 Javascript
javascript使用链接跨域下载图片
2019/11/01 Javascript
js轮播图之旋转木马效果
2020/10/13 Javascript
JS实现超级好看的鼠标小尾巴特效
2020/12/01 Javascript
[01:25]2015国际邀请赛最佳短片奖——斧王《拆塔英雄:天赋异禀》
2015/09/22 DOTA
python时间整形转标准格式的示例分享
2014/02/14 Python
python实现在windows下操作word的方法
2015/04/28 Python
python3实现读取chrome浏览器cookie
2016/06/19 Python
python 获取网页编码方式实现代码
2017/03/11 Python
从运行效率与开发效率比较Python和C++
2018/12/14 Python
在Qt中正确的设置窗体的背景图片的几种方法总结
2019/06/19 Python
安装pyinstaller遇到的各种问题(小结)
2020/11/20 Python
Python 转移文件至云对象存储的方法
2021/02/07 Python
《玩具柜台前的孩子》教学反思
2014/02/13 职场文书
研讨会主持词
2014/04/02 职场文书
股份转让协议书
2014/04/12 职场文书
优秀员工推荐材料
2014/12/20 职场文书
2015年学校党建工作总结
2015/05/19 职场文书
2016班级元旦联欢会开幕词
2016/03/04 职场文书
mongodb清除连接和日志的正确方法分享
2021/09/15 MongoDB