Python找出文件中使用率最高的汉字实例详解


Posted in Python onJune 03, 2015

本文实例讲述了Python找出文件中使用率最高的汉字的方法。分享给大家供大家参考。具体分析如下:

这是我初学Python时写的,为了简便,我并没在排序完后再去掉非中文字符,稍微会影响性能(大约增加了25%的时间)。

# -*- coding: gbk -*- 
import codecs 
from time import time 
from operator import itemgetter 
def top_words(filename, size=10, encoding='gbk'): 
  count = {} 
  for line in codecs.open(filename, 'r', encoding): 
    for word in line: 
      if u'\u4E00' <= word <= u'\u9FA5' or u'\uF900' <= word <= u'\uFA2D': 
        count[word] = 1 + count.get(word, 0) 
  top_words = sorted(count.iteritems(), key=itemgetter(1), reverse=True)[:size] 
  print '\n'.join([u'%s : %s次' % (word, times) for word, times in top_words]) 
begin = time() 
top_words('空之境界.txt') 
print '一共耗时 : %s秒' % (time()-begin)

如果想用上新方法,以及让join的可读性更高的话,这样也是可以的:

# -*- coding: gbk -*- 
import codecs 
from time import time 
from operator import itemgetter 
from heapq import nlargest 
def top_words(filename, size=10, encoding='gbk'): 
  count = {} 
  for line in codecs.open(filename, 'r', encoding): 
    for word in line: 
      if u'\u4E00' <= word <= u'\u9FA5' or u'\uF900' <= word <= u'\uFA2D': 
        count[word] = 1 + count.get(word, 0) 
  top_words = nlargest(size, count.iteritems(), key=itemgetter(1)) 
  for word, times in top_words: 
    print u'%s : %s次' % (word, times) 
begin = time() 
top_words('空之境界.txt') 
print '一共耗时 : %s秒' % (time()-begin)

或者让行数更少(好?宓牧斜碜酆希??/p>

# -*- coding: gbk -*- 
import codecs 
from time import time 
from operator import itemgetter 
def top_words(filename, size=10, encoding='gbk'): 
  count = {} 
  for word in [word for word in codecs.open(filename, 'r', encoding).read() if u'\u4E00' <= word <= u'\u9FA5' or u'\uF900' <= word <= u'\uFA2D']: 
    count[word] = 1 + count.get(word, 0) 
  top_words = sorted(count.iteritems(), key=itemgetter(1), reverse=True)[:size] 
  print '\n'.join([u'%s : %s次' % (word, times) for word, times in top_words]) 
begin = time() 
top_words('空之境界.txt') 
print '一共耗时 : %s秒' % (time()-begin)

此外还可以引入with语句,这样只需一行就能获得异常安全性。
3者性能几乎一样,结果如下:

的 : 17533次
是 : 8581次
不 : 6375次
我 : 6168次
了 : 5586次
一 : 5197次
这 : 4394次
在 : 4264次
有 : 4188次
人 : 4025次
一共耗时 : 0.5秒

引入psyco模块的成绩:

的 : 17533次
是 : 8581次
不 : 6375次
我 : 6168次
了 : 5586次
一 : 5197次
这 : 4394次
在 : 4264次
有 : 4188次
人 : 4025次
一共耗时 : 0.280999898911秒

 

注:测试文件为778KB的GBK编码,40余万字。

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python编程中的文件读写及相关的文件对象方法讲解
Jan 19 Python
启动targetcli时遇到错误解决办法
Oct 26 Python
LRUCache的实现原理及利用python实现的方法
Nov 21 Python
TensorFlow入门使用 tf.train.Saver()保存模型
Apr 24 Python
Python使用crontab模块设置和清除定时任务操作详解
Apr 09 Python
使用Python和Scribus创建一个RGB立方体的方法
Jul 17 Python
python读写csv文件的方法
Aug 13 Python
Python使用random模块生成随机数操作实例详解
Sep 17 Python
python GUI库图形界面开发之PyQt5结合Qt Designer创建信号与槽的详细方法与实例
Mar 08 Python
Python列表去重复项的N种方法(实例代码)
May 12 Python
Python从文件中读取数据的方法步骤
Nov 18 Python
python可视化大屏库big_screen示例详解
Nov 23 Python
Python实现Windows上气泡提醒效果的方法
Jun 03 #Python
Python捕捉和模拟鼠标事件的方法
Jun 03 #Python
Python while、for、生成器、列表推导等语句的执行效率测试
Jun 03 #Python
Python fileinput模块使用实例
Jun 03 #Python
以windows service方式运行Python程序的方法
Jun 03 #Python
自己编程中遇到的Python错误和解决方法汇总整理
Jun 03 #Python
python中list常用操作实例详解
Jun 03 #Python
You might like
PHP 模板高级篇总结
2006/12/21 PHP
一个PHP分页类的代码
2011/05/18 PHP
PHP不用递归遍历目录下所有文件的代码
2014/07/04 PHP
ThinkPHP中使用Ueditor富文本编辑器
2015/09/02 PHP
我见过最全的个人js加解密功能页面
2007/12/12 Javascript
jquery remove方法应用详解
2012/11/22 Javascript
JS判断两个时间大小的示例代码
2014/01/28 Javascript
使用typeof方法判断undefined类型
2014/09/09 Javascript
JS实现文字向下滚动完整实例
2015/02/06 Javascript
jquery实现定时自动轮播特效
2015/12/10 Javascript
微信小程序 教程之小程序配置
2016/10/17 Javascript
javascript基础练习之翻转字符串与回文
2017/02/20 Javascript
nodejs6下使用koa2框架实例
2017/05/18 NodeJs
AngularJS 中的数据源的循环输出
2017/10/12 Javascript
node.js中stream流中可读流和可写流的实现与使用方法实例分析
2020/02/13 Javascript
JS如何生成动态列表
2020/09/22 Javascript
原生js拖拽功能制作滑动条实例代码
2021/02/05 Javascript
Python中使用partial改变方法默认参数实例
2015/04/28 Python
解决python中遇到字典里key值为None的情况,取不出来的问题
2018/10/17 Python
解决python中 f.write写入中文出错的问题
2018/10/31 Python
Django框架视图函数设计示例
2019/07/29 Python
Pytorch 实现focal_loss 多类别和二分类示例
2020/01/14 Python
Python+PyQt5实现灭霸响指功能
2020/05/25 Python
pycharm激活方法到2099年(激活流程)
2020/09/22 Python
10个python爬虫入门实例(小结)
2020/11/01 Python
Django多数据库联用实现方法解析
2020/11/12 Python
英国家用电器购物网站:Hughes
2018/02/23 全球购物
迎八一活动主题
2014/01/31 职场文书
庆祝教师节活动方案
2014/01/31 职场文书
公证书标准格式
2014/04/10 职场文书
群众路线自查自纠工作情况报告
2014/10/28 职场文书
家长反馈意见及建议
2015/06/03 职场文书
2015年第31个教师节致辞
2015/07/31 职场文书
高中生物教学反思
2016/02/20 职场文书
如何写一份成功的商业计划书
2019/06/25 职场文书
python turtle绘图
2022/05/04 Python