Python3处理文件中每个词的方法


Posted in Python onMay 22, 2015

本文实例讲述了Python3处理文件中每个词的方法。分享给大家供大家参考。具体实现方法如下:

''''' 
Created on Dec 21, 2012 
处理文件中的每个词 
@author: liury_lab 
''' 
import codecs 
the_file = codecs.open('d:/text.txt', 'rU', 'UTF-8') 
for line in the_file: 
  for word in line.split(): 
    print(word, end = "|") 
the_file.close() 
# 若词的定义有变,可使用正则表达式 
# 如词被定义为数字字母,连字符或单引号构成的序列 
import re 
the_file = codecs.open('d:/text.txt', 'rU', 'UTF-8') 
print() 
print('************************************************************************') 
re_word = re.compile('[\w\'-]+') 
for line in the_file: 
  for word in re_word.finditer(line): 
    print(word.group(0), end = "|") 
the_file.close() 
# 封装成迭代器 
def words_of_file(file_path, line_to_words = str.split): 
  the_file = codecs.open('d:/text.txt', 'rU', 'UTF-8') 
  for line in the_file: 
    for word in line_to_words(line): 
      yield word 
  the_file.close() 
print() 
print('************************************************************************') 
for word in words_of_file('d:/text.txt'): 
  print(word, end = '|') 
def words_by_re(file_path, repattern = '[\w\'-]+'): 
  the_file = codecs.open('d:/text.txt', 'rU', 'UTF-8') 
  re_word = re.compile('[\w\'-]+') 
 
  def line_to_words(line): 
    for mo in re_word.finditer(line): 
      yield mo.group(0) # 原书为return,发现结果不对,改为yield 
  return words_of_file(file_path, line_to_words) 
print() 
print('************************************************************************') 
for word in words_by_re('d:/text.txt'): 
  print(word, end = '|')

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
python实现爬虫下载美女图片
Jul 14 Python
Python3字符串学习教程
Aug 20 Python
python批量替换页眉页脚实例代码
Jan 22 Python
利用Python进行数据可视化常见的9种方法!超实用!
Jul 11 Python
python matplotlib画图库学习绘制常用的图
Mar 19 Python
python opencv捕获摄像头并显示内容的实现
Jul 11 Python
django认证系统实现自定义权限管理的方法
Aug 28 Python
python随机模块random使用方法详解
Feb 14 Python
Python无损压缩图片的示例代码
Aug 06 Python
PyCharm vs VSCode,作为python开发者,你更倾向哪种IDE呢?
Aug 17 Python
python - asyncio异步编程
Apr 06 Python
Python图像处理之图像拼接
Apr 28 Python
Python3读取UTF-8文件及统计文件行数的方法
May 22 #Python
在Python中操作时间之mktime()方法的使用教程
May 22 #Python
Python中的localtime()方法使用详解
May 22 #Python
在Python中操作日期和时间之gmtime()方法的使用
May 22 #Python
Python中的ctime()方法使用教程
May 22 #Python
Python3实现从文件中读取指定行的方法
May 22 #Python
Python3搜索及替换文件中文本的方法
May 22 #Python
You might like
php adodb连接mssql解决乱码问题
2009/06/12 PHP
PHP 时间日期操作实战
2011/08/26 PHP
php根据分类合并数组的方法实例详解
2013/11/06 PHP
浅谈thinkphp的实例化模型
2015/01/04 PHP
PHP+Ajax实现无刷新分页实例详解(附demo源码下载)
2016/04/07 PHP
javascript实现的基于金山词霸网络翻译的代码
2010/01/15 Javascript
jquery学习笔记二 实现可编辑的表格
2010/04/09 Javascript
关于JavaScript定义类和对象的几种方式
2010/11/09 Javascript
javascript编码的几个方法详细介绍
2013/01/06 Javascript
使用javascript实现ListBox左右全选,单选,多选,全请
2013/11/07 Javascript
js+html5实现canvas绘制圆形图案的方法
2015/06/05 Javascript
js实现简单折叠、展开菜单的方法
2015/08/28 Javascript
半个小时学json(json传递示例)
2016/12/25 Javascript
JS+DIV实现的卷帘效果示例
2017/03/22 Javascript
微信小程序 判断手机号的实现代码
2017/04/19 Javascript
基于vue.js的分页插件详解
2017/11/27 Javascript
微信小程序基于本地缓存实现点赞功能的方法
2017/12/18 Javascript
使用Object.defineProperty如何巧妙找到修改某个变量的准确代码位置
2018/11/02 Javascript
使用原生javascript开发计算器实例代码
2021/02/21 Javascript
[03:15]DOTA2-DPC中国联赛1月22日Recap集锦
2021/03/11 DOTA
Python中规范定义命名空间的一些建议
2016/06/04 Python
Python绘制七段数码管实例代码
2017/12/20 Python
基于python实现的百度音乐下载器python pyqt改进版(附代码)
2019/08/05 Python
Pytorch抽取网络层的Feature Map(Vgg)实例
2019/08/20 Python
python内置模块collections知识点总结
2019/12/19 Python
Python反爬虫伪装浏览器进行爬虫
2020/02/28 Python
Python-jenkins模块获取jobs的执行状态操作
2020/05/12 Python
什么是数据抽象
2016/11/26 面试题
公司年会抽奖活动主持词
2014/03/31 职场文书
班主任寄语大全
2014/04/04 职场文书
董事长助理岗位职责
2015/02/11 职场文书
中学教师师德师风承诺书
2015/04/28 职场文书
关于国庆节的广播稿
2015/08/19 职场文书
2019同学聚会主持词
2019/05/06 职场文书
Spring Boot mybatis-config 和 log4j 输出sql 日志的方式
2021/07/26 Java/Android
SpringBoot Http远程调用的方法
2022/08/14 Java/Android