Python3处理文件中每个词的方法


Posted in Python onMay 22, 2015

本文实例讲述了Python3处理文件中每个词的方法。分享给大家供大家参考。具体实现方法如下:

''''' 
Created on Dec 21, 2012 
处理文件中的每个词 
@author: liury_lab 
''' 
import codecs 
the_file = codecs.open('d:/text.txt', 'rU', 'UTF-8') 
for line in the_file: 
  for word in line.split(): 
    print(word, end = "|") 
the_file.close() 
# 若词的定义有变,可使用正则表达式 
# 如词被定义为数字字母,连字符或单引号构成的序列 
import re 
the_file = codecs.open('d:/text.txt', 'rU', 'UTF-8') 
print() 
print('************************************************************************') 
re_word = re.compile('[\w\'-]+') 
for line in the_file: 
  for word in re_word.finditer(line): 
    print(word.group(0), end = "|") 
the_file.close() 
# 封装成迭代器 
def words_of_file(file_path, line_to_words = str.split): 
  the_file = codecs.open('d:/text.txt', 'rU', 'UTF-8') 
  for line in the_file: 
    for word in line_to_words(line): 
      yield word 
  the_file.close() 
print() 
print('************************************************************************') 
for word in words_of_file('d:/text.txt'): 
  print(word, end = '|') 
def words_by_re(file_path, repattern = '[\w\'-]+'): 
  the_file = codecs.open('d:/text.txt', 'rU', 'UTF-8') 
  re_word = re.compile('[\w\'-]+') 
 
  def line_to_words(line): 
    for mo in re_word.finditer(line): 
      yield mo.group(0) # 原书为return,发现结果不对,改为yield 
  return words_of_file(file_path, line_to_words) 
print() 
print('************************************************************************') 
for word in words_by_re('d:/text.txt'): 
  print(word, end = '|')

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
深入理解Python 代码优化详解
Oct 27 Python
PyQt5每天必学之事件与信号
Apr 20 Python
python中多层嵌套列表的拆分方法
Jul 02 Python
Python 获取中文字拼音首个字母的方法
Nov 28 Python
Python正则表达式和元字符详解
Nov 29 Python
利用nohup来开启python文件的方法
Jan 14 Python
Python生成器的使用方法和示例代码
Mar 04 Python
使用Python进行体育竞技分析(预测球队成绩)
May 16 Python
详解PyCharm安装MicroPython插件的教程
Jun 24 Python
Python中遍历列表的方法总结
Jun 27 Python
Python 脚本拉取 Docker 镜像问题
Nov 10 Python
python selenium自动化测试框架搭建的方法步骤
Jun 14 Python
Python3读取UTF-8文件及统计文件行数的方法
May 22 #Python
在Python中操作时间之mktime()方法的使用教程
May 22 #Python
Python中的localtime()方法使用详解
May 22 #Python
在Python中操作日期和时间之gmtime()方法的使用
May 22 #Python
Python中的ctime()方法使用教程
May 22 #Python
Python3实现从文件中读取指定行的方法
May 22 #Python
Python3搜索及替换文件中文本的方法
May 22 #Python
You might like
VFP与其他应用程序的集成
2006/10/09 PHP
PHP脚本的10个技巧(4)
2006/10/09 PHP
关于mysql字符集设置了character_set_client=binary 在gbk情况下会出现表描述是乱码的情况
2013/01/06 PHP
PHP获取数组中某元素的位置及array_keys函数应用
2013/01/29 PHP
php+mysqli实现批量执行插入、更新及删除数据的方法
2015/01/29 PHP
php项目中百度 UEditor 简单安装调试和调用
2015/07/15 PHP
PHP Cookie学习笔记
2016/08/23 PHP
php array_map()函数实例用法
2021/03/03 PHP
Prototype 学习 工具函数学习($方法)
2009/07/12 Javascript
FileUpload 控件 禁止手动输入或粘贴的实现代码
2010/04/07 Javascript
cnblogs中在闪存中屏蔽某人的实现代码
2010/11/14 Javascript
含有CKEditor的表单如何提交
2014/01/09 Javascript
网页运行时提示对象不支持abigimage属性或方法
2014/08/10 Javascript
JavaScript中textRange对象使用方法小结
2015/03/24 Javascript
javascript白色简洁计算器
2015/05/04 Javascript
JavaScript实现仿新浪微博大厅和腾讯微博首页滚动特效源码
2015/09/15 Javascript
jQuery Ajax 全局调用封装实例代码详解
2016/06/02 Javascript
jQuery实现的表格展开伸缩效果实例
2016/09/07 Javascript
2种简单的js倒计时方式
2017/10/20 Javascript
js实现图片粘贴上传到服务器并展示的实例
2017/11/08 Javascript
详解vue-cli之webpack3构建全面提速优化
2017/12/25 Javascript
Vue多种方法实现表头和首列固定的示例代码
2018/02/02 Javascript
vue-cli脚手架config目录下index.js配置文件的方法
2018/03/13 Javascript
Angular动态绑定样式及改变UI框架样式的方法小结
2018/09/03 Javascript
通过js实现压缩图片上传功能
2020/02/25 Javascript
[51:53]完美世界DOTA2联赛决赛日 Inki vs LBZS 第二场 11.08
2020/11/10 DOTA
win10下opencv-python特定版本手动安装与pip自动安装教程
2020/03/05 Python
python 发送get请求接口详解
2020/11/17 Python
Python性能测试工具Locust安装及使用
2020/12/01 Python
详解CSS3阴影 box-shadow的使用和技巧总结
2016/12/03 HTML / CSS
加拿大在线隐形眼镜专家:PerfectLens.ca
2016/11/19 全球购物
当当网官方旗舰店:中国图书销售夺金品牌
2018/04/02 全球购物
财务管理个人自荐书范文
2013/11/24 职场文书
2014年教研工作总结
2014/12/06 职场文书
为什么说餐饮很难做,是因为你不了解这些新规则
2019/08/20 职场文书
如何有效防止sql注入的方法
2021/05/25 SQL Server