Python3处理文件中每个词的方法


Posted in Python onMay 22, 2015

本文实例讲述了Python3处理文件中每个词的方法。分享给大家供大家参考。具体实现方法如下:

''''' 
Created on Dec 21, 2012 
处理文件中的每个词 
@author: liury_lab 
''' 
import codecs 
the_file = codecs.open('d:/text.txt', 'rU', 'UTF-8') 
for line in the_file: 
  for word in line.split(): 
    print(word, end = "|") 
the_file.close() 
# 若词的定义有变,可使用正则表达式 
# 如词被定义为数字字母,连字符或单引号构成的序列 
import re 
the_file = codecs.open('d:/text.txt', 'rU', 'UTF-8') 
print() 
print('************************************************************************') 
re_word = re.compile('[\w\'-]+') 
for line in the_file: 
  for word in re_word.finditer(line): 
    print(word.group(0), end = "|") 
the_file.close() 
# 封装成迭代器 
def words_of_file(file_path, line_to_words = str.split): 
  the_file = codecs.open('d:/text.txt', 'rU', 'UTF-8') 
  for line in the_file: 
    for word in line_to_words(line): 
      yield word 
  the_file.close() 
print() 
print('************************************************************************') 
for word in words_of_file('d:/text.txt'): 
  print(word, end = '|') 
def words_by_re(file_path, repattern = '[\w\'-]+'): 
  the_file = codecs.open('d:/text.txt', 'rU', 'UTF-8') 
  re_word = re.compile('[\w\'-]+') 
 
  def line_to_words(line): 
    for mo in re_word.finditer(line): 
      yield mo.group(0) # 原书为return,发现结果不对,改为yield 
  return words_of_file(file_path, line_to_words) 
print() 
print('************************************************************************') 
for word in words_by_re('d:/text.txt'): 
  print(word, end = '|')

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python修改Excel数据的实例代码
Nov 01 Python
Python程序设计入门(4)模块和包
Jun 16 Python
跟老齐学Python之Import 模块
Oct 13 Python
图文详解WinPE下安装Python
May 17 Python
Python编程中对super函数的正确理解和用法解析
Jul 02 Python
Python利用Beautiful Soup模块创建对象详解
Mar 27 Python
在dataframe两列日期相减并且得到具体的月数实例
Jul 03 Python
Python 实现取矩阵的部分列,保存为一个新的矩阵方法
Nov 14 Python
python2.7使用plotly绘制本地散点图和折线图
Apr 02 Python
Python实现搜索算法的实例代码
Jan 02 Python
Python学习之路之pycharm的第一个项目搭建过程
Jun 18 Python
如何基于Python按行合并两个txt
Nov 03 Python
Python3读取UTF-8文件及统计文件行数的方法
May 22 #Python
在Python中操作时间之mktime()方法的使用教程
May 22 #Python
Python中的localtime()方法使用详解
May 22 #Python
在Python中操作日期和时间之gmtime()方法的使用
May 22 #Python
Python中的ctime()方法使用教程
May 22 #Python
Python3实现从文件中读取指定行的方法
May 22 #Python
Python3搜索及替换文件中文本的方法
May 22 #Python
You might like
PHP把数字转成人民币大写的函数分享
2014/06/30 PHP
文件上传之SWFUpload插件(代码)
2015/07/30 PHP
laravel执行php artisan migrate报错的解决方法
2019/10/09 PHP
一直复略了的一个问题,关于表单重复提交
2007/02/15 Javascript
禁止IE用右键的JS代码
2013/12/30 Javascript
一个非常全面的javascript URL解析函数和分段URL解析方法
2014/04/12 Javascript
fixedBox固定div漂浮代码支持ie6以上大部分主流浏览器
2014/06/26 Javascript
javascript将数字转换整数金额大写的方法
2015/01/27 Javascript
分享10个原生JavaScript技巧
2015/04/20 Javascript
完美实现仿QQ空间评论回复特效
2015/05/06 Javascript
原生JS实现的放大镜效果实例代码
2016/10/15 Javascript
JavaScript将base64图片转换成formData并通过AJAX提交的实现方法
2016/10/24 Javascript
JS实现iframe自适应高度的方法示例
2017/01/07 Javascript
使用JS中的Replace()方法遇到的问题小结
2017/10/20 Javascript
vue axios数据请求get、post方法及实例详解
2018/09/11 Javascript
详解mpvue scroll-view自动回弹bug解决方案
2018/10/01 Javascript
详解webpack引用jquery(第三方模块)的三种办法
2019/08/21 jQuery
ckeditor一键排版功能实现方法分析
2020/02/06 Javascript
用js实现放大镜效果
2020/10/28 Javascript
python3.5实现socket通讯示例(TCP)
2017/02/07 Python
Python yield 使用方法浅析
2017/05/20 Python
matplotlib设置legend图例代码示例
2017/12/19 Python
Python通过socketserver处理多个链接
2020/03/18 Python
新手常见Python错误及异常解决处理方案
2020/06/18 Python
Ibatis如何调用存储过程
2015/05/15 面试题
工程师求职简历的自我评价分享
2013/10/10 职场文书
学习党章思想汇报
2014/01/07 职场文书
学习雷锋寄语大全
2014/04/11 职场文书
2014年党员教师自我剖析材料
2014/09/30 职场文书
2014七年级班主任工作总结
2014/12/05 职场文书
2014年加油站站长工作总结
2014/12/23 职场文书
个人廉政承诺书
2015/04/28 职场文书
2015年中学图书馆工作总结
2015/07/22 职场文书
Python利器openpyxl之操作excel表格
2021/04/17 Python
MySQL kill不掉线程的原因
2021/05/07 MySQL
Redis分布式锁Redlock的实现
2021/08/07 Redis