Python3处理文件中每个词的方法


Posted in Python onMay 22, 2015

本文实例讲述了Python3处理文件中每个词的方法。分享给大家供大家参考。具体实现方法如下:

''''' 
Created on Dec 21, 2012 
处理文件中的每个词 
@author: liury_lab 
''' 
import codecs 
the_file = codecs.open('d:/text.txt', 'rU', 'UTF-8') 
for line in the_file: 
  for word in line.split(): 
    print(word, end = "|") 
the_file.close() 
# 若词的定义有变,可使用正则表达式 
# 如词被定义为数字字母,连字符或单引号构成的序列 
import re 
the_file = codecs.open('d:/text.txt', 'rU', 'UTF-8') 
print() 
print('************************************************************************') 
re_word = re.compile('[\w\'-]+') 
for line in the_file: 
  for word in re_word.finditer(line): 
    print(word.group(0), end = "|") 
the_file.close() 
# 封装成迭代器 
def words_of_file(file_path, line_to_words = str.split): 
  the_file = codecs.open('d:/text.txt', 'rU', 'UTF-8') 
  for line in the_file: 
    for word in line_to_words(line): 
      yield word 
  the_file.close() 
print() 
print('************************************************************************') 
for word in words_of_file('d:/text.txt'): 
  print(word, end = '|') 
def words_by_re(file_path, repattern = '[\w\'-]+'): 
  the_file = codecs.open('d:/text.txt', 'rU', 'UTF-8') 
  re_word = re.compile('[\w\'-]+') 
 
  def line_to_words(line): 
    for mo in re_word.finditer(line): 
      yield mo.group(0) # 原书为return,发现结果不对,改为yield 
  return words_of_file(file_path, line_to_words) 
print() 
print('************************************************************************') 
for word in words_by_re('d:/text.txt'): 
  print(word, end = '|')

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
python的urllib模块显示下载进度示例
Jan 17 Python
Python中解析JSON并同时进行自定义编码处理实例
Feb 08 Python
python访问系统环境变量的方法
Apr 29 Python
Python实现快速多线程ping的方法
Jul 15 Python
python并发编程之线程实例解析
Dec 27 Python
Python使用pandas处理CSV文件的实例讲解
Jun 22 Python
python 自定义异常和异常捕捉的方法
Oct 18 Python
代码实例讲解python3的编码问题
Jul 08 Python
python使用requests.session模拟登录
Aug 09 Python
浅析PEP572: 海象运算符
Oct 15 Python
python:批量统计xml中各类目标的数量案例
Mar 10 Python
python使用matplotlib绘制折线图的示例代码
Sep 22 Python
Python3读取UTF-8文件及统计文件行数的方法
May 22 #Python
在Python中操作时间之mktime()方法的使用教程
May 22 #Python
Python中的localtime()方法使用详解
May 22 #Python
在Python中操作日期和时间之gmtime()方法的使用
May 22 #Python
Python中的ctime()方法使用教程
May 22 #Python
Python3实现从文件中读取指定行的方法
May 22 #Python
Python3搜索及替换文件中文本的方法
May 22 #Python
You might like
php minixml详解
2008/07/19 PHP
PHP simple_html_dom.php+正则 采集文章代码
2009/12/24 PHP
phpcms模块开发之swfupload的使用介绍
2013/04/28 PHP
PHP时间类完整实例(非常实用)
2015/12/25 PHP
linux下php上传文件注意事项
2016/06/11 PHP
Yii框架实现多数据库配置和操作的方法
2017/05/25 PHP
根据地区不同显示时间的javascript代码
2007/08/13 Javascript
javascript 手动给表增加数据的小例子
2013/07/10 Javascript
javascript获取鼠标位置部分的实例代码(兼容IE,FF)
2013/08/05 Javascript
jQuery简易图片放大特效示例代码
2014/06/09 Javascript
JS+CSS实现经典的左侧竖向滑动菜单效果
2015/09/23 Javascript
详解nodejs 文本操作模块-fs模块(三)
2016/12/22 NodeJs
基于vue实现swipe轮播组件实例代码
2017/05/24 Javascript
深入理解ES6学习笔记之块级作用域绑定
2017/08/19 Javascript
分析javascript中9 个常见错误阻碍你进步
2017/09/18 Javascript
详解vue项目的构建,打包,发布全过程
2017/11/23 Javascript
浅谈JavaScript 代码简洁之道
2019/01/09 Javascript
webpack 代码分离优化快速指北
2019/05/18 Javascript
JS访问对象两种方式区别解析
2020/08/29 Javascript
vscode中的vue项目报错Property ‘xxx‘ does not exist on type ‘CombinedVueInstance<{ readyOnly...Vetur(2339)
2020/09/11 Javascript
vue组件中传值EventBus的使用及注意事项说明
2020/11/16 Javascript
JavaScript 判断浏览器是否是IE
2021/02/19 Javascript
Python中的MongoDB基本操作:连接、查询实例
2015/02/13 Python
详解Python的Django框架中的模版相关知识
2015/07/15 Python
Pycharm技巧之代码跳转该如何回退
2017/07/16 Python
Python json读写方式和字典相互转化
2020/04/18 Python
六种酷炫Python运行进度条效果的实现代码
2020/07/17 Python
如何用Python提取10000份log中的产品信息
2021/01/14 Python
详解CSS3的perspective属性设置3D变换距离的方法
2016/05/23 HTML / CSS
香港No.1得奖零食网:香港零食大王
2016/07/22 全球购物
入党积极分子学习两会心得体会范文
2014/03/17 职场文书
捐书倡议书
2014/08/29 职场文书
学生不讲诚信检讨书
2014/09/29 职场文书
2015年个人招商工作总结
2015/04/25 职场文书
离职告别感言
2015/08/04 职场文书
2019年第四季度财务部门工作计划
2019/11/02 职场文书