Python3处理文件中每个词的方法


Posted in Python onMay 22, 2015

本文实例讲述了Python3处理文件中每个词的方法。分享给大家供大家参考。具体实现方法如下:

''''' 
Created on Dec 21, 2012 
处理文件中的每个词 
@author: liury_lab 
''' 
import codecs 
the_file = codecs.open('d:/text.txt', 'rU', 'UTF-8') 
for line in the_file: 
  for word in line.split(): 
    print(word, end = "|") 
the_file.close() 
# 若词的定义有变,可使用正则表达式 
# 如词被定义为数字字母,连字符或单引号构成的序列 
import re 
the_file = codecs.open('d:/text.txt', 'rU', 'UTF-8') 
print() 
print('************************************************************************') 
re_word = re.compile('[\w\'-]+') 
for line in the_file: 
  for word in re_word.finditer(line): 
    print(word.group(0), end = "|") 
the_file.close() 
# 封装成迭代器 
def words_of_file(file_path, line_to_words = str.split): 
  the_file = codecs.open('d:/text.txt', 'rU', 'UTF-8') 
  for line in the_file: 
    for word in line_to_words(line): 
      yield word 
  the_file.close() 
print() 
print('************************************************************************') 
for word in words_of_file('d:/text.txt'): 
  print(word, end = '|') 
def words_by_re(file_path, repattern = '[\w\'-]+'): 
  the_file = codecs.open('d:/text.txt', 'rU', 'UTF-8') 
  re_word = re.compile('[\w\'-]+') 
 
  def line_to_words(line): 
    for mo in re_word.finditer(line): 
      yield mo.group(0) # 原书为return,发现结果不对,改为yield 
  return words_of_file(file_path, line_to_words) 
print() 
print('************************************************************************') 
for word in words_by_re('d:/text.txt'): 
  print(word, end = '|')

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python的Urllib库的基本使用教程
Apr 30 Python
Python中threading模块join函数用法实例分析
Jun 04 Python
Python selenium如何设置等待时间
Sep 15 Python
python Socket之客户端和服务端握手详解
Sep 18 Python
python使用筛选法计算小于给定数字的所有素数
Mar 19 Python
Python使用pymongo模块操作MongoDB的方法示例
Jul 20 Python
python批量读取文件名并写入txt文件中
Sep 05 Python
Python爬虫使用浏览器cookies:browsercookie过程解析
Oct 22 Python
wxpython布局的实现方法
Nov 01 Python
在Python中利用pickle保存变量的实例
Dec 30 Python
pandas数据分组groupby()和统计函数agg()的使用
Mar 04 Python
pytorch 预训练模型读取修改相关参数的填坑问题
Jun 05 Python
Python3读取UTF-8文件及统计文件行数的方法
May 22 #Python
在Python中操作时间之mktime()方法的使用教程
May 22 #Python
Python中的localtime()方法使用详解
May 22 #Python
在Python中操作日期和时间之gmtime()方法的使用
May 22 #Python
Python中的ctime()方法使用教程
May 22 #Python
Python3实现从文件中读取指定行的方法
May 22 #Python
Python3搜索及替换文件中文本的方法
May 22 #Python
You might like
php去除html标记的原生函数详解
2015/01/27 PHP
php实现smarty模板无限极分类的方法
2015/12/07 PHP
CodeIgniter配置之SESSION用法实例分析
2016/01/19 PHP
Zend Framework分页类用法详解
2016/03/22 PHP
jquery animate 动画效果使用说明
2009/11/04 Javascript
jQuery父级以及同级元素查找介绍
2013/09/04 Javascript
浏览器兼容console对象的简要解决方案分享
2013/10/24 Javascript
java与javascript之间json格式数据互转介绍
2013/10/29 Javascript
简单的js图片轮换代码(js图片轮播)
2014/05/06 Javascript
js查找节点的方法小结
2015/01/13 Javascript
JavaScript数据类型详解
2015/04/01 Javascript
理解javascript对象继承
2016/04/17 Javascript
JS实现的系统调色板完整实例
2016/12/21 Javascript
详解nodejs微信jssdk后端接口
2017/05/25 NodeJs
Three.js实现绘制字体模型示例代码
2017/09/26 Javascript
vue环形进度条组件实例应用
2018/10/10 Javascript
js之切换全屏和退出全屏实现代码实例
2019/09/09 Javascript
JS实现分页导航效果
2020/02/19 Javascript
JavaScript enum枚举类型定义及使用方法
2020/05/15 Javascript
[01:15:16]DOTA2-DPC中国联赛 正赛 Elephant vs Aster BO3 第一场 1月26日
2021/03/11 DOTA
python回调函数中使用多线程的方法
2017/12/25 Python
解决Shell执行python文件,传参空格引起的问题
2018/10/30 Python
在Python中Dataframe通过print输出多行时显示省略号的实例
2018/12/22 Python
python实现扫描局域网指定网段ip的方法
2019/04/16 Python
python实现字符串完美拆分split()的方法
2019/07/16 Python
python yield和Generator函数用法详解
2020/02/10 Python
Python pymsql模块的使用
2020/09/07 Python
使用 CSS3 中@media 实现网页自适应的示例代码
2020/03/24 HTML / CSS
德国高尔夫商店:Golfshop.de
2019/06/22 全球购物
主题婚礼策划方案
2014/02/10 职场文书
孩子教育的心得体会
2014/09/01 职场文书
领导干部群众路线对照检查材料
2014/11/05 职场文书
小学班主任评语
2014/12/29 职场文书
给老婆的检讨书
2015/01/27 职场文书
2015年新农合工作总结
2015/03/30 职场文书
优秀党员主要事迹范文
2015/11/05 职场文书