Python3处理文件中每个词的方法


Posted in Python onMay 22, 2015

本文实例讲述了Python3处理文件中每个词的方法。分享给大家供大家参考。具体实现方法如下:

''''' 
Created on Dec 21, 2012 
处理文件中的每个词 
@author: liury_lab 
''' 
import codecs 
the_file = codecs.open('d:/text.txt', 'rU', 'UTF-8') 
for line in the_file: 
  for word in line.split(): 
    print(word, end = "|") 
the_file.close() 
# 若词的定义有变,可使用正则表达式 
# 如词被定义为数字字母,连字符或单引号构成的序列 
import re 
the_file = codecs.open('d:/text.txt', 'rU', 'UTF-8') 
print() 
print('************************************************************************') 
re_word = re.compile('[\w\'-]+') 
for line in the_file: 
  for word in re_word.finditer(line): 
    print(word.group(0), end = "|") 
the_file.close() 
# 封装成迭代器 
def words_of_file(file_path, line_to_words = str.split): 
  the_file = codecs.open('d:/text.txt', 'rU', 'UTF-8') 
  for line in the_file: 
    for word in line_to_words(line): 
      yield word 
  the_file.close() 
print() 
print('************************************************************************') 
for word in words_of_file('d:/text.txt'): 
  print(word, end = '|') 
def words_by_re(file_path, repattern = '[\w\'-]+'): 
  the_file = codecs.open('d:/text.txt', 'rU', 'UTF-8') 
  re_word = re.compile('[\w\'-]+') 
 
  def line_to_words(line): 
    for mo in re_word.finditer(line): 
      yield mo.group(0) # 原书为return,发现结果不对,改为yield 
  return words_of_file(file_path, line_to_words) 
print() 
print('************************************************************************') 
for word in words_by_re('d:/text.txt'): 
  print(word, end = '|')

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python中Django发送带图片和附件的邮件
Mar 31 Python
Python实现控制台中的进度条功能代码
Dec 22 Python
基于python的多进程共享变量正确打开方式
Apr 28 Python
Python切片操作深入详解
Jul 27 Python
解决在Python编辑器pycharm中程序run正常debug错误的问题
Jan 17 Python
Python Flask框架扩展操作示例
May 03 Python
用Python实现二叉树、二叉树非递归遍历及绘制的例子
Aug 09 Python
树莓派3 搭建 django 服务器的实例
Aug 29 Python
python Django框架实现web端分页呈现数据
Oct 31 Python
Django项目中使用JWT的实现代码
Nov 04 Python
Tensorflow实现多GPU并行方式
Feb 03 Python
Python编程快速上手——强口令检测算法案例分析
Feb 29 Python
Python3读取UTF-8文件及统计文件行数的方法
May 22 #Python
在Python中操作时间之mktime()方法的使用教程
May 22 #Python
Python中的localtime()方法使用详解
May 22 #Python
在Python中操作日期和时间之gmtime()方法的使用
May 22 #Python
Python中的ctime()方法使用教程
May 22 #Python
Python3实现从文件中读取指定行的方法
May 22 #Python
Python3搜索及替换文件中文本的方法
May 22 #Python
You might like
php实现图片缩放功能类
2013/12/18 PHP
Laravel5.5 手动分页和自定义分页样式的简单实现
2019/10/15 PHP
js 获取浏览器高度和宽度值(多浏览器)
2009/09/02 Javascript
javascript,jquery闭包概念分析
2010/06/19 Javascript
javascript中注册和移除事件的4种方式
2013/03/20 Javascript
jquery实现漂浮在网页右侧的qq在线客服插件示例
2013/05/13 Javascript
JS实现slide文字框缩放伸展效果代码
2015/11/05 Javascript
JavaScript引用类型和基本类型详解
2016/01/06 Javascript
jQuery插件学习教程之SlidesJs轮播+Validation验证
2016/07/12 Javascript
如何用js实现鼠标向上滚动时浮动导航
2016/07/18 Javascript
js的各种排序算法实现(总结)
2016/07/23 Javascript
利用HTML5+Socket.io实现摇一摇控制PC端歌曲切换
2017/01/13 Javascript
jquery实现超简单的瀑布流布局【推荐】
2017/03/08 Javascript
微信小程序开发之转发分享功能
2019/10/22 Javascript
微信小程序button标签open-type属性原理解析
2020/01/21 Javascript
封装Vue Element的table表格组件的示例详解
2020/08/19 Javascript
[01:45]2014DOTA2 TI预选赛预选赛 战前探营!
2014/05/21 DOTA
Python中使用摄像头实现简单的延时摄影技术
2015/03/27 Python
python+selenium实现京东自动登录及秒杀功能
2017/11/18 Python
TensorFlow变量管理详解
2018/03/10 Python
python中aioysql(异步操作MySQL)的方法
2019/04/11 Python
Python实战之制作天气查询软件
2019/05/14 Python
python对XML文件的操作实现代码
2020/03/27 Python
详解Pycharm第三方库的安装及使用方法
2020/12/29 Python
德国婴儿推车和儿童安全座椅商店:BABYSHOP
2016/09/01 全球购物
德国高端单身人士交友网站:ElitePartner
2018/12/02 全球购物
美国最好的钓鱼、狩猎和划船装备商店:Bass Pro Shops
2018/12/02 全球购物
美国宠物护理专家:Revival Animal Health
2020/01/05 全球购物
伦敦新晋轻奢耳饰潮牌:Tada & Toy
2020/05/25 全球购物
人代会标语
2014/06/30 职场文书
2015年民主生活会发言材料
2014/12/15 职场文书
2015年入党积极分子评语
2015/03/26 职场文书
导游词之广东佛山(南风古灶)
2019/09/24 职场文书
关于Javascript闭包与应用的详解
2021/04/22 Javascript
MySQL慢查询的坑
2021/04/28 MySQL
MySQL 十大常用字符串函数详解
2021/06/30 MySQL