Python实现简单文本字符串处理的方法


Posted in Python onJanuary 22, 2018

本文实例讲述了Python实现简单文本字符串处理的方法。分享给大家供大家参考,具体如下:

对于一个文本字符串,可以使用Python的string.split()方法将其切割。下面看看实际运行效果。

mySent = 'This book is the best book on python!'
print mySent.split()

输出:

['This', 'book', 'is', 'the', 'best', 'book', 'on', 'python!']

可以看到,切分的效果不错,但是标点符号也被当成了词,可以使用正则表达式来处理,其中分隔符是除单词、数字外的任意字符串。

import re
reg = re.compile('\\W*')
mySent = 'This book is the best book on python!'
listof = reg.split(mySent)
print listof

输出为:

['This', 'book', 'is', 'the', 'best', 'book', 'on', 'python', '']

现在得到了一系列词组成的词表,但是里面的空字符串需要去掉。

可以计算每个字符串的长度,只返回大于0的字符串。

import re
reg = re.compile('\\W*')
mySent = 'This book is the best book on python!'
listof = reg.split(mySent)
new_list = [tok for tok in listof if len(tok)>0]
print new_list

输出为:

['This', 'book', 'is', 'the', 'best', 'book', 'on', 'python']

最后,发现句子中的第一个字母是大写的。我们需要同一形式,把大写转化为小写。Python内嵌的方法,可以将字符串全部转化为小写(.lower())或大写(.upper())

import re
reg = re.compile('\\W*')
mySent = 'This book is the best book on python!'
listof = reg.split(mySent)
new_list = [tok.lower() for tok in listof if len(tok)>0]
print new_list

输出为:

['this', 'book', 'is', 'the', 'best', 'book', 'on', 'python']

下面来看一封完整的电子邮件:

内容

Hi Peter,

With Jose out of town, do you want to
meet once in a while to keep things
going and do some interesting stuff?

Let me know
Eugene
import re
reg = re.compile('\\W*')
email = open('email.txt').read()
list = reg.split(email)
new_txt = [tok.lower() for tok in list if len(tok)>0]
print new_txt

输出:

['hi', 'peter', 'with', 'jose', 'out', 'of', 'town', 'do', 'you', 'want', 'to', 'meet', 'once', 'in', 'a', 'while', 'to', 'keep', 'things', 'going', 'and', 'do', 'some', 'interesting', 'stuff', 'let', 'me', 'know', 'eugene']

更多关于Python相关内容可查看本站专题:《Python字符串操作技巧汇总》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
用Python实现换行符转换的脚本的教程
Apr 16 Python
Python logging管理不同级别log打印和存储实例
Jan 19 Python
使用matplotlib画散点图的方法
May 25 Python
Python控制键盘鼠标pynput的详细用法
Jan 28 Python
tensorflow使用range_input_producer多线程读取数据实例
Jan 20 Python
关于Django Models CharField 参数说明
Mar 31 Python
15个应该掌握的Jupyter Notebook使用技巧(小结)
Sep 23 Python
Python下使用Trackbar实现绘图板
Oct 27 Python
如何使用 Flask 做一个评论系统
Nov 27 Python
一文带你了解Python 四种常见基础爬虫方法介绍
Dec 04 Python
python实现图像高斯金字塔的示例代码
Dec 11 Python
python-for x in range的用法(注意要点、细节)
May 10 Python
Python简单实现控制电脑的方法
Jan 22 #Python
Zookeeper接口kazoo实例解析
Jan 22 #Python
Python调用C语言的方法【基于ctypes模块】
Jan 22 #Python
python的Crypto模块实现AES加密实例代码
Jan 22 #Python
python实现求最长回文子串长度
Jan 22 #Python
Python获取本机所有网卡ip,掩码和广播地址实例代码
Jan 22 #Python
Linux CentOS7下安装python3 的方法
Jan 21 #Python
You might like
php explode函数实例代码
2012/02/27 PHP
PHP使用mysql_fetch_object从查询结果中获取对象集的方法
2015/03/18 PHP
PHP实现广度优先搜索算法(BFS,Broad First Search)详解
2017/09/16 PHP
防止浏览器记住用户名及密码的简单实用方法
2013/04/22 Javascript
javascript实现10个球随机运动、碰撞实例详解
2015/07/08 Javascript
JavaScript数组去重的两种方法推荐
2016/04/05 Javascript
jQuery Easyui 下拉树组件combotree
2016/12/16 Javascript
jQuery实现两列等高并自适应高度
2016/12/22 Javascript
Vue.js系列之vue-router(上)(3)
2017/01/03 Javascript
ligerUI---ListBox(列表框可移动的实例)
2017/11/28 Javascript
Vue项目webpack打包部署到Tomcat刷新报404错误问题的解决方案
2018/05/15 Javascript
JavaScript解决浮点数计算不准确问题的方法分析
2018/07/09 Javascript
jquery 通过ajax请求获取后台数据显示在表格上的方法
2018/08/08 jQuery
angular实现input输入监听的示例
2018/08/31 Javascript
详解如何webpack使用DllPlugin
2018/09/30 Javascript
详解Vue2.5+迁移至Typescript指南
2019/08/01 Javascript
Python 处理数据的实例详解
2017/08/10 Python
python使用celery实现异步任务执行的例子
2019/08/28 Python
python爬虫实现POST request payload形式的请求
2020/04/30 Python
python图片验证码识别最新模块muggle_ocr的示例代码
2020/07/03 Python
英国假发网站:Hothair
2018/02/23 全球购物
Mountain Warehouse波兰官方网站:英国户外品牌
2019/08/29 全球购物
说出一些常用的类,包,接口
2014/09/22 面试题
外包公司软件测试工程师
2014/11/01 面试题
大学生活学习的自我评价
2013/12/03 职场文书
教师远程培训感言
2014/03/06 职场文书
局机关干部群众路线个人对照检查材料思想汇报
2014/10/05 职场文书
2014年党的群众路线活动个人整改措施
2014/10/28 职场文书
委托书格式范文
2015/01/28 职场文书
顶岗实习协议书
2015/01/29 职场文书
车间统计员岗位职责
2015/04/14 职场文书
信用卡催款律师函
2015/05/27 职场文书
先进教师个人主要事迹材料
2015/11/03 职场文书
2016婚礼主持词开场白
2015/11/24 职场文书
2016年妇联“6﹒26国际禁毒日”宣传活动总结
2016/04/05 职场文书