Python实现简单文本字符串处理的方法


Posted in Python onJanuary 22, 2018

本文实例讲述了Python实现简单文本字符串处理的方法。分享给大家供大家参考,具体如下:

对于一个文本字符串,可以使用Python的string.split()方法将其切割。下面看看实际运行效果。

mySent = 'This book is the best book on python!'
print mySent.split()

输出:

['This', 'book', 'is', 'the', 'best', 'book', 'on', 'python!']

可以看到,切分的效果不错,但是标点符号也被当成了词,可以使用正则表达式来处理,其中分隔符是除单词、数字外的任意字符串。

import re
reg = re.compile('\\W*')
mySent = 'This book is the best book on python!'
listof = reg.split(mySent)
print listof

输出为:

['This', 'book', 'is', 'the', 'best', 'book', 'on', 'python', '']

现在得到了一系列词组成的词表,但是里面的空字符串需要去掉。

可以计算每个字符串的长度,只返回大于0的字符串。

import re
reg = re.compile('\\W*')
mySent = 'This book is the best book on python!'
listof = reg.split(mySent)
new_list = [tok for tok in listof if len(tok)>0]
print new_list

输出为:

['This', 'book', 'is', 'the', 'best', 'book', 'on', 'python']

最后,发现句子中的第一个字母是大写的。我们需要同一形式,把大写转化为小写。Python内嵌的方法,可以将字符串全部转化为小写(.lower())或大写(.upper())

import re
reg = re.compile('\\W*')
mySent = 'This book is the best book on python!'
listof = reg.split(mySent)
new_list = [tok.lower() for tok in listof if len(tok)>0]
print new_list

输出为:

['this', 'book', 'is', 'the', 'best', 'book', 'on', 'python']

下面来看一封完整的电子邮件:

内容

Hi Peter,

With Jose out of town, do you want to
meet once in a while to keep things
going and do some interesting stuff?

Let me know
Eugene
import re
reg = re.compile('\\W*')
email = open('email.txt').read()
list = reg.split(email)
new_txt = [tok.lower() for tok in list if len(tok)>0]
print new_txt

输出:

['hi', 'peter', 'with', 'jose', 'out', 'of', 'town', 'do', 'you', 'want', 'to', 'meet', 'once', 'in', 'a', 'while', 'to', 'keep', 'things', 'going', 'and', 'do', 'some', 'interesting', 'stuff', 'let', 'me', 'know', 'eugene']

更多关于Python相关内容可查看本站专题:《Python字符串操作技巧汇总》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python中文编码那些事
Jun 25 Python
由Python运算π的值深入Python中科学计算的实现
Apr 17 Python
在Django框架中运行Python应用全攻略
Jul 17 Python
python函数局部变量用法实例分析
Aug 04 Python
Python 通过pip安装Django详细介绍
Apr 28 Python
Python通过OpenCV的findContours获取轮廓并切割实例
Jan 05 Python
python正则表达式爬取猫眼电影top100
Feb 24 Python
Python中的类与类型示例详解
Jul 10 Python
Python 实现加密过的PDF文件转WORD格式
Feb 04 Python
numpy矩阵数值太多不能全部显示的解决
May 14 Python
python 爬取免费简历模板网站的示例
Sep 27 Python
python中编写函数并调用的知识点总结
Jan 13 Python
Python简单实现控制电脑的方法
Jan 22 #Python
Zookeeper接口kazoo实例解析
Jan 22 #Python
Python调用C语言的方法【基于ctypes模块】
Jan 22 #Python
python的Crypto模块实现AES加密实例代码
Jan 22 #Python
python实现求最长回文子串长度
Jan 22 #Python
Python获取本机所有网卡ip,掩码和广播地址实例代码
Jan 22 #Python
Linux CentOS7下安装python3 的方法
Jan 21 #Python
You might like
PHP中对数组的一些常用的增、删、插操作函数总结
2015/11/27 PHP
php文件类型MIME对照表(比较全)
2016/10/07 PHP
Symfony2创建基于域名的路由相关示例
2016/11/14 PHP
php版阿里大于(阿里大鱼)短信发送实例详解
2016/11/30 PHP
php获取目录下所有文件及目录(多种方法)(推荐)
2019/05/14 PHP
php ActiveMQ的安装与使用方法图文教程
2020/02/23 PHP
Nginx+php配置文件及原理解析
2020/12/09 PHP
JS 有趣的eval优化输入验证实例代码
2013/09/22 Javascript
js文本框输入点回车触发确定兼容IE、FF等
2013/11/19 Javascript
JS实现点击按钮控制Div变宽、增高及调整背景色的方法
2015/08/05 Javascript
深入讲解xhr(XMLHttpRequest)/jsonp请求之abort
2017/07/26 Javascript
BootStrap Table实现server分页序号连续显示功能(当前页从上一页的结束序号开始)
2017/09/12 Javascript
使用use注册Vue全局组件和全局指令的方法
2018/03/08 Javascript
小程序实现带年月选取效果的日历
2018/06/27 Javascript
JS实现将对象转化为数组的方法分析
2019/01/21 Javascript
layui 弹出层值回传解决方式
2019/11/14 Javascript
[03:04]2018年国际邀请赛典藏宝瓶&莱恩声望物品展示 片尾有彩蛋
2018/06/04 DOTA
phpsir 开发 一个检测百度关键字网站排名的python 程序
2009/09/17 Python
Python的装饰器用法学习笔记
2016/06/24 Python
对Python进行数据分析_关于Package的安装问题
2017/05/22 Python
浅析python协程相关概念
2018/01/20 Python
Python3.5 创建文件的简单实例
2018/04/26 Python
用scikit-learn和pandas学习线性回归的方法
2019/06/21 Python
python把ipynb文件转换成pdf文件过程详解
2019/07/09 Python
PyTorch的自适应池化Adaptive Pooling实例
2020/01/03 Python
python实现最速下降法
2020/03/24 Python
python递归函数求n的阶乘,优缺点及递归次数设置方式
2020/04/02 Python
详解移动端HTML5音频与视频问题及解决方案
2018/08/22 HTML / CSS
phpquery中文手册
2021/03/18 PHP
德国街头和运动文化高品质商店:BSTN Store
2017/08/26 全球购物
英国手机零售商:Metrofone
2019/03/18 全球购物
Claire’s法国:时尚配饰、美容、珠宝、头发
2021/01/16 全球购物
旅游管理专业个人求职信范文
2013/12/24 职场文书
高中军训感言800字
2014/03/05 职场文书
体育活动总结范文
2014/05/04 职场文书
合同审查法律意见书
2015/06/04 职场文书