编程 Python

解决python 文本过滤和清理问题

Posted in Python onAugust 28, 2019

问题

某些无聊的脚本小子在Web页面表单中填入了“pýtĥöñ”这样的文本，我们想以某种方式将其清理掉。

解决方案

文本过滤和清理所涵盖的范围非常广泛，涉及文本解析和数据处理方面的问题。在非常简单的层次上，我们可能会用基本的字符串函数（例如str.upper()和str.lower()）将文本转换为标准形式。简单的替换操作可通过str.replace()或re.sub()来完成，它们把重点放在移除或修改特定的字符序列上。也可以利用unicodedata.normalize()来规范化文本。

然而我们可能想更进一步。比方说也许想清除整个范围内的字符，或者去掉音符标志。要完成这些任务，可以使用常被忽视的str.translate()方法。为了说明其用法，假设有如下这段混乱的字符串：

>>> s = 'pytĥon\fis\tawesome\r\n'
>>> s
'pytĥon\x0cis\tawesome\r\n'
>>>

第一步是清理空格。要做到这步，先建立一个小型的转换表，然后使用translate()方法：

>>> remap = {
...   ord('\t') : ' ',
...   ord('\f') : ' ',
...   ord('\r') : None    # Deleted
... }
>>> a = s.translate(remap)
>>> a
'pytĥon is awesome\n'

可以看到，类似t和f这样的空格符已经被重新映射成一个单独的空格。回车符r已经完全被删除掉了。

可以利用这种重新映射的思想进一步构建出更加庞大的转换表。例如，我们把所有的Unicode组合字符都去掉：

>>> import unicodedata
>>> import sys
>>> cmb_chrs = dict.fromkeys(c for c in range(sys.maxunicode) if unicodedata.combining(chr(c)))
...
>>> b = unicodedata.normalize('NFD', a)
>>> b
'pytĥon is awesome\n'
>>> b.translate(cmb_chrs)
'python is awesome\n'
>>>

在这个例子中，我们使用dict.fromkeys()方法构建了一个将每个Unicode组合字符都映射为None的字典。

原始输入会通过unicodedata.normalize()方法转换为分离形式，然后再通过translate()方法删除所有的重音符号。我们也可以利用相似的技术来去掉其他类型的字符（例如控制字符）。

下面来看另一个例子。这里有一张转换表将所有的Unicode十进制数字字符映射为它们对应的ASCII版本：

>>> digitmap = { c: ord('0') + unicodedata.digit(chr(c))
...        for c in range(sys.maxunicode)
...        if unicodedata.category(chr(c)) == 'Nd' }
...
>>> len(digitmap)
460
>>> # Arabic digits
>>> x = '\u0661\u0662\u0663'
>>> x.translate(digitmap)
'123'
>>>

另一种用来清理文本的技术涉及I/O解码和编码函数。大致思路是首先对文本做初步的清理，然后通过结合encode()和decode()操作来修改或清理文本。示例如下：

>>> a
'pytĥon is awesome\n'
>>> b = unicodedata.normalize('NFD', a)
>>> b.encode('ascii', 'ignore').decode('ascii')
'python is awesome\n'
>>>

这里的normalize()方法先对原始文本做分解操作。后续的ASCII编码/解码只是简单地一次性丢弃所有不需要的字符。很显然，这种方法只有当我们的最终目标就是ASCII形式的文本时才有用。

讨论

文本过滤和清理的一个主要问题就是运行时的性能。一般来说操作越简单，运行得就越快。对于简单的替换操作，用str.replace()通常是最快的方式——即使必须多次调用它也是如此。比方说如果要清理掉空格符，可以编写如下的代码：

def clean_spaces(s):
  s = s.replace('\r', '')
  s = s.replace('\t', ' ')
  s = s.replace('\f', ' ')
return s

如果试着调用它，就会发现这比使用translate()或者正则表达式的方法要快得多。

另一方面，如果需要做任何高级的操作，比如字符到字符的重映射或删除，那么translate()方法还是非常快的。

从整体来看，我们应该在具体的应用中去进一步揣摩性能方面的问题。不幸的是，想在技术上给出一条“放之四海而皆准”的建议是不可能的，所以应该尝试多种不同的方法，然后做性能统计分析。

尽管本节的内容主要关注的是文本，但类似的技术也同样适用于字节对象（byte），这包括简单的替换、翻译和正则表达式。

总结

以上所述是小编给大家介绍的解决python 文本过滤和清理问题,希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持！
如果你觉得本文对你有帮助，欢迎转载，烦请注明出处，谢谢！

解决python 文本过滤和清理问题

- Author -

IT派森

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python 把数据 json格式输出的实例代码

Oct 31 Python

Python实现定时任务

Feb 08 Python

Python列表推导式、字典推导式与集合推导式用法实例分析

Feb 07 Python

Python爬虫实现抓取京东店铺信息及下载图片功能示例

Aug 07 Python

在ubuntu16.04中将python3设置为默认的命令写法

Oct 31 Python

通过python改变图片特定区域的颜色详解

Jul 15 Python

pandas 缺失值与空值处理的实现方法

Oct 12 Python

tensorflow 变长序列存储实例

Jan 20 Python

Python类的继承super相关原理解析

Oct 22 Python

Python-split()函数实例用法讲解

Dec 18 Python

matplotlib实现数据实时刷新的示例代码

Jan 05 Python

Pycharm 如何设置HTML文件自动补全代码或标签

May 21 Python

解决Python对齐文本字符串问题

Aug 28 #Python

python+jinja2实现接口数据批量生成工具

Aug 28 #Python

解决Atom安装Hydrogen无法运行python3的问题

Aug 28 #Python

opencv实现简单人脸识别

Feb 19 #Python

Atom Python 配置Python3 解释器的方法

Aug 28 #Python

python聚类算法解决方案（rest接口/mpp数据库/json数据/下载图片及数据）

Aug 28 #Python

Numpy的简单用法小结

Aug 28 #Python

You might like

用Socket发送电子邮件(利用需要验证的SMTP服务器)

2006/10/09 PHP

实用函数8

2007/11/08 PHP

ubuntu 编译安装php 5.3.3+memcache的方法

2010/08/05 PHP

使用php+Ajax实现唯一校验实现代码[简单应用]

2011/11/29 PHP

PHP连接MySQL查询结果中文显示乱码解决方法

2013/10/25 PHP

PHP URL路由类实例

2013/11/12 PHP

排序算法之PHP版快速排序、冒泡排序

2014/04/09 PHP

跟我学Laravel之配置Laravel

2014/10/15 PHP

PHP获取二维数组中某一列的值集合

2015/12/25 PHP

jQuery的Ajax时无响应数据的解决方法

2010/05/25 Javascript

jquery实现个人中心导航菜单效果和美观都非常不错

2014/09/02 Javascript

详解bootstrap用dropdown-menu实现上下文菜单

2017/09/22 Javascript

JS实现点击复选框变更DIV显示状态的示例代码

2017/12/18 Javascript

angularJS1 url中携带参数的获取方法

2018/10/09 Javascript

D3.js的基础部分之数组的处理数组的排序和求值(v3版本)

2019/05/09 Javascript

解决layui富文本编辑器图片上传无法回显的问题

2019/09/18 Javascript

JavaScript中条件语句的优化技巧总结

2020/12/04 Javascript

[01:46]TI4西雅图DOTA2前线报道中国选手抱团调时差

2014/07/08 DOTA

python uuid模块使用实例

2015/04/08 Python

python pands实现execl转csv 并修改csv指定列的方法

2018/12/12 Python

大家都说好用的Python命令行库click的使用

2019/11/07 Python

keras做CNN的训练误差loss的下降操作

2020/06/22 Python

HTML5拖拽文件上传的示例代码

2021/03/04 HTML / CSS

中国领先的专业演出票务网：永乐票务

2016/08/29 全球购物

意大利综合购物网站：Giordano Shop

2016/10/21 全球购物

伊芙丽官方旗舰店：中国淑女一线品牌

2017/12/01 全球购物

甜点店创业计划书

2014/01/27 职场文书

《值日生》教学反思

2014/02/17 职场文书

读书演讲主持词

2014/03/18 职场文书

一年级学生评语大全

2014/04/21 职场文书

槐乡的孩子教学反思

2014/04/27 职场文书

2014年电信员工工作总结

2014/12/19 职场文书

2015年度优秀员工自荐书

2015/03/06 职场文书

婚育证明样本

2015/06/16 职场文书

关于车尾的标语大全

2015/08/11 职场文书

高中政治教学反思

2016/02/23 职场文书