编程 Python

如何Python使用re模块实现okenizer

Posted in Python onApril 30, 2022

一个简单的tokenizer

分词（tokenization）任务是Python字符串处理中最为常见任务了。我们这里讲解用正则表达式构建简单的表达式分词器（tokenizer），它能够将表达式字符串从左到右解析为标记(tokens)流。

给定如下的表达式字符串：

text = 'foo = 12 + 5 * 6'

我们想要将其转换为下列以序列对呈现的分词结果：

tokens = [('NAME', 'foo'), ('EQ', '='), ('NUM', '12'), ('PLUS', '+'),\
    ('NUM', '5'), ('TIMES', '*'), ('NUM', '6')]

要完成这样的分词操作，我们首先需要定义出所有可能的标记模式（所谓模式（pattern），为用来描述或者匹配/系列匹配某个句法规则的字符串，这里我们用正则表达式来做为模式），注意此处要包括空格whitespace，否则字符串中出现任何模式中没有的字符后，扫描就会停止。因为我们还需要给标记以NAME、EQ等名称，我们采用正则表达式中的命名捕获组来实现。

import re
NAME = r'(?P<NAME>[a-zA-Z_][a-zA-Z_0-9]*)' 
# 这里?P<NAME>表示模式名称，()表示一个正则表达式捕获组，合在一起即一个命名捕获组
EQ = r'(?P<EQ>=)'
NUM = r'(?P<NUM>\d+)' #\d表示匹配数字，+表示任意数量
PLUS = r'(?P<PLUS>\+)' #需要用\转义
TIMES = r'(?P<TIMES>\*)' #需要用\转义
WS = r'(?P<WS>\s+)' #\s表示匹配空格， +表示任意数量
master_pat = re.compile("|".join([NAME, EQ, NUM, PLUS, TIMES, WS]))  # | 用于选择多个模式，表示"或"

接下来我们用模式对象中的scanner()方法来完成分词操作，该方法创建一个扫描对象：

scanner = master_pat.scanner(text)

然后可以用match()方法获取单次匹配结果，一次匹配一个模式：

scanner = master_pat.scanner(text)
m = scanner.match() 
print(m.lastgroup, m.group()) # NAME foo
m = scanner.match()
print(m.lastgroup, m.group()) # WS

当然这样一次一次调用过于麻烦，我们可以使用迭代器来批量调用，并将单次迭代结果以具名元组形式存储

Token = namedtuple('Token', ['type', 'value'])
def generate_tokens(pat, text):
    scanner = pat.scanner(text)
    for m in iter(scanner.match, None):
        #scanner.match做为迭代器每次调用的方法，
        #None为哨兵的默认值，表示迭代到None停止
        yield Token(m.lastgroup, m.group())
for tok in generate_tokens(master_pat, "foo = 42"):
    print(tok)

最终显示表达式串"foo = 12 + 5 * 6"的tokens流为：

Token(type='NAME', value='foo')
Token(type='WS', value=' ')
Token(type='EQ', value='=')
Token(type='WS', value=' ')
Token(type='NUM', value='12')
Token(type='WS', value=' ')
Token(type='PLUS', value='+')
Token(type='WS', value=' ')
Token(type='NUM', value='5')
Token(type='WS', value=' ')
Token(type='TIMES', value='*')
Token(type='WS', value=' ')
Token(type='NUM', value='6')

过滤tokens流

接下来我们想要过滤掉空格标记，使用生成器表达式即可：

tokens = (tok for tok in generate_tokens(master_pat, "foo = 12 + 5 * 6")
          if tok.type != 'WS')
for tok in tokens:
    print(tok)

可以看到空格被成功过滤：

Token(type='NAME', value='foo')
Token(type='EQ', value='=')
Token(type='NUM', value='12')
Token(type='PLUS', value='+')
Token(type='NUM', value='5')
Token(type='TIMES', value='*')
Token(type='NUM', value='6')

注意子串匹配陷阱

tokens在正则表达式(即"|".join([NAME, EQ, NUM, PLUS, TIMES, WS]))中顺序也非常重要。因为在进行匹配时，re模块就会按照指定的顺序对模式做匹配。故若碰巧某个模式是另一个较长模式的子串时，必须保证较长的模式在前面优先匹配。如下面分别展示正确的和错误的匹配方法：

LT = r'(?P<LT><)'
LE = r'(?P<LE><=)'
EQ = r'(?P<EQ>>=)'
master_pat = re.compile("|".join([LE, LT, EQ]))  # 正确的顺序
master_pat = re.compile("|".join([LT, LE, EQ]))  # 错误的顺序

第二种顺序的错误之处在于，这样会把'<='文本匹配为LT('<')紧跟着EQ('=')，而没有匹配为单独的LE(<=)。

我们对于“有可能”形成子串的模式也要小心，比如下面这样：

PRINT = r'(?P<PRINT>print)'
NAME = r'(?P<NAME>[a-zA-Z_][a-zA-Z_0-9]*)'
master_pat = re.compile("|".join([PRINT, NAME]))  # 正确的顺序
for tok in generate_tokens(master_pat, "printer"):
    print(tok)

可以看到被print实际上成了另一个模式的子串，导致另一个模式的匹配出现了问题：

# Token(type='PRINT', value='print')
# Token(type='NAME', value='er')

更高级的语法分词，建议采用像PyParsing或PLY这样的包。特别地，对于英文自然语言文章的分词，一般被集成到各类NLP的包中（一般分为按空格拆分、处理前后缀、去掉停用词三步骤）。对于中文自然语言处理分词也有丰富的工具（比如jieba分词工具包）。

引用

[1] Martelli A, Ravenscroft A, Ascher D. Python cookbook[M]. " O'Reilly Media, Inc.", 2015. 数学是符号的艺术，音乐是上界的语言。

到此这篇关于Python使用re模块实现okenizer的文章就介绍到这了！

如何Python使用re模块实现okenizer

- Author -

orion-orion

- Original Sources -

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Tags in this post...

Python 相关文章推荐

Python的Flask框架及Nginx实现静态文件访问限制功能

Jun 27 Python

python中abs&map&reduce简介

Feb 20 Python

Django如何自定义分页

Sep 25 Python

python远程调用rpc模块xmlrpclib的方法

Jan 11 Python

python pytest进阶之xunit fixture详解

Jun 27 Python

解决pytorch GPU 计算过程中出现内存耗尽的问题

Aug 19 Python

python实现多线程端口扫描

Aug 31 Python

Python matplotlib以日期为x轴作图代码实例

Nov 22 Python

python多项式拟合之np.polyfit 和 np.polyld详解

Feb 18 Python

Python实现画图软件功能方法详解

Jul 28 Python

python 第三方库paramiko的常用方式

Feb 20 Python

聊聊Python中关于a=[[]]*3的反思

Jun 02 Python

如何使用python包中的sched事件调度器

Apr 30 #Python

详解OpenCV获取高动态范围（HDR）成像

详解OpenCV曝光融合

python使用shell脚本创建kafka连接器

Apr 29 #Python

python中pycryto实现数据加密

Apr 29 #Python

Python如何快速找到多个字典中的公共键(key)

Apr 29 #Python

Python如何让字典保持有序排列

Apr 29 #Python

新西兰购物网站(42) 沙特阿拉伯购物网站(9) 捷克购物网站(26) 秘鲁购物网站(1) 波兰购物网站(52) 智利购物网站(5) 斯洛伐克购物网站(7) 卡塔尔购物网站(3) 奥地利购物网站(28) 菲律宾购物网站(13)

You might like

PHP 基本语法格式

2009/12/15 PHP

php保存任意网络图片到服务器的方法

2015/04/14 PHP

Javascript Tab 导航插件 (23个)

2009/06/11 Javascript

浅谈tudou土豆网首页图片延迟加载的效果

2010/06/23 Javascript

js实现的仿新浪微博完美的时间组件升级版

2011/12/20 Javascript

基于jquery的放大镜效果

2012/05/30 Javascript

jQuery中replaceAll()方法用法实例

2015/01/16 Javascript

js实现向右横向滑出的二级菜单效果

2015/08/27 Javascript

JavaScript常用基础知识强化学习

2015/12/09 Javascript

如何使用jquery修改css中带有!important的样式属性

2016/04/28 Javascript

JavaScript仿网易选项卡制作代码

2016/10/06 Javascript

针对后台列表table拖拽比较实用的jquery拖动排序

2016/10/10 Javascript

详解通过JSON数据使用VUE.JS

2017/05/26 Javascript

Vue-router路由判断页面未登录跳转到登录页面的实例

2017/10/26 Javascript

父组件中vuex方法更新state子组件不能及时更新并渲染的完美解决方法

2018/04/25 Javascript

vue-quill-editor富文本编辑器简单使用方法

2018/09/21 Javascript

JavaScript和TypeScript中的void的具体使用

2019/09/12 Javascript

[03:20]次级联赛厮杀超职业现超级兵对拆世纪大战

2014/10/30 DOTA

[01:12:08]LGD vs OG 2019国际邀请赛淘汰赛胜者组 BO3 第一场 8.24

2019/09/10 DOTA

[47:03]完美世界DOTA2联赛PWL S3 access vs LBZS 第一场 12.20

2020/12/23 DOTA

Python运算符重载详解及实例代码

2017/03/07 Python

[原创]教女朋友学Python3（二）简单的输入输出及内置函数查看

2017/11/30 Python

python实现对变位词的判断方法

2020/04/05 Python

Python实现清理微信僵尸粉功能示例【基于itchat模块】

2020/05/29 Python

Python如何爬取b站热门视频并导入Excel

2020/08/10 Python

关于css中margin的值和垂直外边距重叠问题

2020/10/27 HTML / CSS

美国最好的钓鱼、狩猎和划船装备商店：Bass Pro Shops

2018/12/02 全球购物

M.M.LaFleur官网：美国职业女装品牌

2020/10/27 全球购物

材料物理专业大学毕业生求职信

2013/10/15 职场文书

自荐信的基本格式

2014/02/22 职场文书

委托书范本

2014/09/13 职场文书

2014年有孩子的离婚协议书范本

2014/10/08 职场文书

房屋转让协议书

2014/10/18 职场文书

元旦晚会开场白

2015/05/29 职场文书

同事离别感言

2015/08/04 职场文书

学法用法心得体会（2016推荐篇）

2016/01/21 职场文书

如何Python使用re模块实现okenizer

目录

一个简单的tokenizer

过滤tokens流

注意子串匹配陷阱

引用