python开发一个解析protobuf文件的简单编译器


Posted in Python onNovember 17, 2020

引言

最近刚刚用python写完了一个解析protobuf文件的简单编译器,深感ply实现词法分析和语法分析的简洁方便。乘着余热未过,头脑清醒,记下一点总结和心得,方便各位pythoner参考使用。

ply使用

简介

如果你不是从事编译器或者解析器的开发工作,你可能从未听说过ply。ply是基于python的lex和yacc,而它的作者就是大名鼎鼎Python Cookbook, 3rd Edition的作者。可能有些朋友就纳闷了,我一个业务开发怎么需要自己写编译器呢,各位编程大牛说过,中央决定了,要多尝试新的东西。而且了解一些语法解析的姿势,以后自己解析格式复杂的日志或者数学公式,也是非常有帮助的。

针对没有编译基础的童鞋,强烈建议了解一些文法相关的基本概念。轮子哥强烈推荐的parsing techniques以及编译龙虎鲸书,个人感觉都不适合入门学习,在此推荐胡伦俊的编译原理(电子工业出版社),针对概念的例子讲解很多,很适合入门学习。当然也不需要特别深入研究,知道词法分析和语法分析的相关概念和方法就可以愉快的使用ply了。文档链接: http://www.pchou.info/open-source/2014/01/18/52da47204d4cb.html

为了方便大家上手,以求解多元一次方程组为例,讲解一下ply的使用。

例子说明

输入是多个格式为x + 4y - 3.2z = 7的一次方程,为了让例子尽可能简单,做如下限制:

  • 每个方程含有变量的部分在等号左边,常数在等号右边
  • 每个方程不限制变量的个数以及变量的顺序,但每个方程每个变量只允许出现一次
  • 变量的命令规则为小写字母串(x y xx yy abc 均为合法变量名)
  • 变量的系数限制为整数和浮点数,浮点数不允许1.4e8的格式,系数和变量紧邻,且系数不能为0
  • 方程组和方程组之间用, ;隔开

学过线性代数的童鞋肯定知道,只需要将方程组抽象为矩阵,按照线性代数的方法就可以解决。因此只需要将输入方程组解析成右边的矩阵和变量列表即可,剩下的求解过程就可以交给线性代数相关的工具解决。

python开发一个解析protobuf文件的简单编译器

词法解析

ply中的lex来做词法解析,词法解析的理论有一大堆,但是lex用起来却非常直观,就是用正则表达式的方式将文本字符串解析为一个一个的token,下面的代码就是用lex实现词法解析。

from ply import lex

# 空格 制表符 回车这些不可见符号都忽略
t_ignore = ' \t\r'

# 解析错误的时候直接抛出异常
def t_error(t):
  raise Exception('error {} at line {}'.format(t.value[0], t.lineno))

# 记录行号,方便出错定位
def t_newline(t):
  r'\n+'
  t.lexer.lineno += len(t.value)

# 支持c++风格的\\注释
def t_ignore_COMMENT(t):
  r'\/\/[^\n]*'

# 变量的命令规则
def t_VARIABLE(t):
  r'[a-z]+'
  return t

# 常数命令规则
def t_CONSTANT(t):
  r'\d+(\.\d+)?'
  t.value = float(t.value)
  return t

# 输入中支持的符号头token,当然也支持t_PLUS = r'\+'的方式将加号定义为token
literals = '+-,;='
tokens = ('VARIABLE', 'CONSTANT')


if __name__ == '__main__':
  data = '''
  -x + 2.4y + z = 0; //this is a comment
  9y - z + 7.2x = -1;
  y - z + x = 8
  '''

  lexer = lex.lex()
  lexer.input(data)
  while True:
    tok = lexer.token()
    if not tok:
      break
    print tok

直接运行文件就可以将解析的token串打印出来,如下所示,详细的使用文档可以参考ply文档。

LexToken(-,'-',2,5)
LexToken(VARIABLE,'x',2,6)
LexToken(+,'+',2,8)
LexToken(CONSTANT,2.4,2,10)
LexToken(VARIABLE,'y',2,13)
LexToken(+,'+',2,15)
LexToken(VARIABLE,'z',2,17)
LexToken(=,'=',2,19)
LexToken(CONSTANT,0.0,2,21)
LexToken(;,';',2,22)```

### 语法解析

ply中的yacc用作语法分析,虽然复杂的词法分析可以代替简单的语法分析,但类似于编程语言的解析再复杂的词法分析也胜任不了。在使用yacc之前,需要了解上下文无关文法,这部分内容太多太杂,我也只了解部分简单的概念,有兴趣的可以看一看编译原理深入了解。

目前语法分析的方法有两大类,即自下向上的分析方法和自上而下的分析方法。所谓自上而下的分下法就是从文法的开始符号出发,根据文法规则正向推到出给定句子的一种方法,或者说,从树根开始,往下构造语法树,直到建立每个树叶的分析方法。代表算法是LL(1),此算法文法解析能力不强,对文法定义要求比较高,主流的编译器都没有使用。自下而上的分析法是从给定的输入串开始,根据文法规则逐步进行归约,直至归约到文法的开始符号,或者说从语法书的末端开始,步步向上归约,直至归约到根节点的分析方法。代表算法有SLR、LRLR,ply使用的就是LRLR。

因此我们只需要定义文法和规约动作即可,以下就是完整的代码。

```python
# -*- coding=utf8 -*-

from ply import (
  lex,
  yacc
)

# 空格 制表符 回车这些不可见符号都忽略
t_ignore = ' \t\r'

# 解析错误的时候直接抛出异常
def t_error(t):
  raise Exception('error {} at line {}'.format(t.value[0], t.lineno))

# 记录行号,方便出错定位
def t_newline(t):
  r'\n+'
  t.lexer.lineno += len(t.value)

# 支持c++风格的\\注释
def t_ignore_COMMENT(t):
  r'\/\/[^\n]*'

# 变量的命令规则
def t_VARIABLE(t):
  r'[a-z]+'
  return t

# 常数命令规则
def t_CONSTANT(t):
  r'\d+(\.\d+)?'
  t.value = float(t.value)
  return t

# 输入中支持的符号头token,当然也支持t_PLUS = r'\+'的方式将加号定义为token
literals = '+-,;='
tokens = ('VARIABLE', 'CONSTANT')

# 顶层文法,规约的时候equations对应的p[1]是一个列表,包含了方程左边各个变量与系数还有方程左边的常数
def p_start(p):
  """start : equations"""
  var_count, var_list = 0, []
  for left, _ in p[1]:
    for con, var_name in left:
      if var_name in var_list:
        continue
      var_list.append(var_name)
      var_count += 1

  matrix = [[0] * (var_count + 1) for _ in xrange(len(p[1]))]
  for counter, eq in enumerate(p[1]):
    left, right = eq
    for con, var_name in left:
      matrix[counter][var_list.index(var_name)] = con
    matrix[counter][-1] = -right

  var_list.append(1)
  p[0] = matrix, var_list

# 方程组对应的文法,每个方程用,或者;做分隔
def p_equations(p):
  """equations : equation ',' equations
         | equation ';' equations
         | equation"""
  if len(p) == 2:
    p[0] = [p[1]]
  else:
    p[0] = [p[1]] + p[3]

# 单个方程对应的文法
def p_equation(p):
  """equation : eq_left '=' eq_right"""
  p[0] = (p[1], p[3])

# 方程等式左边对应的文法
def p_eq_left(p):
  """eq_left : var_unit eq_left
        |"""
  if len(p) == 1:
    p[0] = []
  else:
    p[0] = [p[1]] + p[2]

# 六种文法对应例子: x, 5x, +x, -x, +4x, -4y
# 归约的形式是一个元组,例: (5, 'x')
def p_var_unit(p):
  """var_unit : VARIABLE
        | CONSTANT VARIABLE
        | '+' VARIABLE
        | '-' VARIABLE
        | '+' CONSTANT VARIABLE
        | '-' CONSTANT VARIABLE"""
  len_p = len(p)
  if len_p == 2:
    p[0] = (1.0, p[1])
  elif len_p == 3:
    if p[1] == '+':
      p[0] = (1.0, p[2])
    elif p[1] == '-':
      p[0] = (-1.0, p[2])
    else:
      p[0] = (p[1], p[2])
  else:
    if p[1] == '+':
      p[0] = (p[2], p[3])
    else:
      p[0] = (-p[2], p[3])

# 方程等式右边对应的常数,对应的例子:1.2, +1.2, -1.2
def p_eq_right(p):
  """eq_right : CONSTANT
        | '+' CONSTANT
        | '-' CONSTANT"""
  if len(p) == 3:
    if p[1] == '-':
      p[0] = -p[2]
    else:
      p[0] = p[2]
  else:
    p[0] = p[1]

if __name__ == '__main__':
  data = '''
  -x + 2.4y + z = 0; //this is a comment
  9y - z + 7.2x = -1;
  y - z + x = 8
  '''

  lexer = lex.lex()
  parser = yacc.yacc(debug=True)
  lexer.lineno = 1
  s = parser.parse(data)
  print s

直接运行文件即可,得到的输出如下,之后就可以根据线性代数的方法求解各个变量的值

([[-1.0, 2.4, 1.0, -0.0], [7.2, 9.0, -1.0, 1.0], [1.0, 1.0, -1.0, -8.0]], ['x', 'y', 'z', 1])

总结

依托于python简洁的语法,ply为我们提供了一个强大的语法分析工具,更复杂的例子可以参考https://github.com/LiuRoy/proto_parser,这是我用ply实现的一个简单的protobuf解析器,用于减少频繁的中间文件生成。有这种神器,一颗赛艇!

以上就是python开发一个解析protobuf文件的简单编译器的详细内容,更多关于python开发编译器的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Python编写检测数据库SA用户的方法
Jul 11 Python
详解在Python的Django框架中创建模板库的方法
Jul 20 Python
python 将print输出的内容保存到txt文件中
Jul 17 Python
python之当你发现QTimer不能用时的解决方法
Jun 21 Python
python实现电子书翻页小程序
Jul 23 Python
在Python中获取操作系统的进程信息
Aug 27 Python
Python的赋值、深拷贝与浅拷贝的区别详解
Feb 12 Python
python 实现仿微信聊天时间格式化显示的代码
Apr 17 Python
tensorflow实现残差网络方式(mnist数据集)
May 26 Python
Python pexpect模块及shell脚本except原理解析
Aug 03 Python
详解Django中异步任务之django-celery
Nov 05 Python
Pytorch中的学习率衰减及其用法详解
Jun 05 Python
解决python3.x安装numpy成功但import出错的问题
Nov 17 #Python
pymysql模块使用简介与示例
Nov 17 #Python
Python模拟登录requests.Session应用详解
Nov 17 #Python
关于python scrapy中添加cookie踩坑记录
Nov 17 #Python
python中strip(),lstrip(),rstrip()函数的使用讲解
Nov 17 #Python
PyTorch预训练Bert模型的示例
Nov 17 #Python
python 下载文件的多种方法汇总
Nov 17 #Python
You might like
CodeIgniter扩展核心类实例详解
2016/01/20 PHP
浅析Yii2集成富文本编辑器redactor实例教程
2016/04/25 PHP
postfixadmin忘记密码后的修改密码方法详解
2016/07/20 PHP
PHP implode()函数用法讲解
2019/03/08 PHP
php解决crontab定时任务不能写入文件问题的方法分析
2019/09/16 PHP
jquery网页元素拖拽插件效果及实现
2013/08/05 Javascript
基于JavaScript实现TAB标签效果
2016/01/12 Javascript
轻松实现jquery手风琴效果
2016/01/14 Javascript
基于JavaScript判断浏览器到底是关闭还是刷新(超准确)
2016/02/01 Javascript
JS封装的选项卡TAB切换效果示例
2016/09/20 Javascript
Bootstrap的popover(弹出框)在append后弹不出(失效)
2017/02/27 Javascript
vue.js国际化 vue-i18n插件的使用详解
2017/07/07 Javascript
jQuery实现的简单图片轮播效果完整示例
2018/02/08 jQuery
vue小白入门教程
2018/04/02 Javascript
vue.js中实现登录控制的方法示例
2018/04/23 Javascript
浅谈Vue.js 中的 v-on 事件指令的使用
2018/11/25 Javascript
layui原生表单验证的实例
2019/09/09 Javascript
ant-design表单处理和常用方法及自定义验证操作
2020/10/27 Javascript
详解Vue.js3.0 组件是如何渲染为DOM的
2020/11/10 Javascript
[04:28]DOTA2亚洲邀请赛小组赛第五日 TOP10精彩集锦
2015/02/03 DOTA
[20:39]DOTA2-DPC中国联赛 正赛开幕式 1月18日
2021/03/11 DOTA
Python中操作符重载用法分析
2016/04/29 Python
Python程序退出方式小结
2017/12/09 Python
代码讲解Python对Windows服务进行监控
2018/02/11 Python
对python requests的content和text方法的区别详解
2018/10/11 Python
Python计算库numpy进行方差/标准方差/样本标准方差/协方差的计算
2018/12/28 Python
详解Python基础random模块随机数的生成
2019/03/23 Python
利用python、tensorflow、opencv、pyqt5实现人脸实时签到系统
2019/09/25 Python
使用Tensorboard工具查看Loss损失率
2020/02/15 Python
把Anaconda中的环境导入到Pycharm里面的方法步骤
2020/10/30 Python
合作意向书模板
2014/03/31 职场文书
2015年度党风廉政建设工作情况汇报
2015/01/02 职场文书
公司表扬信格式
2015/05/04 职场文书
辩论赛开场白大全(主持人+辩手)
2015/05/29 职场文书
小学副班长竞选稿
2015/11/21 职场文书
详解Alibaba Java诊断工具Arthas查看Dubbo动态代理类
2022/04/08 Java/Android