如何将 awk 脚本移植到 Python


Posted in Python onDecember 09, 2019

将一个 awk 脚本移植到 Python 主要在于代码风格而不是转译。

脚本是解决问题的有效方法,而 awk 是编写脚本的出色语言。它特别擅长于简单的文本处理,它可以带你完成配置文件的某些复杂重写或目录中文件名的重新格式化。

何时从 awk 转向 Python

但是在某些方面,awk 的限制开始显现出来。它没有将文件分解为模块的真正概念,它缺乏质量错误报告,并且缺少了现在被认为是编程语言工作原理的其他内容。当编程语言的这些丰富功能有助于维护关键脚本时,移植将是一个不错的选择。

我最喜欢的完美移植 awk 的现代编程语言是 Python。

在将 awk 脚本移植到 Python 之前,通常值得考虑一下其原始使用场景。例如,由于 awk 的局限性,通常从 Bash 脚本调用 awk 代码,其中包括一些对 sed、sort 之类的其它命令行常见工具的调用。 最好将所有内容转换为一个一致的 Python 程序。有时,脚本会做出过于宽泛的假设,例如,即使实际上只运行一个文件,该代码也可能允许任意数量的文件。

在仔细考虑了上下文并确定了要用 Python 替代的东西之后,该编写代码了。

标准 awk 到 Python 功能

以下 Python 功能是有用的,需要记住:

with open(some_file_name) as fpin:
  for line in fpin:
    pass # do something with line

此代码将逐行循环遍历文件并处理这些行。

如果要访问行号(相当于 awk 的 NR),则可以使用以下代码:

with open(some_file_name) as fpin:
  for nr, line in enumerate(fpin):
    pass # do something with line

在 Python 中实现多文件的 awk 式行为

如果你需要能够遍历任意数量的文件同时保持行数的持续计数(类似 awk 的 FNR),则此循环可以做到这一点:

def awk_like_lines(list_of_file_names):
  def _all_lines():
    for filename in list_of_file_names:
      with open(filename) as fpin:
        yield from fpin
  yield from enumerate(_all_lines())

此语法使用 Python 的生成器和 yield from 来构建迭代器,该迭代器将遍历所有行并保持一个持久计数。

如果你需要同时使用 FNR 和 NR,这是一个更复杂的循环:

def awk_like_lines(list_of_file_names):
  def _all_lines():
    for filename in list_of_file_names:
      with open(filename) as fpin:
        yield from enumerate(fpin)
  for nr, (fnr, line) in _all_lines:
    yield nr, fnr, line

更复杂的 FNR、NR 和行数的 awk 行为

如果 FNR、NR 和行数这三个你全都需要,仍然会有一些问题。如果确实如此,则使用三元组(其中两个项目是数字)会导致混淆。命名参数可使该代码更易于阅读,因此最好使用 dataclass:

import dataclass
@dataclass.dataclass(frozen=True)
class AwkLikeLine:
  content: str
  fnr: int
  nr: int
def awk_like_lines(list_of_file_names):
  def _all_lines():
    for filename in list_of_file_names:
      with open(filename) as fpin:
        yield from enumerate(fpin)
  for nr, (fnr, line) in _all_lines:
    yield AwkLikeLine(nr=nr, fnr=fnr, line=line)

你可能想知道,为什么不一直用这种方法呢?使用其它方式的的原因是总用这种方法太复杂了。如果你的目标是把一个通用库更容易地从 awk 移植到 Python,请考虑这样做。但是编写一个可以使你确切地了解特定情况所需的循环的方法通常更容易实现,也更容易理解(因而易于维护)。

理解 awk 字段

一旦有了与一行相对应的字符串,如果要转换 awk 程序,则通常需要将其分解为字段。Python 有几种方法可以做到这一点。这将把行按任意数量的连续空格拆分,返回一个字符串列表:

line.split()

如果需要另一个字段分隔符,比如以 : 分隔行,则需要 rstrip 方法来删除最后一个换行符:

line.rstrip("\n").split(":")

完成以下操作后,列表 parts 将存有分解的字符串:

parts = line.rstrip("\n").split(":")

这种拆分非常适合用来处理参数,但是我们处于偏差一个的错误场景中。现在 parts[0] 将对应于 awk 的 $1,parts[1] 将对应于 awk 的 $2,依此类推。之所以偏差一个,是因为 awk 计数“字段”从 1 开始,而 Python 从 0 开始计数。在 awk 中,$0 是整个行 —— 等同于 line.rstrip("\n"),而 awk 的 NF(字段数)更容易以 len(parts) 的形式得到。

移植 awk 字段到 Python

例如,让我们将这个单行代码“如何使用 awk 从文件中删除重复行”转换为 Python。

awk 中的原始代码是:

awk '!visited[$0]++' your_file > deduplicated_file
“真实的” Python 转换将是:

import collections
import sys
visited = collections.defaultdict(int)
for line in open("your_file"):
  did_visit = visited[line]
  visited[line] += 1
  if not did_visit:
    sys.stdout.write(line)

但是,Python 比 awk 具有更多的数据结构。与其计数访问次数(除了知道是否看到一行,我们不使用它),为什么不记录访问的行呢?

import sys
visited = set()
for line in open("your_file"):
  if line in visited:
    continue
  visited.add(line)
  sys.stdout.write(line)

编写 Python 化的 awk 代码

Python 社区提倡编写 Python 化的代码,这意味着它要遵循公认的代码风格。更加 Python 化的方法将区分唯一性和输入/输出的关注点。此更改将使对代码进行单元测试更加容易:

def unique_generator(things):
  visited = set()
  for thing in things:
    if thing in visited:
      continue
    visited.add(things)
    yield thing
import sys
  
for line in unique_generator(open("your_file")):
  sys.stdout.write(line)

将所有逻辑置于输入/输出代码之外,可以更好地分离问题,并提高代码的可用性和可测试性。

结论:Python 可能是一个不错的选择

将 awk 脚本移植到 Python 时,通常是在考虑适当的 Python 代码风格时重新实现核心需求,而不是按条件/操作进行笨拙的音译。考虑原始上下文并产生高质量的 Python 解决方案。虽然有时候使用 awk 的 Bash 单行代码可以完成这项工作,但 Python 编码是通往更易于维护的代码的途径。

总结

以上所述是小编给大家介绍的如何将 awk 脚本移植到 Python,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!

Python 相关文章推荐
Python实现3行代码解简单的一元一次方程
Aug 18 Python
详解Python实现按任意键继续/退出的功能
Aug 19 Python
python安装numpy&安装matplotlib& scipy的教程
Nov 02 Python
Python将多个excel文件合并为一个文件
Jan 03 Python
Python星号*与**用法分析
Feb 02 Python
Python 实现取矩阵的部分列,保存为一个新的矩阵方法
Nov 14 Python
python实现QQ邮箱/163邮箱的邮件发送
Jan 22 Python
python实现微信自动回复机器人功能
Jul 11 Python
python3的数据类型及数据类型转换实例详解
Aug 20 Python
在 Python 中接管键盘中断信号的实现方法
Feb 04 Python
Pytorch中.new()的作用详解
Feb 18 Python
Python基础之字符串格式化详解
Apr 21 Python
Python 读取 YUV(NV12) 视频文件实例
Dec 09 #Python
基于YUV 数据格式详解及python实现方式
Dec 09 #Python
Python编写一个验证码图片数据标注GUI程序附源码
Dec 09 #Python
Python内置方法实现字符串的秘钥加解密(推荐)
Dec 09 #Python
opencv-python 读取图像并转换颜色空间实例
Dec 09 #Python
opencv-python 提取sift特征并匹配的实例
Dec 09 #Python
python 多维高斯分布数据生成方式
Dec 09 #Python
You might like
php基础知识:类与对象(4) 范围解析操作符(::)
2006/12/13 PHP
优化使用mysql存储session的php代码
2008/01/10 PHP
关于php循环跳出的问题
2013/07/01 PHP
iOS自定义提示弹出框实现类似UIAlertView的效果
2016/11/16 PHP
Thinkphp整合阿里云OSS图片上传实例代码
2019/04/28 PHP
PHP实现微信提现功能(微信商城)
2019/11/21 PHP
PHP7 windows支持
2021/03/09 PHP
js wmp操作代码小结(音乐连播功能)
2008/11/08 Javascript
json的前台操作和后台操作实现代码
2012/01/20 Javascript
javaScript矢量图表库-gRaphael几行代码实现精美的条形图/饼图/点图/曲线图
2013/01/09 Javascript
JQuery插件fancybox无法在弹出层使用左右键的解决办法
2013/12/25 Javascript
JS对话框_JS模态对话框showModalDialog用法总结
2014/01/11 Javascript
网站内容禁止复制和粘贴、另存为的js代码
2014/02/26 Javascript
js删除局部变量的实现方法
2016/06/25 Javascript
JS实现JSON.stringify的实例代码讲解
2017/02/07 Javascript
bootstrap switch开关组件使用方法详解
2017/08/22 Javascript
javascript 作用于作用域链的详解
2017/09/27 Javascript
Vue 中使用vue2-highcharts实现曲线数据展示的方法
2018/03/05 Javascript
JS判断用户用的哪个浏览器实例详解
2018/10/09 Javascript
javascript中的闭包概念与用法实践分析
2019/07/26 Javascript
vue使用@scroll监听滚动事件时,@scroll无效问题的解决方法详解
2019/10/15 Javascript
[01:34]完美“圣”典宣传片震撼发布,12.17与你不见不散
2016/12/16 DOTA
Pandas 数据框增、删、改、查、去重、抽样基本操作方法
2018/04/12 Python
Python异步操作MySQL示例【使用aiomysql】
2019/05/16 Python
深入了解Python enumerate和zip
2020/07/16 Python
python调用jenkinsAPI构建jenkins,并传递参数的示例
2020/12/09 Python
css3给背景图片加颜色遮罩的方法
2019/11/05 HTML / CSS
英国网络托管和域名领导者:Web Hosting UK
2017/10/15 全球购物
Vero Moda西班牙官方购物网站:丹麦BESTSELLER旗下知名女装品牌
2018/04/27 全球购物
2015年个人剖析材料范文
2014/12/29 职场文书
捐助倡议书
2015/01/19 职场文书
如何用threejs实现实时多边形折射
2021/05/07 Javascript
React实现动效弹窗组件
2021/06/21 Javascript
压缩Redis里的字符串大对象操作
2021/06/23 Redis
Feign调用全局异常处理解决方案
2021/06/24 Java/Android
ObjectMapper 如何忽略字段大小写
2021/06/29 Java/Android