编程 Python

如何将 awk 脚本移植到 Python

Posted in Python onDecember 09, 2019

将一个 awk 脚本移植到 Python 主要在于代码风格而不是转译。

脚本是解决问题的有效方法，而 awk 是编写脚本的出色语言。它特别擅长于简单的文本处理，它可以带你完成配置文件的某些复杂重写或目录中文件名的重新格式化。

何时从 awk 转向 Python

但是在某些方面，awk 的限制开始显现出来。它没有将文件分解为模块的真正概念，它缺乏质量错误报告，并且缺少了现在被认为是编程语言工作原理的其他内容。当编程语言的这些丰富功能有助于维护关键脚本时，移植将是一个不错的选择。

我最喜欢的完美移植 awk 的现代编程语言是 Python。

在将 awk 脚本移植到 Python 之前，通常值得考虑一下其原始使用场景。例如，由于 awk 的局限性，通常从 Bash 脚本调用 awk 代码，其中包括一些对 sed、sort 之类的其它命令行常见工具的调用。最好将所有内容转换为一个一致的 Python 程序。有时，脚本会做出过于宽泛的假设，例如，即使实际上只运行一个文件，该代码也可能允许任意数量的文件。

在仔细考虑了上下文并确定了要用 Python 替代的东西之后，该编写代码了。

标准 awk 到 Python 功能

以下 Python 功能是有用的，需要记住：

with open(some_file_name) as fpin:
  for line in fpin:
    pass # do something with line

此代码将逐行循环遍历文件并处理这些行。

如果要访问行号（相当于 awk 的 NR），则可以使用以下代码：

with open(some_file_name) as fpin:
  for nr, line in enumerate(fpin):
    pass # do something with line

在 Python 中实现多文件的 awk 式行为

如果你需要能够遍历任意数量的文件同时保持行数的持续计数（类似 awk 的 FNR），则此循环可以做到这一点：

def awk_like_lines(list_of_file_names):
  def _all_lines():
    for filename in list_of_file_names:
      with open(filename) as fpin:
        yield from fpin
  yield from enumerate(_all_lines())

此语法使用 Python 的生成器和 yield from 来构建迭代器，该迭代器将遍历所有行并保持一个持久计数。

如果你需要同时使用 FNR 和 NR，这是一个更复杂的循环：

def awk_like_lines(list_of_file_names):
  def _all_lines():
    for filename in list_of_file_names:
      with open(filename) as fpin:
        yield from enumerate(fpin)
  for nr, (fnr, line) in _all_lines:
    yield nr, fnr, line

更复杂的 FNR、NR 和行数的 awk 行为

如果 FNR、NR 和行数这三个你全都需要，仍然会有一些问题。如果确实如此，则使用三元组（其中两个项目是数字）会导致混淆。命名参数可使该代码更易于阅读，因此最好使用 dataclass：

import dataclass
@dataclass.dataclass(frozen=True)
class AwkLikeLine:
  content: str
  fnr: int
  nr: int
def awk_like_lines(list_of_file_names):
  def _all_lines():
    for filename in list_of_file_names:
      with open(filename) as fpin:
        yield from enumerate(fpin)
  for nr, (fnr, line) in _all_lines:
    yield AwkLikeLine(nr=nr, fnr=fnr, line=line)

你可能想知道，为什么不一直用这种方法呢？使用其它方式的的原因是总用这种方法太复杂了。如果你的目标是把一个通用库更容易地从 awk 移植到 Python，请考虑这样做。但是编写一个可以使你确切地了解特定情况所需的循环的方法通常更容易实现，也更容易理解（因而易于维护）。

理解 awk 字段

一旦有了与一行相对应的字符串，如果要转换 awk 程序，则通常需要将其分解为字段。Python 有几种方法可以做到这一点。这将把行按任意数量的连续空格拆分，返回一个字符串列表：

line.split()

如果需要另一个字段分隔符，比如以 : 分隔行，则需要 rstrip 方法来删除最后一个换行符：

line.rstrip("\n").split(":")

完成以下操作后，列表 parts 将存有分解的字符串：

parts = line.rstrip("\n").split(":")

这种拆分非常适合用来处理参数，但是我们处于偏差一个的错误场景中。现在 parts[0] 将对应于 awk 的 $1，parts[1] 将对应于 awk 的 $2，依此类推。之所以偏差一个，是因为 awk 计数“字段”从 1 开始，而 Python 从 0 开始计数。在 awk 中，$0 是整个行 —— 等同于 line.rstrip("\n")，而 awk 的 NF（字段数）更容易以 len(parts) 的形式得到。

移植 awk 字段到 Python

例如，让我们将这个单行代码“如何使用 awk 从文件中删除重复行”转换为 Python。

awk 中的原始代码是：

awk '!visited[$0]++' your_file > deduplicated_file
“真实的” Python 转换将是：

import collections
import sys
visited = collections.defaultdict(int)
for line in open("your_file"):
  did_visit = visited[line]
  visited[line] += 1
  if not did_visit:
    sys.stdout.write(line)

但是，Python 比 awk 具有更多的数据结构。与其计数访问次数（除了知道是否看到一行，我们不使用它），为什么不记录访问的行呢？

import sys
visited = set()
for line in open("your_file"):
  if line in visited:
    continue
  visited.add(line)
  sys.stdout.write(line)

编写 Python 化的 awk 代码

Python 社区提倡编写 Python 化的代码，这意味着它要遵循公认的代码风格。更加 Python 化的方法将区分唯一性和输入/输出的关注点。此更改将使对代码进行单元测试更加容易：

def unique_generator(things):
  visited = set()
  for thing in things:
    if thing in visited:
      continue
    visited.add(things)
    yield thing
import sys
  
for line in unique_generator(open("your_file")):
  sys.stdout.write(line)

将所有逻辑置于输入/输出代码之外，可以更好地分离问题，并提高代码的可用性和可测试性。

结论：Python 可能是一个不错的选择

将 awk 脚本移植到 Python 时，通常是在考虑适当的 Python 代码风格时重新实现核心需求，而不是按条件/操作进行笨拙的音译。考虑原始上下文并产生高质量的 Python 解决方案。虽然有时候使用 awk 的 Bash 单行代码可以完成这项工作，但 Python 编码是通往更易于维护的代码的途径。

总结

以上所述是小编给大家介绍的如何将 awk 脚本移植到 Python，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持！
如果你觉得本文对你有帮助，欢迎转载，烦请注明出处，谢谢！

如何将 awk 脚本移植到 Python

- Author -

Moshe Zadka

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python构造函数及解构函数介绍

Feb 26 Python

python通过floor函数舍弃小数位的方法

Mar 17 Python

详解python中的文件与目录操作

Jul 11 Python

你眼中的Python大牛应该都有这份书单

Oct 31 Python

python查看模块安装位置的方法

Oct 16 Python

Python面向对象之类和对象实例详解

Dec 10 Python

python实现扫描ip地址的小程序

Apr 16 Python

PYQT5设置textEdit自动滚屏的方法

Jun 14 Python

详解python中*号的用法

Oct 21 Python

python如何将两张图片生成为全景图片

Mar 05 Python

python的launcher用法知识点总结

Aug 07 Python

Python Django / Flask如何使用Elasticsearch

Apr 19 Python

Python 读取 YUV(NV12) 视频文件实例

Dec 09 #Python

基于YUV 数据格式详解及python实现方式

Dec 09 #Python

Python编写一个验证码图片数据标注GUI程序附源码

Dec 09 #Python

Python内置方法实现字符串的秘钥加解密(推荐)

Dec 09 #Python

opencv-python 读取图像并转换颜色空间实例

Dec 09 #Python

opencv-python 提取sift特征并匹配的实例

Dec 09 #Python

python 多维高斯分布数据生成方式

Dec 09 #Python

You might like

php的ajax框架xajax入门与试用介绍

2010/12/19 PHP

PHP访问Google Search API的方法

2015/03/05 PHP

php中PDO方式实现数据库的增删改查

2015/05/17 PHP

document.getElementById介绍

2011/09/13 Javascript

Extjs中ComboBox加载并赋初值的实现方法

2012/03/22 Javascript

jquery简单实现滚动条下拉DIV固定在头部不动

2013/11/25 Javascript

js图片自动轮播代码分享(js图片轮播)

2014/05/06 Javascript

javascript解析json实例详解

2014/11/05 Javascript

IE6/IE7中JavaScript json提示缺少标识符、字符串或数字问题处理

2014/12/16 Javascript

jQuery找出网页上最高元素的方法

2015/03/20 Javascript

Javascript实现商品秒杀倒计时（时间与服务器时间同步）

2015/09/16 Javascript

字符串反转_JavaScript

2016/04/28 Javascript

jQuery实现定位滚动条位置

2016/08/05 Javascript

详细解读Jquery各Ajax函数($.get(),$.post(),$.ajax(),$.getJSON())

2016/08/15 Javascript

jQuery实现获取隐藏div高度的方法示例

2017/02/09 Javascript

javascript实现的图片预览功能

2017/03/25 Javascript

Three.js利用Detector.js插件如何实现兼容性检测详解

2017/09/26 Javascript

详解Node.js中的Async和Await函数

2018/02/22 Javascript

linux 后台运行node服务指令方法

2018/05/23 Javascript

在vue中使用防抖和节流,防止重复点击或重复上拉加载实例

2019/11/13 Javascript

vue数据响应式原理知识点总结

2020/02/16 Javascript

[51:15]完美世界DOTA2联赛PWL S2 PXG vs Magma 第一场 11.21

2020/11/24 DOTA

Python处理json字符串转化为字典的简单实现

2016/07/07 Python

Pandas之排序函数sort_values()的实现

2019/07/09 Python

详解在Python中使用Torchmoji将文本转换为表情符号

2020/07/27 Python

python3中for循环踩过的坑记录

2020/12/14 Python

abstract 可以和 virtual 一起使用吗？可以和 override 一起使用吗？

2012/10/15 面试题

财务人员个人自荐信范文

2013/09/26 职场文书

商场活动策划方案

2014/01/24 职场文书

大课间体育活动方案

2014/03/12 职场文书

护士工作失误检讨书

2014/09/14 职场文书

典型事迹材料范文

2014/12/29 职场文书

2015年体育部工作总结

2015/04/02 职场文书

2016年区委书记抓基层党建工作公开承诺书

2016/03/25 职场文书

工作报告范文

2019/06/20 职场文书

一篇合格的广告文案，其主要目的是什么?

2019/07/12 职场文书