编程 Python

使用Python文件读写,自定义分隔符(custom delimiter)

Posted in Python onJuly 05, 2020

众所周知，python文件读取文件的时候所支持的newlines（即换行符），是指定的。这一点不管是从python的doucuments上还是在python的源码中（作者是参考了python的io版本，并没有阅读C版本），都可以看出来：

if newline is not None and not isinstance(newline, str):
 raise TypeError("illegal newline type: %r" % (type(newline),))
if newline not in (None, "", "\n", "\r", "\r\n"):
 raise ValueError("illegal newline value: %r" % (newline,))

好吧，问题来了，如果你恰好是个苦逼的生物狗，正在用python处理所谓的fastq格式的测序结果文件，每次只读一行往往不是你想要的。Ok, 我们也都知道其实这个问题在Perl里面十分好解决，无非就是重新定义下文件的分割符（$/,The input record separator, newline by default. Set undef to read through the end of file.）

local $/;   # enable "slurp" mode
local $_ = <FH>; # whole file now here
s/\n[ \t]+/ /g;

简单粗暴有效！《Programming Perl》开头的那些关于什么是happiness定义看来所言非虚，所以你只要需要将$/定义为fastq格式的分隔符就ok了。

但是，如果是Python呢？（容易钻牛角尖的孩纸，又或者是不喜欢花括号的孩子…..反正就是强行高端了）。终于要进入正题了，OK，在python中又有两种方式解决这个问题，看你个人喜好选择了（当然要是有大神知道四种、五种方法，也不妨指导一下我这个小菜鸟）。

方案一的代码：

import _pyio
import io
import functools
class MyTextWrapper(_pyio.TextIOWrapper):
 def readrecod(self, sep):
   readnl, self._readnl = self._readnl, sep
   self._readtranslate = False
   self._readuniversal = False
   try:
     return self.readline()
   finally:
     self._readnl = readnl
#class MyTextWrapper(_pyio.TextIOWrapper):
# def __init__(self, *args, separator, **kwargs):
#  super().__init__(*args,**kwargs)
#  self._readnl = separator
#  self._readtranslate = False
#  self._readuniversal = False
#  print("{}:\t{}".format(self,self._readnl))

f = io.open('data',mode='rt')
#f = MyTextWrapper(f.detach(),separator = '>')
#print(f._readnl)
f = MyTextWrapper(f.detach())
records=iter(functools.partial(f.readrecod, '>'), '')
for r in records:
 print(r.strip('>'))
 print("###")

Ok，这是Python3.x中的方法（亲测），那么在Python2.x中需要改动的地方，目测好像是（没有亲测）

super(MyTextWrapper,self).__init__(*args,**kwargs)

这个方法看上去还是比较elegant，但是efficient 吗？答案恐怕并不，毕竟放弃了C模块的速度优势，但是OOP写起来还是比较舒服的。对了值得指出的Python的I/O是一个layer一个layer的累加起来的。从这里我们就能看出来。当然里面的继承关系还是值得研究一下的，从最开始的IOBase一直到最后的TextIOWrapper,这里面的故事，还是要看一看的。

方案二的代码：

#!/usr/bin/env python

def delimited(file, delimiter = '\n', bufsize = 4096):
 buf = ''
 while True:
  newbuf = file.read(bufsize)
  if not newbuf:
   yield buf
   return
  buf += newbuf
  lines = buf.split(delimiter)
  for line in lines[:-1]:
   yield line
  buf = lines[-1]

with open('data', 'rt') as f:
 lines = delimited(f, '>', bufsize = 1)
 for line in lines:
  print line,
  print '######'

Ok,这里用到了所谓的generator函数，优雅程度也还行，至于效率么，请自行比较和测试吧（毕竟好多生物程序猿是不关心效率的…..)。如此一来，比Perl多敲了好多代码，唉，怀念Perl的时代啊，简单粗暴有效，就是幸福的哲学么。

当然还有童鞋要问，那么能不能又elegant还efficient（我可是一个高端的生物程序猿，我要强行高端！）答案是有的，请用Cython! 问题又来了，都Cython了，为什么不直接用C呢？确实，C语言优美又混乱。

补充知识：Python.json.常见两个错误处理(Expecting , delimiter)(Invalid control character at)

ValueError: Invalid control character at: line 1 column 122(char 123)

出现错误的原因是字符串中包含了回车符（\r）或者换行符（\n）

解决方案：

转义

json_data = json_data.replace('\r', '\\r').replace('\n', '\\n')

使用关键字strict

json.loads(json_data, strict=False)

ValueError: Expecting , delimiter: line 13 column 650 (char 4186)

原因：json数据不合法，类似“group_buy_create_description_text”: “1. Select the blue “Buy” button to let other shoppers buy with you.这样的内容出现在json数据中。

解决方案：

将类似的情形通过正则筛选出来通过下面的方式处理。

正则表达式如下：

json_data = json_data.replace('""', '"########"')

js_str = '"[\s\S]+?":\s?"([\s\S]+?)"\}?\}?\]?,'

后续使用中发现无法匹配value为空的情况，故先做一下预处理

这个正则可以匹配到大部分的key，value中的value值，但是也有例外，暂时的处理方法是如果匹配结果中包含”{“, “}”, “[“, “]”这样的字符，说明是匹配失败结果，跳过处理。其他的使用下边的方法替换掉可能出问题的字符。

如果大家有更好的正则匹配方式，欢迎随时批评指正。

def htmlEscape(input) {
    if not input
      return input;
    input = input.replace("&", "&");
    input = input.replace("<", "<");
    input = input.replace(">", ">");
    input = input.replace(" ", " ");
    input = input.replace("'", "'");  //IE暂不支持单引号的实体名称,而支持单引号的实体编号,故单引号转义成实体编号,其它字符转义成实体名称
    input = input.replace("\"", """); //双引号也需要转义，所以加一个斜线对其进行转义
    input = input.replace("\n", "<br/>"); //不能把\n的过滤放在前面，因为还要对<和>过滤，这样就会导致<br/>失效了
    return input;
  }

以上这篇使用Python文件读写,自定义分隔符(custom delimiter)就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

使用Python文件读写,自定义分隔符(custom delimiter)

- Author -

__孤独患者__

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python difflib模块示例讲解

Sep 13 Python

JS设计模式之责任链模式实例详解

Feb 03 Python

opencv python 图像去噪的实现方法

Aug 31 Python

eclipse创建python项目步骤详解

May 10 Python

django与vue的完美结合_实现前后端的分离开发之后在整合的方法

Aug 12 Python

Python Django2.0集成Celery4.1教程

Nov 19 Python

Python实现使用dir获取类的方法列表

Dec 24 Python

python爬虫爬取监控教务系统的思路详解

Jan 08 Python

基于Pycharm加载多个项目过程图解

Jan 19 Python

python3中datetime库，time库以及pandas中的时间函数区别与详解

Apr 16 Python

Python带你从浅入深探究Tuple(基础篇)

May 15 Python

浅谈Python数学建模之线性规划

Jun 23 Python

如何清空python的变量

Jul 05 #Python

增大python字体的方法步骤

Jul 05 #Python

树莓派升级python的具体步骤

Jul 05 #Python

Python OpenCV去除字母后面的杂线操作

Jul 05 #Python

使用OpenCV去除面积较小的连通域

Jul 05 #Python

学python最电脑配置有要求么

Jul 05 #Python

浅谈OpenCV中的新函数connectedComponentsWithStats用法

Jul 05 #Python

You might like

php数组(array)输出的三种形式详解

2013/06/05 PHP

php绘图中显示不出图片的原因及解决

2014/03/05 PHP

php使用类继承解决代码重复的问题

2015/02/11 PHP

Django 标签筛选的实现代码(一对多、多对多)

2018/09/05 PHP

php面试中关于面向对象的相关问题

2019/02/13 PHP

php 实现银联商务H5支付的示例代码

2019/10/12 PHP

JavaScript实现维吉尼亚(Vigenere)密码算法实例

2013/11/22 Javascript

JavaScript模拟push

2016/03/06 Javascript

基于jquery实现图片放大功能

2016/05/07 Javascript

JS实现将Asp.Net的DateTime Json类型转换为标准时间的方法

2016/08/02 Javascript

jquery 点击元素后,滚动条滚动至该元素位置的方法

2016/08/05 Javascript

AngularJS 文件上传控件 ng-file-upload详解

2017/01/13 Javascript

简单实现nodejs上传功能

2017/01/14 NodeJs

jQuery获取Table某列的值（推荐）

2017/03/03 Javascript

vue-cli启动本地服务局域网不能访问的原因分析

2018/01/22 Javascript

JS实现的杨辉三角【帕斯卡三角形】算法示例

2019/02/26 Javascript

详解Nuxt.js 实战集锦

2019/11/19 Javascript

TensorFlow安装及jupyter notebook配置方法

2017/09/08 Python

Python用imghdr模块识别图片格式实例解析

2018/01/11 Python

解决python读取几千万行的大表内存问题

2018/06/26 Python

python实现飞机大战微信小游戏

2020/03/21 Python

深入浅析Python获取对象信息的函数type()、isinstance()、dir()

2018/09/17 Python

详解Python中pandas的安装操作说明(傻瓜版)

2019/04/08 Python

python3 pygame实现接小球游戏

2019/05/14 Python

python中类与对象之间的关系详解

2020/12/16 Python

用python对excel进行操作(读,写,修改)

2020/12/25 Python

Html5实现iPhone开机界面示例代码

2013/06/30 HTML / CSS

关于html字符串正则判断和匹配的具体使用

2019/12/12 HTML / CSS

英国布鲁姆精品店：Bloom Boutique

2018/03/01 全球购物

数据库方面面试题

2012/04/22 面试题

建筑工程技术应届生求职信

2013/11/17 职场文书

乡下人家教学反思

2014/02/01 职场文书

2014年四风问题个人对照自查剖析材料

2014/09/15 职场文书

机关党总支领导班子整改方案

2014/09/20 职场文书

2015年党员创先争优承诺书

2015/01/22 职场文书

幼儿园大班教师个人总结

2015/02/05 职场文书