python黑魔法之编码转换


Posted in Python onJanuary 25, 2016

我们在使用其他语言的库做编码转换时,对于无法理解的字符,通常的处理也只有两种(或三种):

  • 抛异常
  • 替换成替代字符
  • 跳过

但是在复杂的现实世界中,由于各种不靠谱,我们处理的文本总会出现那么些不和谐因素,比如混合编码。在这种情况下,又回到了上面的处理办法。

那么问题来了,python有没有更好地办法呢?

答案是,有!

python的编码转换流程实际上是两段式转换:

source -> unicode -> dest

首先将字符串从原始编码转换成unicode。再将unicode转换成目标编码。

第一步我们一般采用decode()或者 unicode() 这两个函数完成。
第二步我们使用encode()函数完成。

在这里我们说的黑魔法就是在第一步实现。

decode和unicode函数都有一个叫做errors的可选参数。看看官方的描述:

  • errors may be given to set a different error
  • handling scheme. Default is 'strict' meaning that encoding errors raise
  • a UnicodeDecodeError. Other possible values are 'ignore' and 'replace'
  • as well as any other name registered with codecs. register_error that is
  • able to handle UnicodeDecodeErrors.

这个参数通常有三种值:

  • strict 默认值。如果出现编码错误,则会抛出UnicodeDecodeError。
  • ignore 跳过。
  • replace 用?替换。

好了,看到最后一句话了吗?好戏上演了!

模块codec有一个函数叫做register_error。他的作用让用户可以注册自定义的errors处理方法。
用来处理UnicodeDecodeError。

我们看看函数原型:

codecs.register_error(name, error_handler)

name: 错误处理的名称。用以填写在decode函数的error参数中。
error_handler: 处理函数。该函数接受一个异常参数。
返回一个tuple,该tuple有2个元素,第一个是纠错后的字符串,第二个是继续decode的起始位置

有了上面的基本概念。我们看下具体实现:

def cjk_error(e):
  if not isinstance(e, UnicodeDecodeError):
    raise TypeError("don't know how to handle %r" % exc) 
  if exc.end + 1 > len(exc.object): 
    raise TypeError('unknown codec ,the object too short!') 
  ch1 = ord(exc.object[exc.start:exc.end]) 
  newpos = exc.end + 1 
  ch2 = ord(exc.object[exc.start + 1:newpos]) 
  sk = exc.object[exc.start:newpos] 
  if 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0x7E<=ch2<=0xFE): # GBK 
    return (unicode(sk,'cp936'), newpos) 
  if 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0xA1<=ch2<=0xFE): # BIG5 
    return (unicode(sk,'big5'), newpos) 
  raise TypeError('unknown codec !') 
codecs.register_error("cjk_replace", cjk_replace)

上面这个是我从网上copy的。开始我觉得很不错,但是后来发现是个很不经推敲的算法。
比如utf8和gbk在前两个字节就有交集的部分。当一个utf8的字符串以gbk编码decode的时候,出现错误是从第三个字节开始(前两个字节也能够在gbk编码范围中对应到一个汉字)。
如:

a = "你"              # utf8编码:'\xe4\xbd\xa0'
c = unicode(a[:2],'gbk')  # 正常返回
c = unicode(a, 'gbk')    # UnicodeDecodeError 。错误发生在第三个字节

所以针对这种情况,做了下改进:

import codec

def cjk_replace(e):
  if not isinstance(e, UnicodeDecodeError):
    raise TypeError("invalid exception type %s" e)

  src = e.encoding
  if src in ('gbk','gb18030', 'big5'):
    beg = e.start - 2
    if beg >= 0:
      try:
        return unicode(e.object[beg:e.end], 'utf8'), e.end + 1
      except:
        pass

  if exc.end + 1 > len(exc.object):
    raise TypeError('unknown codec ,the object too short!')
  ch1 = ord(exc.object[exc.start:exc.end])
  newpos = exc.end + 1
  ch2 = ord(exc.object[exc.start + 1:newpos])
  sk = exc.object[exc.start:newpos]

  if src != 'gbk' and 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0x7E<=ch2<=0xFE): # GBK
    return (unicode(sk,'cp936'), newpos)
  if src != 'big5' and 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0xA1<=ch2<=0xFE): # BIG5
    return (unicode(sk,'big5'), newpos)
  raise TypeError('unknown codec !')

codecs.register_error("cjk_replace", cjk_replace)

当然,这个逻辑其实还是不够严谨的。虽然对于这种混合编码这种畸形活处理有点较真儿。
不过既然python提供这样的能力,大家可以一起来讨论下,我们怎么可以做的更好?

Python 相关文章推荐
python getopt 参数处理小示例
Jun 09 Python
Python基于Matplotlib库简单绘制折线图的方法示例
Aug 14 Python
python使用os.listdir和os.walk获得文件的路径的方法
Dec 16 Python
Tensorflow之构建自己的图片数据集TFrecords的方法
Feb 07 Python
Python内置模块ConfigParser实现配置读写功能的方法
Feb 12 Python
Windows系统Python直接调用C++ DLL的方法
Aug 01 Python
python实现微信小程序用户登录、模板推送
Aug 28 Python
Python 实现网课实时监控自动签到、打卡功能
Mar 12 Python
Pycharm及python安装详细步骤及PyCharm配置整理(推荐)
Jul 31 Python
详解使用Python写一个向数据库填充数据的小工具(推荐)
Sep 11 Python
秀!学妹看见都惊呆的Python小招数!【详细语言特性使用技巧】
Apr 27 Python
python调试工具Birdseye的使用教程
May 25 Python
Python编程中对文件和存储器的读写示例
Jan 25 #Python
Python开发如何在ubuntu 15.10 上配置vim
Jan 25 #Python
详解Python验证码识别
Jan 25 #Python
Python网站验证码识别
Jan 25 #Python
谈谈Python进行验证码识别的一些想法
Jan 25 #Python
基于Python Shell获取hostname和fqdn释疑
Jan 25 #Python
21行Python代码实现拼写检查器
Jan 25 #Python
You might like
一个好用的分页函数
2006/11/16 PHP
首页四格,首页五格For6.0(GBK)(UTF-8)[12种组合][9-18][版主安装测试通过]
2007/09/24 PHP
队列在编程中的实际应用(php)
2010/09/04 PHP
PHP的explode和implode的使用说明
2011/07/17 PHP
PHP中的strtr函数使用介绍(str_replace)
2011/10/20 PHP
Laravel 5.0 发布 新版本特性详解
2015/02/10 PHP
php 数组处理函数extract详解及实例代码
2016/11/23 PHP
PHP严重致命错误处理:php Fatal error: Cannot redeclare class or function
2017/02/05 PHP
php的扩展写法总结
2019/05/14 PHP
PHP常用函数之获取汉字首字母功能示例
2019/10/21 PHP
如何用javascript去掉字符串里的所有空格
2007/02/08 Javascript
Js切换功能的简单方法
2010/11/23 Javascript
JavaScript定义类或函数的几种方式小结
2011/01/09 Javascript
jquery获取当前点击对象的value方法
2014/02/28 Javascript
js通过location.search来获取页面传来的参数
2014/09/11 Javascript
nodejs下打包模块archiver详解
2014/12/03 NodeJs
基于Jquery插件Uploadify实现实时显示进度条上传图片
2020/03/26 Javascript
jQuery实现底部浮动窗口效果
2016/09/07 Javascript
js实现移动端编辑添加地址【模仿京东】
2017/04/28 Javascript
JavaScript初学者必看“new”
2017/06/12 Javascript
react-native-fs实现文件下载、文本存储的示例代码
2017/09/22 Javascript
JavaScript图片处理与合成总结
2018/03/04 Javascript
JavaScript 截取字符串代码实例
2019/09/05 Javascript
vue elementUI 表单校验的实现代码(多层嵌套)
2019/11/06 Javascript
vue移动端模态框(可传参)的实现
2019/11/20 Javascript
sqlalchemy对象转dict的示例
2014/04/22 Python
python实现读取并显示图片的两种方法
2017/01/13 Python
浅谈Django中的数据库模型类-models.py(一对一的关系)
2018/05/30 Python
对python中数组的del,remove,pop区别详解
2018/11/07 Python
python json 递归打印所有json子节点信息的例子
2020/02/27 Python
python不同系统中打开方法
2020/06/23 Python
python可视化分析的实现(matplotlib、seaborn、ggplot2)
2021/02/03 Python
深入剖析webstorage[html5的本地数据处理]
2016/07/11 HTML / CSS
Html5页面内使用JSON动画的实现
2019/01/29 HTML / CSS
如何写你的创业计划书
2014/01/07 职场文书
住宅使用说明书
2014/05/09 职场文书