python黑魔法之编码转换


Posted in Python onJanuary 25, 2016

我们在使用其他语言的库做编码转换时,对于无法理解的字符,通常的处理也只有两种(或三种):

  • 抛异常
  • 替换成替代字符
  • 跳过

但是在复杂的现实世界中,由于各种不靠谱,我们处理的文本总会出现那么些不和谐因素,比如混合编码。在这种情况下,又回到了上面的处理办法。

那么问题来了,python有没有更好地办法呢?

答案是,有!

python的编码转换流程实际上是两段式转换:

source -> unicode -> dest

首先将字符串从原始编码转换成unicode。再将unicode转换成目标编码。

第一步我们一般采用decode()或者 unicode() 这两个函数完成。
第二步我们使用encode()函数完成。

在这里我们说的黑魔法就是在第一步实现。

decode和unicode函数都有一个叫做errors的可选参数。看看官方的描述:

  • errors may be given to set a different error
  • handling scheme. Default is 'strict' meaning that encoding errors raise
  • a UnicodeDecodeError. Other possible values are 'ignore' and 'replace'
  • as well as any other name registered with codecs. register_error that is
  • able to handle UnicodeDecodeErrors.

这个参数通常有三种值:

  • strict 默认值。如果出现编码错误,则会抛出UnicodeDecodeError。
  • ignore 跳过。
  • replace 用?替换。

好了,看到最后一句话了吗?好戏上演了!

模块codec有一个函数叫做register_error。他的作用让用户可以注册自定义的errors处理方法。
用来处理UnicodeDecodeError。

我们看看函数原型:

codecs.register_error(name, error_handler)

name: 错误处理的名称。用以填写在decode函数的error参数中。
error_handler: 处理函数。该函数接受一个异常参数。
返回一个tuple,该tuple有2个元素,第一个是纠错后的字符串,第二个是继续decode的起始位置

有了上面的基本概念。我们看下具体实现:

def cjk_error(e):
  if not isinstance(e, UnicodeDecodeError):
    raise TypeError("don't know how to handle %r" % exc) 
  if exc.end + 1 > len(exc.object): 
    raise TypeError('unknown codec ,the object too short!') 
  ch1 = ord(exc.object[exc.start:exc.end]) 
  newpos = exc.end + 1 
  ch2 = ord(exc.object[exc.start + 1:newpos]) 
  sk = exc.object[exc.start:newpos] 
  if 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0x7E<=ch2<=0xFE): # GBK 
    return (unicode(sk,'cp936'), newpos) 
  if 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0xA1<=ch2<=0xFE): # BIG5 
    return (unicode(sk,'big5'), newpos) 
  raise TypeError('unknown codec !') 
codecs.register_error("cjk_replace", cjk_replace)

上面这个是我从网上copy的。开始我觉得很不错,但是后来发现是个很不经推敲的算法。
比如utf8和gbk在前两个字节就有交集的部分。当一个utf8的字符串以gbk编码decode的时候,出现错误是从第三个字节开始(前两个字节也能够在gbk编码范围中对应到一个汉字)。
如:

a = "你"              # utf8编码:'\xe4\xbd\xa0'
c = unicode(a[:2],'gbk')  # 正常返回
c = unicode(a, 'gbk')    # UnicodeDecodeError 。错误发生在第三个字节

所以针对这种情况,做了下改进:

import codec

def cjk_replace(e):
  if not isinstance(e, UnicodeDecodeError):
    raise TypeError("invalid exception type %s" e)

  src = e.encoding
  if src in ('gbk','gb18030', 'big5'):
    beg = e.start - 2
    if beg >= 0:
      try:
        return unicode(e.object[beg:e.end], 'utf8'), e.end + 1
      except:
        pass

  if exc.end + 1 > len(exc.object):
    raise TypeError('unknown codec ,the object too short!')
  ch1 = ord(exc.object[exc.start:exc.end])
  newpos = exc.end + 1
  ch2 = ord(exc.object[exc.start + 1:newpos])
  sk = exc.object[exc.start:newpos]

  if src != 'gbk' and 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0x7E<=ch2<=0xFE): # GBK
    return (unicode(sk,'cp936'), newpos)
  if src != 'big5' and 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0xA1<=ch2<=0xFE): # BIG5
    return (unicode(sk,'big5'), newpos)
  raise TypeError('unknown codec !')

codecs.register_error("cjk_replace", cjk_replace)

当然,这个逻辑其实还是不够严谨的。虽然对于这种混合编码这种畸形活处理有点较真儿。
不过既然python提供这样的能力,大家可以一起来讨论下,我们怎么可以做的更好?

Python 相关文章推荐
Python中输出ASCII大文字、艺术字、字符字小技巧
Apr 28 Python
使用Python的web.py框架实现类似Django的ORM查询的教程
May 02 Python
linux环境下的python安装过程图解(含setuptools)
Nov 22 Python
Python实现的生成格雷码功能示例
Jan 24 Python
详解python字节码
Feb 07 Python
Python实现利用163邮箱远程关电脑脚本
Feb 22 Python
python pycurl验证basic和digest认证的方法
May 02 Python
浅析PHP与Python进行数据交互
May 15 Python
详解Python3 基本数据类型
Apr 19 Python
python字符串Intern机制详解
Jul 01 Python
keras多显卡训练方式
Jun 10 Python
如何使用Python进行PDF图片识别OCR
Jan 22 Python
Python编程中对文件和存储器的读写示例
Jan 25 #Python
Python开发如何在ubuntu 15.10 上配置vim
Jan 25 #Python
详解Python验证码识别
Jan 25 #Python
Python网站验证码识别
Jan 25 #Python
谈谈Python进行验证码识别的一些想法
Jan 25 #Python
基于Python Shell获取hostname和fqdn释疑
Jan 25 #Python
21行Python代码实现拼写检查器
Jan 25 #Python
You might like
PHP 自定义错误处理函数的使用详解
2013/05/10 PHP
PHP图片等比缩放类SimpleImage使用方法和使用实例分享
2014/04/10 PHP
PHP 9 大缓存技术总结
2015/09/17 PHP
2款PHP无限级分类实例代码
2015/11/11 PHP
php使用环形链表解决约瑟夫问题完整示例
2018/08/07 PHP
PHP 实现 WebSocket 协议原理与应用详解
2020/04/22 PHP
JS 面向对象的5钟写法
2009/07/31 Javascript
jQuery ajax cache缓存问题
2010/07/01 Javascript
location.href 在IE6中不跳转的解决方法与推荐使用代码
2010/07/08 Javascript
用JS实现一个TreeMenu效果分享
2011/08/28 Javascript
javascript模拟map输出与去除重复项的方法
2015/02/09 Javascript
基于jQuery实现以手风琴方式展开和折叠导航菜单
2016/01/28 Javascript
基于jquery实现弹幕效果
2016/09/29 Javascript
jquery实现简单实用的轮播器
2017/05/23 jQuery
JavaScript无操作后屏保功能的实现方法
2017/07/04 Javascript
基于react后端渲染模板引擎noox发布使用
2018/01/11 Javascript
JS面向对象的程序设计相关知识小结
2018/05/26 Javascript
微信小程序实现运动步数排行功能(可删除)
2018/07/05 Javascript
angular6开发steps步骤条组件
2019/07/04 Javascript
vue通过video.js解决m3u8视频播放格式的方法
2019/07/30 Javascript
layer.alert回调函数执行关闭弹窗的实例
2019/09/11 Javascript
小程序接入腾讯位置服务的详细流程
2020/03/03 Javascript
微信小程序中的列表切换功能实例代码详解
2020/06/09 Javascript
Python实现压缩和解压缩ZIP文件的方法分析
2017/09/28 Python
python 脚本生成随机 字母 + 数字密码功能
2018/05/26 Python
Python通过调用有道翻译api实现翻译功能示例
2018/07/19 Python
python requests 库请求带有文件参数的接口实例
2019/01/03 Python
Python自动化运维之Ansible定义主机与组规则操作详解
2019/06/13 Python
Pytorch Tensor的索引与切片例子
2019/08/18 Python
个人简历自我评价八例
2013/10/31 职场文书
幼儿园园长岗位职责
2013/11/26 职场文书
给老婆的搞笑检讨书
2014/01/12 职场文书
宿舍打麻将检讨书
2014/01/24 职场文书
2014年银行员工年终自我评价
2014/09/19 职场文书
2014年出纳工作总结与计划
2014/12/09 职场文书
fastdfs+nginx集群搭建的实现
2021/03/31 Servers