python黑魔法之编码转换


Posted in Python onJanuary 25, 2016

我们在使用其他语言的库做编码转换时,对于无法理解的字符,通常的处理也只有两种(或三种):

  • 抛异常
  • 替换成替代字符
  • 跳过

但是在复杂的现实世界中,由于各种不靠谱,我们处理的文本总会出现那么些不和谐因素,比如混合编码。在这种情况下,又回到了上面的处理办法。

那么问题来了,python有没有更好地办法呢?

答案是,有!

python的编码转换流程实际上是两段式转换:

source -> unicode -> dest

首先将字符串从原始编码转换成unicode。再将unicode转换成目标编码。

第一步我们一般采用decode()或者 unicode() 这两个函数完成。
第二步我们使用encode()函数完成。

在这里我们说的黑魔法就是在第一步实现。

decode和unicode函数都有一个叫做errors的可选参数。看看官方的描述:

  • errors may be given to set a different error
  • handling scheme. Default is 'strict' meaning that encoding errors raise
  • a UnicodeDecodeError. Other possible values are 'ignore' and 'replace'
  • as well as any other name registered with codecs. register_error that is
  • able to handle UnicodeDecodeErrors.

这个参数通常有三种值:

  • strict 默认值。如果出现编码错误,则会抛出UnicodeDecodeError。
  • ignore 跳过。
  • replace 用?替换。

好了,看到最后一句话了吗?好戏上演了!

模块codec有一个函数叫做register_error。他的作用让用户可以注册自定义的errors处理方法。
用来处理UnicodeDecodeError。

我们看看函数原型:

codecs.register_error(name, error_handler)

name: 错误处理的名称。用以填写在decode函数的error参数中。
error_handler: 处理函数。该函数接受一个异常参数。
返回一个tuple,该tuple有2个元素,第一个是纠错后的字符串,第二个是继续decode的起始位置

有了上面的基本概念。我们看下具体实现:

def cjk_error(e):
  if not isinstance(e, UnicodeDecodeError):
    raise TypeError("don't know how to handle %r" % exc) 
  if exc.end + 1 > len(exc.object): 
    raise TypeError('unknown codec ,the object too short!') 
  ch1 = ord(exc.object[exc.start:exc.end]) 
  newpos = exc.end + 1 
  ch2 = ord(exc.object[exc.start + 1:newpos]) 
  sk = exc.object[exc.start:newpos] 
  if 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0x7E<=ch2<=0xFE): # GBK 
    return (unicode(sk,'cp936'), newpos) 
  if 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0xA1<=ch2<=0xFE): # BIG5 
    return (unicode(sk,'big5'), newpos) 
  raise TypeError('unknown codec !') 
codecs.register_error("cjk_replace", cjk_replace)

上面这个是我从网上copy的。开始我觉得很不错,但是后来发现是个很不经推敲的算法。
比如utf8和gbk在前两个字节就有交集的部分。当一个utf8的字符串以gbk编码decode的时候,出现错误是从第三个字节开始(前两个字节也能够在gbk编码范围中对应到一个汉字)。
如:

a = "你"              # utf8编码:'\xe4\xbd\xa0'
c = unicode(a[:2],'gbk')  # 正常返回
c = unicode(a, 'gbk')    # UnicodeDecodeError 。错误发生在第三个字节

所以针对这种情况,做了下改进:

import codec

def cjk_replace(e):
  if not isinstance(e, UnicodeDecodeError):
    raise TypeError("invalid exception type %s" e)

  src = e.encoding
  if src in ('gbk','gb18030', 'big5'):
    beg = e.start - 2
    if beg >= 0:
      try:
        return unicode(e.object[beg:e.end], 'utf8'), e.end + 1
      except:
        pass

  if exc.end + 1 > len(exc.object):
    raise TypeError('unknown codec ,the object too short!')
  ch1 = ord(exc.object[exc.start:exc.end])
  newpos = exc.end + 1
  ch2 = ord(exc.object[exc.start + 1:newpos])
  sk = exc.object[exc.start:newpos]

  if src != 'gbk' and 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0x7E<=ch2<=0xFE): # GBK
    return (unicode(sk,'cp936'), newpos)
  if src != 'big5' and 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0xA1<=ch2<=0xFE): # BIG5
    return (unicode(sk,'big5'), newpos)
  raise TypeError('unknown codec !')

codecs.register_error("cjk_replace", cjk_replace)

当然,这个逻辑其实还是不够严谨的。虽然对于这种混合编码这种畸形活处理有点较真儿。
不过既然python提供这样的能力,大家可以一起来讨论下,我们怎么可以做的更好?

Python 相关文章推荐
Python 获取新浪微博的最新公共微博实例分享
Jul 03 Python
跟老齐学Python之画圈还不简单吗?
Sep 20 Python
线程和进程的区别及Python代码实例
Feb 04 Python
使用rpclib进行Python网络编程时的注释问题
May 06 Python
在Django中管理Users和Permissions以及Groups的方法
Jul 23 Python
Python基础之getpass模块详细介绍
Aug 10 Python
Python中进程和线程的区别详解
Oct 29 Python
Python实现的redis分布式锁功能示例
May 29 Python
python关闭占用端口方式
Dec 17 Python
Python进程的通信Queue、Pipe实例分析
Mar 30 Python
如何使用scrapy中的ItemLoader提取数据
Sep 30 Python
pytorch中F.avg_pool1d()和F.avg_pool2d()的使用操作
May 22 Python
Python编程中对文件和存储器的读写示例
Jan 25 #Python
Python开发如何在ubuntu 15.10 上配置vim
Jan 25 #Python
详解Python验证码识别
Jan 25 #Python
Python网站验证码识别
Jan 25 #Python
谈谈Python进行验证码识别的一些想法
Jan 25 #Python
基于Python Shell获取hostname和fqdn释疑
Jan 25 #Python
21行Python代码实现拼写检查器
Jan 25 #Python
You might like
用PHP程序实现支持页面后退的两种方法
2008/06/30 PHP
php实现的zip文件内容比较类
2014/09/24 PHP
php数组分页实现方法
2016/04/30 PHP
PHP递归删除多维数组中的某个值
2017/04/17 PHP
JavaScript 浏览器验证代码(来自discuz)
2010/07/17 Javascript
Dreamweaver jQuery智能提示插件,支持版本提示,支持1.6api
2011/07/31 Javascript
javascript实现原生ajax的几种方法介绍
2013/09/21 Javascript
AngularJS基础学习笔记之指令
2015/05/10 Javascript
js小数运算出现多位小数如何解决
2015/10/08 Javascript
Active控件问题小结(附解决办法)
2016/06/09 Javascript
AngularJS深入探讨scope,继承结构,事件系统和生命周期
2016/11/02 Javascript
原生js实现放大镜特效
2017/03/08 Javascript
微信小程序按钮点击跳转页面详解
2019/05/06 Javascript
用vscode开发vue应用的方法步骤
2019/05/06 Javascript
微信小程序页面滚动到指定位置代码实例
2019/09/07 Javascript
vue 实现单选框设置默认选中值
2019/11/07 Javascript
jQuery实现全选按钮
2021/01/01 jQuery
python中as用法实例分析
2015/04/30 Python
简单谈谈Python流程控制语句
2016/12/04 Python
pycharm激活码有效到2020年11月底
2020/09/18 Python
Django如何使用redis作为缓存
2020/05/21 Python
Python简单实现词云图代码及步骤解析
2020/06/04 Python
django models里数据表插入数据id自增操作
2020/07/15 Python
纯HTML5+CSS3制作图片旋转
2016/01/12 HTML / CSS
HTML5自定义mp3播放器源码
2020/01/06 HTML / CSS
新浪网技术部笔试题
2016/08/26 面试题
到底Java是如何传递参数的?是by value或by reference?
2012/07/13 面试题
护士实习生自我鉴定范文
2013/12/10 职场文书
心理健康心得体会
2014/01/02 职场文书
阳光体育活动方案
2014/02/16 职场文书
《画风》教学反思
2014/04/16 职场文书
读书活动总结
2014/04/28 职场文书
汽车广告策划方案
2014/05/31 职场文书
宣传标语大全
2014/07/01 职场文书
授权委托书(法人单位用)
2014/09/29 职场文书
行为规范主题班会
2015/08/13 职场文书