python黑魔法之编码转换


Posted in Python onJanuary 25, 2016

我们在使用其他语言的库做编码转换时,对于无法理解的字符,通常的处理也只有两种(或三种):

  • 抛异常
  • 替换成替代字符
  • 跳过

但是在复杂的现实世界中,由于各种不靠谱,我们处理的文本总会出现那么些不和谐因素,比如混合编码。在这种情况下,又回到了上面的处理办法。

那么问题来了,python有没有更好地办法呢?

答案是,有!

python的编码转换流程实际上是两段式转换:

source -> unicode -> dest

首先将字符串从原始编码转换成unicode。再将unicode转换成目标编码。

第一步我们一般采用decode()或者 unicode() 这两个函数完成。
第二步我们使用encode()函数完成。

在这里我们说的黑魔法就是在第一步实现。

decode和unicode函数都有一个叫做errors的可选参数。看看官方的描述:

  • errors may be given to set a different error
  • handling scheme. Default is 'strict' meaning that encoding errors raise
  • a UnicodeDecodeError. Other possible values are 'ignore' and 'replace'
  • as well as any other name registered with codecs. register_error that is
  • able to handle UnicodeDecodeErrors.

这个参数通常有三种值:

  • strict 默认值。如果出现编码错误,则会抛出UnicodeDecodeError。
  • ignore 跳过。
  • replace 用?替换。

好了,看到最后一句话了吗?好戏上演了!

模块codec有一个函数叫做register_error。他的作用让用户可以注册自定义的errors处理方法。
用来处理UnicodeDecodeError。

我们看看函数原型:

codecs.register_error(name, error_handler)

name: 错误处理的名称。用以填写在decode函数的error参数中。
error_handler: 处理函数。该函数接受一个异常参数。
返回一个tuple,该tuple有2个元素,第一个是纠错后的字符串,第二个是继续decode的起始位置

有了上面的基本概念。我们看下具体实现:

def cjk_error(e):
  if not isinstance(e, UnicodeDecodeError):
    raise TypeError("don't know how to handle %r" % exc) 
  if exc.end + 1 > len(exc.object): 
    raise TypeError('unknown codec ,the object too short!') 
  ch1 = ord(exc.object[exc.start:exc.end]) 
  newpos = exc.end + 1 
  ch2 = ord(exc.object[exc.start + 1:newpos]) 
  sk = exc.object[exc.start:newpos] 
  if 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0x7E<=ch2<=0xFE): # GBK 
    return (unicode(sk,'cp936'), newpos) 
  if 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0xA1<=ch2<=0xFE): # BIG5 
    return (unicode(sk,'big5'), newpos) 
  raise TypeError('unknown codec !') 
codecs.register_error("cjk_replace", cjk_replace)

上面这个是我从网上copy的。开始我觉得很不错,但是后来发现是个很不经推敲的算法。
比如utf8和gbk在前两个字节就有交集的部分。当一个utf8的字符串以gbk编码decode的时候,出现错误是从第三个字节开始(前两个字节也能够在gbk编码范围中对应到一个汉字)。
如:

a = "你"              # utf8编码:'\xe4\xbd\xa0'
c = unicode(a[:2],'gbk')  # 正常返回
c = unicode(a, 'gbk')    # UnicodeDecodeError 。错误发生在第三个字节

所以针对这种情况,做了下改进:

import codec

def cjk_replace(e):
  if not isinstance(e, UnicodeDecodeError):
    raise TypeError("invalid exception type %s" e)

  src = e.encoding
  if src in ('gbk','gb18030', 'big5'):
    beg = e.start - 2
    if beg >= 0:
      try:
        return unicode(e.object[beg:e.end], 'utf8'), e.end + 1
      except:
        pass

  if exc.end + 1 > len(exc.object):
    raise TypeError('unknown codec ,the object too short!')
  ch1 = ord(exc.object[exc.start:exc.end])
  newpos = exc.end + 1
  ch2 = ord(exc.object[exc.start + 1:newpos])
  sk = exc.object[exc.start:newpos]

  if src != 'gbk' and 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0x7E<=ch2<=0xFE): # GBK
    return (unicode(sk,'cp936'), newpos)
  if src != 'big5' and 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0xA1<=ch2<=0xFE): # BIG5
    return (unicode(sk,'big5'), newpos)
  raise TypeError('unknown codec !')

codecs.register_error("cjk_replace", cjk_replace)

当然,这个逻辑其实还是不够严谨的。虽然对于这种混合编码这种畸形活处理有点较真儿。
不过既然python提供这样的能力,大家可以一起来讨论下,我们怎么可以做的更好?

Python 相关文章推荐
学习python (1)
Oct 31 Python
python调用新浪微博API项目实践
Jul 28 Python
Python字符串处理函数简明总结
Apr 13 Python
详解Python中time()方法的使用的教程
May 22 Python
python中getaddrinfo()基本用法实例分析
Jun 28 Python
利用Python学习RabbitMQ消息队列
Nov 30 Python
Python爬虫模拟登录带验证码网站
Jan 22 Python
python 设置文件编码格式的实现方法
Dec 21 Python
基于Python Numpy的数组array和矩阵matrix详解
Apr 04 Python
Tensorflow实现AlexNet卷积神经网络及运算时间评测
May 24 Python
python编程使用协程并发的优缺点
Sep 20 Python
python射线法判断检测点是否位于区域外接矩形内
Jun 28 Python
Python编程中对文件和存储器的读写示例
Jan 25 #Python
Python开发如何在ubuntu 15.10 上配置vim
Jan 25 #Python
详解Python验证码识别
Jan 25 #Python
Python网站验证码识别
Jan 25 #Python
谈谈Python进行验证码识别的一些想法
Jan 25 #Python
基于Python Shell获取hostname和fqdn释疑
Jan 25 #Python
21行Python代码实现拼写检查器
Jan 25 #Python
You might like
一个程序下载的管理程序(一)
2006/10/09 PHP
dedecms 批量提取第一张图片最为缩略图的代码(文章+软件)
2009/10/29 PHP
php 邮件发送问题解决
2014/03/22 PHP
ThinkPHP框架实现的邮箱激活功能示例
2018/06/15 PHP
php反序列化长度变化尾部字符串逃逸(0CTF-2016-piapiapia)
2020/02/15 PHP
JavaScript 脚本将当地时间转换成其它时区
2009/03/19 Javascript
dtree 网页树状菜单及传递对象集合到js内,动态生成节点
2012/04/14 Javascript
jQuery封装的获取Url中的Get参数示例
2013/11/26 Javascript
jquery教程限制文本框只能输入数字和小数点示例分享
2014/01/13 Javascript
Nodejs实现的一个简单udp广播服务器、客户端
2014/09/25 NodeJs
js实现飞入星星特效代码
2014/10/17 Javascript
JQuery调用绑定click事件的3种写法
2015/03/28 Javascript
js实现鼠标经过表格行变色的方法
2015/05/12 Javascript
深入理解JavaScript的React框架的原理
2015/07/02 Javascript
javascript实现3D变换的立体圆圈实例
2015/08/06 Javascript
jQuery实现文件上传进度条特效
2015/08/12 Javascript
基于JS2Image实现圣诞树代码
2015/12/24 Javascript
JavaScript制作颜色反转小游戏
2016/09/25 Javascript
H5移动端图片压缩上传开发流程
2016/11/09 Javascript
JavaScript校验Number(4,1)格式的数字实例代码
2017/03/13 Javascript
JavaScript实现职责链模式概述
2018/01/25 Javascript
nodejs读取并去重excel文件
2018/04/22 NodeJs
Vue.extend实现挂载到实例上的方法
2019/05/01 Javascript
js利用拖放实现添加删除
2020/08/27 Javascript
如何在vue-cli中使用css-loader实现css module
2021/01/07 Vue.js
[00:08]DOTA2勇士令状等级奖励“天外飞星”
2019/05/24 DOTA
通过Pandas读取大文件的实例
2018/06/07 Python
如何安装多版本python python2和python3共存以及pip共存
2018/09/18 Python
python机器学习之神经网络实现
2018/10/13 Python
使用Python的Turtle绘制哆啦A梦实例
2019/11/21 Python
美国顶级水上运动专业店:Marine Products
2018/04/15 全球购物
离婚协议书该怎么写
2014/10/04 职场文书
治庸问责工作总结
2015/08/11 职场文书
《浅水洼里的小鱼》教学反思
2016/02/16 职场文书
珍惜时间的诗歌赏析
2019/08/23 职场文书
【HBU】数据库第四周 单表查询
2021/04/05 SQL Server