python黑魔法之编码转换


Posted in Python onJanuary 25, 2016

我们在使用其他语言的库做编码转换时,对于无法理解的字符,通常的处理也只有两种(或三种):

  • 抛异常
  • 替换成替代字符
  • 跳过

但是在复杂的现实世界中,由于各种不靠谱,我们处理的文本总会出现那么些不和谐因素,比如混合编码。在这种情况下,又回到了上面的处理办法。

那么问题来了,python有没有更好地办法呢?

答案是,有!

python的编码转换流程实际上是两段式转换:

source -> unicode -> dest

首先将字符串从原始编码转换成unicode。再将unicode转换成目标编码。

第一步我们一般采用decode()或者 unicode() 这两个函数完成。
第二步我们使用encode()函数完成。

在这里我们说的黑魔法就是在第一步实现。

decode和unicode函数都有一个叫做errors的可选参数。看看官方的描述:

  • errors may be given to set a different error
  • handling scheme. Default is 'strict' meaning that encoding errors raise
  • a UnicodeDecodeError. Other possible values are 'ignore' and 'replace'
  • as well as any other name registered with codecs. register_error that is
  • able to handle UnicodeDecodeErrors.

这个参数通常有三种值:

  • strict 默认值。如果出现编码错误,则会抛出UnicodeDecodeError。
  • ignore 跳过。
  • replace 用?替换。

好了,看到最后一句话了吗?好戏上演了!

模块codec有一个函数叫做register_error。他的作用让用户可以注册自定义的errors处理方法。
用来处理UnicodeDecodeError。

我们看看函数原型:

codecs.register_error(name, error_handler)

name: 错误处理的名称。用以填写在decode函数的error参数中。
error_handler: 处理函数。该函数接受一个异常参数。
返回一个tuple,该tuple有2个元素,第一个是纠错后的字符串,第二个是继续decode的起始位置

有了上面的基本概念。我们看下具体实现:

def cjk_error(e):
  if not isinstance(e, UnicodeDecodeError):
    raise TypeError("don't know how to handle %r" % exc) 
  if exc.end + 1 > len(exc.object): 
    raise TypeError('unknown codec ,the object too short!') 
  ch1 = ord(exc.object[exc.start:exc.end]) 
  newpos = exc.end + 1 
  ch2 = ord(exc.object[exc.start + 1:newpos]) 
  sk = exc.object[exc.start:newpos] 
  if 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0x7E<=ch2<=0xFE): # GBK 
    return (unicode(sk,'cp936'), newpos) 
  if 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0xA1<=ch2<=0xFE): # BIG5 
    return (unicode(sk,'big5'), newpos) 
  raise TypeError('unknown codec !') 
codecs.register_error("cjk_replace", cjk_replace)

上面这个是我从网上copy的。开始我觉得很不错,但是后来发现是个很不经推敲的算法。
比如utf8和gbk在前两个字节就有交集的部分。当一个utf8的字符串以gbk编码decode的时候,出现错误是从第三个字节开始(前两个字节也能够在gbk编码范围中对应到一个汉字)。
如:

a = "你"              # utf8编码:'\xe4\xbd\xa0'
c = unicode(a[:2],'gbk')  # 正常返回
c = unicode(a, 'gbk')    # UnicodeDecodeError 。错误发生在第三个字节

所以针对这种情况,做了下改进:

import codec

def cjk_replace(e):
  if not isinstance(e, UnicodeDecodeError):
    raise TypeError("invalid exception type %s" e)

  src = e.encoding
  if src in ('gbk','gb18030', 'big5'):
    beg = e.start - 2
    if beg >= 0:
      try:
        return unicode(e.object[beg:e.end], 'utf8'), e.end + 1
      except:
        pass

  if exc.end + 1 > len(exc.object):
    raise TypeError('unknown codec ,the object too short!')
  ch1 = ord(exc.object[exc.start:exc.end])
  newpos = exc.end + 1
  ch2 = ord(exc.object[exc.start + 1:newpos])
  sk = exc.object[exc.start:newpos]

  if src != 'gbk' and 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0x7E<=ch2<=0xFE): # GBK
    return (unicode(sk,'cp936'), newpos)
  if src != 'big5' and 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0xA1<=ch2<=0xFE): # BIG5
    return (unicode(sk,'big5'), newpos)
  raise TypeError('unknown codec !')

codecs.register_error("cjk_replace", cjk_replace)

当然,这个逻辑其实还是不够严谨的。虽然对于这种混合编码这种畸形活处理有点较真儿。
不过既然python提供这样的能力,大家可以一起来讨论下,我们怎么可以做的更好?

Python 相关文章推荐
python中bisect模块用法实例
Sep 25 Python
Python实现快速多线程ping的方法
Jul 15 Python
使用Python对IP进行转换的一些操作技巧小结
Nov 09 Python
从头学Python之编写可执行的.py文件
Nov 28 Python
python从入门到精通 windows安装python图文教程
May 18 Python
Django 实现图片上传和显示过程详解
Jul 18 Python
检测tensorflow是否使用gpu进行计算的方式
Feb 03 Python
TensorBoard 计算图的可视化实现
Feb 15 Python
python实现音乐播放器 python实现花框音乐盒子
Feb 25 Python
BeautifulSoup中find和find_all的使用详解
Dec 07 Python
python实现scrapy爬虫每天定时抓取数据的示例代码
Jan 27 Python
Django+Celery实现定时任务的示例
Jun 23 Python
Python编程中对文件和存储器的读写示例
Jan 25 #Python
Python开发如何在ubuntu 15.10 上配置vim
Jan 25 #Python
详解Python验证码识别
Jan 25 #Python
Python网站验证码识别
Jan 25 #Python
谈谈Python进行验证码识别的一些想法
Jan 25 #Python
基于Python Shell获取hostname和fqdn释疑
Jan 25 #Python
21行Python代码实现拼写检查器
Jan 25 #Python
You might like
解密ThinkPHP3.1.2版本之模板继承
2014/06/19 PHP
php强制运行广告的方法
2014/12/01 PHP
PHP实现的比较完善的购物车类
2014/12/02 PHP
php定义一个参数带有默认值的函数实例分析
2015/03/16 PHP
PHP实现的简单分页类及用法示例
2016/05/06 PHP
图像替换新技术 状态域方法
2010/01/28 Javascript
jquery中使用ajax获取远程页面信息
2011/11/13 Javascript
JS添加删除一组文本框并对输入信息加以验证判断其正确性
2013/04/11 Javascript
Js与下拉列表处理问题解决
2014/02/13 Javascript
JS中类或对象的定义说明
2014/03/10 Javascript
AngularJS 中的指令实践开发指南(一)
2016/03/20 Javascript
AngularJS 工作原理详解
2016/08/18 Javascript
基于jQuery实现咖啡订单管理简单应用
2017/02/10 Javascript
jquery ajaxfileupload异步上传插件
2017/11/21 jQuery
JS实现数组简单去重及数组根据对象中的元素去重操作示例
2018/01/05 Javascript
AngularJS中ng-options实现下拉列表的数据绑定方法
2018/08/13 Javascript
javascript实现弹出层效果
2019/12/10 Javascript
python统计文本字符串里单词出现频率的方法
2015/05/26 Python
在Python中给Nan值更改为0的方法
2018/10/30 Python
Pytorch 高效使用GPU的操作
2020/06/27 Python
使用css3实现的windows8开机加载动画
2014/12/09 HTML / CSS
英国知名美妆护肤在线商城:Zest Beauty
2018/04/24 全球购物
英国助听器购物网站:Hearing Direct
2018/08/21 全球购物
英国亚马逊官方网站:Amazon.co.uk
2019/08/09 全球购物
数据库基础的一些面试题
2012/02/25 面试题
老公给老婆的道歉信
2014/01/10 职场文书
事假请假条范文
2014/04/11 职场文书
小学生期末评语
2014/04/21 职场文书
公务员学习习总书记“三严三实”思想汇报
2014/09/19 职场文书
乡镇务虚会发言材料
2014/10/20 职场文书
学生检讨书范文
2014/10/30 职场文书
会计工作态度自我评价
2015/03/06 职场文书
2015年暑期社会实践方案
2015/07/14 职场文书
员工聘用合同范本
2015/09/21 职场文书
《为人民服务》教学反思
2016/02/20 职场文书
学生检讨书范文
2019/06/24 职场文书