python黑魔法之编码转换


Posted in Python onJanuary 25, 2016

我们在使用其他语言的库做编码转换时,对于无法理解的字符,通常的处理也只有两种(或三种):

  • 抛异常
  • 替换成替代字符
  • 跳过

但是在复杂的现实世界中,由于各种不靠谱,我们处理的文本总会出现那么些不和谐因素,比如混合编码。在这种情况下,又回到了上面的处理办法。

那么问题来了,python有没有更好地办法呢?

答案是,有!

python的编码转换流程实际上是两段式转换:

source -> unicode -> dest

首先将字符串从原始编码转换成unicode。再将unicode转换成目标编码。

第一步我们一般采用decode()或者 unicode() 这两个函数完成。
第二步我们使用encode()函数完成。

在这里我们说的黑魔法就是在第一步实现。

decode和unicode函数都有一个叫做errors的可选参数。看看官方的描述:

  • errors may be given to set a different error
  • handling scheme. Default is 'strict' meaning that encoding errors raise
  • a UnicodeDecodeError. Other possible values are 'ignore' and 'replace'
  • as well as any other name registered with codecs. register_error that is
  • able to handle UnicodeDecodeErrors.

这个参数通常有三种值:

  • strict 默认值。如果出现编码错误,则会抛出UnicodeDecodeError。
  • ignore 跳过。
  • replace 用?替换。

好了,看到最后一句话了吗?好戏上演了!

模块codec有一个函数叫做register_error。他的作用让用户可以注册自定义的errors处理方法。
用来处理UnicodeDecodeError。

我们看看函数原型:

codecs.register_error(name, error_handler)

name: 错误处理的名称。用以填写在decode函数的error参数中。
error_handler: 处理函数。该函数接受一个异常参数。
返回一个tuple,该tuple有2个元素,第一个是纠错后的字符串,第二个是继续decode的起始位置

有了上面的基本概念。我们看下具体实现:

def cjk_error(e):
  if not isinstance(e, UnicodeDecodeError):
    raise TypeError("don't know how to handle %r" % exc) 
  if exc.end + 1 > len(exc.object): 
    raise TypeError('unknown codec ,the object too short!') 
  ch1 = ord(exc.object[exc.start:exc.end]) 
  newpos = exc.end + 1 
  ch2 = ord(exc.object[exc.start + 1:newpos]) 
  sk = exc.object[exc.start:newpos] 
  if 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0x7E<=ch2<=0xFE): # GBK 
    return (unicode(sk,'cp936'), newpos) 
  if 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0xA1<=ch2<=0xFE): # BIG5 
    return (unicode(sk,'big5'), newpos) 
  raise TypeError('unknown codec !') 
codecs.register_error("cjk_replace", cjk_replace)

上面这个是我从网上copy的。开始我觉得很不错,但是后来发现是个很不经推敲的算法。
比如utf8和gbk在前两个字节就有交集的部分。当一个utf8的字符串以gbk编码decode的时候,出现错误是从第三个字节开始(前两个字节也能够在gbk编码范围中对应到一个汉字)。
如:

a = "你"              # utf8编码:'\xe4\xbd\xa0'
c = unicode(a[:2],'gbk')  # 正常返回
c = unicode(a, 'gbk')    # UnicodeDecodeError 。错误发生在第三个字节

所以针对这种情况,做了下改进:

import codec

def cjk_replace(e):
  if not isinstance(e, UnicodeDecodeError):
    raise TypeError("invalid exception type %s" e)

  src = e.encoding
  if src in ('gbk','gb18030', 'big5'):
    beg = e.start - 2
    if beg >= 0:
      try:
        return unicode(e.object[beg:e.end], 'utf8'), e.end + 1
      except:
        pass

  if exc.end + 1 > len(exc.object):
    raise TypeError('unknown codec ,the object too short!')
  ch1 = ord(exc.object[exc.start:exc.end])
  newpos = exc.end + 1
  ch2 = ord(exc.object[exc.start + 1:newpos])
  sk = exc.object[exc.start:newpos]

  if src != 'gbk' and 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0x7E<=ch2<=0xFE): # GBK
    return (unicode(sk,'cp936'), newpos)
  if src != 'big5' and 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0xA1<=ch2<=0xFE): # BIG5
    return (unicode(sk,'big5'), newpos)
  raise TypeError('unknown codec !')

codecs.register_error("cjk_replace", cjk_replace)

当然,这个逻辑其实还是不够严谨的。虽然对于这种混合编码这种畸形活处理有点较真儿。
不过既然python提供这样的能力,大家可以一起来讨论下,我们怎么可以做的更好?

Python 相关文章推荐
VTK与Python实现机械臂三维模型可视化详解
Dec 13 Python
基于Python实现的ID3决策树功能示例
Jan 02 Python
python list删除元素时要注意的坑点分享
Apr 18 Python
Python使用Flask-SQLAlchemy连接数据库操作示例
Aug 31 Python
几行Python代码爬取3000+上市公司的信息
Jan 24 Python
Python3之手动创建迭代器的实例代码
May 22 Python
Django框架实现的分页demo示例
May 25 Python
Python Gitlab Api 使用方法
Aug 28 Python
基于python的列表list和集合set操作
Nov 24 Python
关于Pytorch MaxUnpool2d中size操作方式
Jan 03 Python
python3 简单实现组合设计模式
Jul 02 Python
Pytorch中的学习率衰减及其用法详解
Jun 05 Python
Python编程中对文件和存储器的读写示例
Jan 25 #Python
Python开发如何在ubuntu 15.10 上配置vim
Jan 25 #Python
详解Python验证码识别
Jan 25 #Python
Python网站验证码识别
Jan 25 #Python
谈谈Python进行验证码识别的一些想法
Jan 25 #Python
基于Python Shell获取hostname和fqdn释疑
Jan 25 #Python
21行Python代码实现拼写检查器
Jan 25 #Python
You might like
咖啡与牛奶
2021/03/03 冲泡冲煮
ajax缓存问题解决途径
2006/12/06 PHP
PHP 程序员也要学会使用“异常”
2009/06/16 PHP
使用PHP备份MySQL和网站发送到邮箱实例代码
2013/11/28 PHP
javascript 构建一个xmlhttp对象池合理创建和使用xmlhttp对象
2010/01/15 Javascript
js创建子窗口并且回传值示例代码
2013/07/02 Javascript
动态的绑定事件addEventListener方法的使用
2014/01/24 Javascript
json中换行符的处理方法示例介绍
2014/06/10 Javascript
jquery和css3实现的炫酷时尚的菜单导航
2014/09/01 Javascript
jQuery自带的一些常用方法总结
2014/09/03 Javascript
js/jquery判断浏览器类型的方法小结
2015/05/12 Javascript
vue-resourse将json数据输出实例
2017/03/08 Javascript
Bootstrap栅格系统使用方法及页面调整变形的解决方法
2017/03/10 Javascript
es6 字符串String的扩展(实例讲解)
2017/08/03 Javascript
vue.js高德地图实现热点图代码实例
2019/04/18 Javascript
用Vue.js方法创建模板并使用多个模板合成
2019/06/28 Javascript
原生JavaScript实现五子棋游戏
2020/11/09 Javascript
wxpython 学习笔记 第一天
2009/03/16 Python
python基础教程之自定义函数介绍
2014/08/29 Python
python解决方案:WindowsError: [Error 2]
2016/08/28 Python
Python数据拟合与广义线性回归算法学习
2017/12/22 Python
Python迭代器和生成器定义与用法示例
2018/02/10 Python
python模仿网页版微信发送消息功能
2018/02/24 Python
python中yaml配置文件模块的使用详解
2018/04/27 Python
python如何发布自已pip项目的方法步骤
2018/10/09 Python
Django中间件拦截未登录url实例详解
2019/09/03 Python
解析Python 偏函数用法全方位实现
2020/06/26 Python
Python基于unittest实现测试用例执行
2020/11/25 Python
澳大利亚家居用品零售商:Harris Scarfe
2020/10/10 全球购物
财会自我鉴定范文
2013/12/27 职场文书
文秘应聘自荐书范文
2014/02/18 职场文书
关爱留守儿童标语
2014/06/18 职场文书
2014年勤工助学工作总结
2014/11/24 职场文书
工作违纪检讨书范文
2015/01/26 职场文书
《暗黑破坏神2:重制版》本周进行第一轮A测 目前可官网进行申请报名
2021/04/07 其他游戏
python实现进度条的多种实现
2021/04/29 Python