编程 Python

python黑魔法之编码转换

Posted in Python onJanuary 25, 2016

我们在使用其他语言的库做编码转换时，对于无法理解的字符，通常的处理也只有两种（或三种）：

抛异常
替换成替代字符
跳过

但是在复杂的现实世界中，由于各种不靠谱，我们处理的文本总会出现那么些不和谐因素，比如混合编码。在这种情况下，又回到了上面的处理办法。

那么问题来了，python有没有更好地办法呢？

答案是，有！

python的编码转换流程实际上是两段式转换：

source -> unicode -> dest

首先将字符串从原始编码转换成unicode。再将unicode转换成目标编码。

第一步我们一般采用decode()或者 unicode() 这两个函数完成。
第二步我们使用encode()函数完成。

在这里我们说的黑魔法就是在第一步实现。

decode和unicode函数都有一个叫做errors的可选参数。看看官方的描述：

errors may be given to set a different error
handling scheme. Default is 'strict' meaning that encoding errors raise
a UnicodeDecodeError. Other possible values are 'ignore' and 'replace'
as well as any other name registered with codecs. register_error that is
able to handle UnicodeDecodeErrors.

这个参数通常有三种值：

strict 默认值。如果出现编码错误，则会抛出UnicodeDecodeError。
ignore 跳过。
replace 用?替换。

好了，看到最后一句话了吗？好戏上演了！

模块codec有一个函数叫做register_error。他的作用让用户可以注册自定义的errors处理方法。
用来处理UnicodeDecodeError。

我们看看函数原型：

codecs.register_error(name, error_handler)

name: 错误处理的名称。用以填写在decode函数的error参数中。
error_handler: 处理函数。该函数接受一个异常参数。
返回一个tuple，该tuple有2个元素，第一个是纠错后的字符串，第二个是继续decode的起始位置

有了上面的基本概念。我们看下具体实现：

def cjk_error(e):
  if not isinstance(e, UnicodeDecodeError):
    raise TypeError("don't know how to handle %r" % exc) 
  if exc.end + 1 > len(exc.object): 
    raise TypeError('unknown codec ,the object too short!') 
  ch1 = ord(exc.object[exc.start:exc.end]) 
  newpos = exc.end + 1 
  ch2 = ord(exc.object[exc.start + 1:newpos]) 
  sk = exc.object[exc.start:newpos] 
  if 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0x7E<=ch2<=0xFE): # GBK 
    return (unicode(sk,'cp936'), newpos) 
  if 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0xA1<=ch2<=0xFE): # BIG5 
    return (unicode(sk,'big5'), newpos) 
  raise TypeError('unknown codec !') 
codecs.register_error("cjk_replace", cjk_replace)

上面这个是我从网上copy的。开始我觉得很不错，但是后来发现是个很不经推敲的算法。
比如utf8和gbk在前两个字节就有交集的部分。当一个utf8的字符串以gbk编码decode的时候，出现错误是从第三个字节开始（前两个字节也能够在gbk编码范围中对应到一个汉字）。
如：

a = "你"              # utf8编码：'\xe4\xbd\xa0'
c = unicode(a[:2],'gbk')  # 正常返回
c = unicode(a, 'gbk')    # UnicodeDecodeError 。错误发生在第三个字节

所以针对这种情况，做了下改进：

import codec

def cjk_replace(e):
  if not isinstance(e, UnicodeDecodeError):
    raise TypeError("invalid exception type %s" e)

  src = e.encoding
  if src in ('gbk','gb18030', 'big5'):
    beg = e.start - 2
    if beg >= 0:
      try:
        return unicode(e.object[beg:e.end], 'utf8'), e.end + 1
      except:
        pass

  if exc.end + 1 > len(exc.object):
    raise TypeError('unknown codec ,the object too short!')
  ch1 = ord(exc.object[exc.start:exc.end])
  newpos = exc.end + 1
  ch2 = ord(exc.object[exc.start + 1:newpos])
  sk = exc.object[exc.start:newpos]

  if src != 'gbk' and 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0x7E<=ch2<=0xFE): # GBK
    return (unicode(sk,'cp936'), newpos)
  if src != 'big5' and 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0xA1<=ch2<=0xFE): # BIG5
    return (unicode(sk,'big5'), newpos)
  raise TypeError('unknown codec !')

codecs.register_error("cjk_replace", cjk_replace)

当然，这个逻辑其实还是不够严谨的。虽然对于这种混合编码这种畸形活处理有点较真儿。
不过既然python提供这样的能力，大家可以一起来讨论下，我们怎么可以做的更好?

python黑魔法之编码转换

- Author -

icedoom

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python对文件和目录进行操作的方法(file对象/os/os.path/shutil 模块)

May 08 Python

CentOS下使用yum安装python-pip失败的完美解决方法

Aug 16 Python

Python实现带参数与不带参数的多重继承示例

Jan 30 Python

深入分析python数据挖掘 Json结构分析

Apr 21 Python

python爬虫selenium和phantomJs使用方法解析

Aug 08 Python

Python封装成可带参数的EXE安装包实例

Aug 24 Python

TensorFlow设置日志级别的几种方式小结

Feb 04 Python

python如何实现单链表的反转

Feb 10 Python

python爬虫智能翻页批量下载文件的实例详解

Feb 02 Python

python抢购软件/插件/脚本附完整源码

Mar 04 Python

Python 实现绘制子图及子图刻度的变换等问题

May 31 Python

Python音乐爬虫完美绕过反爬

Aug 30 Python

Python编程中对文件和存储器的读写示例

Jan 25 #Python

Python开发如何在ubuntu 15.10 上配置vim

Jan 25 #Python

详解Python验证码识别

Jan 25 #Python

Python网站验证码识别

Jan 25 #Python

谈谈Python进行验证码识别的一些想法

Jan 25 #Python

基于Python Shell获取hostname和fqdn释疑

Jan 25 #Python

21行Python代码实现拼写检查器

Jan 25 #Python

You might like

用 php 编写的日历

2006/10/09 PHP

我的论坛源代码(一)

2006/10/09 PHP

php zend解密软件绿色版测试可用

2008/04/14 PHP

PHP数据库调用类调用实例(详细注释)

2012/07/12 PHP

php实现粘贴截图并完成上传功能

2015/05/17 PHP

php实现记事本案例

2020/10/20 PHP

JavaScript中的无阻塞加载性能优化方案

2014/10/10 Javascript

js Object2String方便查看js对象内容

2014/11/24 Javascript

jQuery事件绑定on()、bind()与delegate() 方法详解

2015/06/03 Javascript

angular源码学习第一篇 setupModuleLoader方法

2016/10/20 Javascript

js实现加载更多功能实例

2016/10/27 Javascript

微信小程序 POST请求（网络请求）详解及实例代码

2016/11/16 Javascript

angularJS 指令封装回到顶部示例详解

2017/01/22 Javascript

js实现简单的手风琴效果

2017/02/27 Javascript

js获取css的各种样式并且设置他们的方法

2017/08/22 Javascript

vue使用 better-scroll的参数和方法详解

2018/01/25 Javascript

浅谈Javascript中的对象和继承

2019/04/19 Javascript

小程序云开发获取不到数据库记录的解决方法

2019/05/18 Javascript

自定义Vue组件打包、发布到npm及使用教程

2019/05/22 Javascript

jquery实现广告上下滚动效果

2021/03/04 jQuery

详解Python的Flask框架中生成SECRET_KEY密钥的方法

2016/06/07 Python

django 发送邮件和缓存的实现代码

2018/07/18 Python

django使用LDAP验证的方法示例

2018/12/10 Python

对python读写文件去重、RE、set的使用详解

2018/12/11 Python

使用Python中的reduce()函数求积的实例

2019/06/28 Python

Django 设置多环境配置文件载入问题

2020/02/25 Python

基于python实现生成指定大小txt文档

2020/07/20 Python

使用python求斐波那契数列中第n个数的值示例代码

2020/07/26 Python

python七种方法判断字符串是否包含子串

2020/08/18 Python

英国最大的独立家具零售商：Furniture Village

2016/09/06 全球购物

项目副经理岗位职责

2013/12/30 职场文书

迎八一活动主题

2014/01/31 职场文书

人力资源管理求职信

2014/08/07 职场文书

浅谈Redis的keys命令到底有多慢

2021/10/05 Redis

Spring事务管理下synchronized锁失效问题的解决方法

2022/03/31 Java/Android

Python实现双向链表

2022/05/25 Python