python解决汉字编码问题:Unicode Decode Error


Posted in Python onJanuary 19, 2017

前言

最近由于项目需要,需要读取一个含有中文的txt文档,完了还要保存文件。文档之前是由base64编码,导致所有汉字读取显示乱码。项目组把base64废弃之后,先后出现两个错误:

ascii codec can't encode characters in position ordinal not in range 128
UnicodeDecodeError: ‘utf8' codec can't decode byte 0x。

如果对于ascii、unicode和utf-8还不了解的小伙伴,可以看之前的这篇文章关于字符串和编码

那么必须对下面这三个概念有所了解:

  1. ascii只能表示数字、英文字母和一些特殊符号,不能表示汉字
  2. unicode和utf-8都可以表示汉字,unicode是固定长度,utf-8是可变长度
  3. 内存中存储方式一般为unicode,而磁盘文件存储方式一般为utf-8,因为utf-8可以节约存储空间

那么python的默认编码是什么?

>>> import sys
>>> sys.getdefaultencoding()
'ascii'
>>> reload(sys)
<module 'sys' (built-in)>
>>> sys.setdefaultencoding('utf-8')
>>> sys.getdefaultencoding()
'utf-8'

python的默认编码是ascii,可以通过sys.setdefaultencoding('utf-8')函数设置python的默认编码。

python中可以通过encode和decode的方式改变数据的编码,比如:

>>> u'汉字'
u'\u6c49\u5b57'
>>> u'汉字'.encode('utf-8')
'\xe6\xb1\x89\xe5\xad\x97'
>>> u'汉字'.encode('utf-8').decode('utf-8')
u'\u6c49\u5b57'

我们可以通过这两个函数设置编码。

那么,python中的str是什么类型?

>>> import binascii
>>> '汉字'
'\xba\xba\xd7\xd6'
>>> type('汉字')
<type 'str'>
>>> print binascii.b2a_hex('汉字')
babad7d6
>>> print binascii.b2a_hex(u'汉字')
Traceback (most recent call last):
 File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in
position 0-1: ordinal not in range(128)
>>> print binascii.b2a_hex(u'汉字'.encode('utf-8'))
e6b189e5ad97
>>> print binascii.b2a_hex(u'汉字'.encode('gbk'))
babad7d6

binascii是将数据的二进制转换成ascii,上面的解释是:‘汉字'的类型是str,二进制是babad7d6,u‘汉字'是无法转换成ascii,这样就报出了开头的第一个错误。解决办法就是把它.encode(‘utf-8')成str类型。因为我命令行是windows默认的GBK编码,所有u'汉字'.encode(‘gbk')的时候,输出结果和‘汉字'结果一样。

总结一下,python的str实际上是unicode的一种,python的默认编码是ascii,对于非ascii转成ascii的时候都会报错,牢记下面的规则:

  1. unicode => encode(‘合适的编码') => str
  2. str => decode(‘合适的编码') => unicode

还有一种简单的方式,就是在文件头设置编码,可以省去很多麻烦:

import sys
reloads(sys)
sys.setdefaultencoding('utf-8')

对于第二个问题,是在文件读取的时候出的错。utf-8的文件有bom和无bom两种方式,两者的差别好像在bom文件比无bom文件多了一个头,导致以utf-8方式读文件时报错,我先前曾尝试读文件的时候先对有无bom进行判断,跳过bom文件的头,后来失败了,真尴尬~~。

还得上google求助大神,具体的操作方法就是使用codecs库来读文件(我猜这个库就是对文件的头进行检测)。

import codecs
codecs.open(file_name, "r",encoding='utf-8', errors='ignore')

对于编码问题,一定要懂得ascii、unicode和utf-8工作原理。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流。

Python 相关文章推荐
Python设计模式中单例模式的实现及在Tornado中的应用
Mar 02 Python
Ubuntu下安装PyV8
Mar 13 Python
python 列表删除所有指定元素的方法
Apr 19 Python
python用fsolve、leastsq对非线性方程组求解
Dec 15 Python
Django错误:TypeError at / 'bool' object is not callable解决
Aug 16 Python
为什么说Python可以实现所有的算法
Oct 04 Python
使用python的turtle绘画滑稽脸实例
Nov 21 Python
学python最电脑配置有要求么
Jul 05 Python
django和flask哪个值得研究学习
Jul 31 Python
matplotlib事件处理基础(事件绑定、事件属性)
Feb 03 Python
python 中[0]*2与0*2的区别说明
May 10 Python
Requests什么的通通爬不了的Python超强反爬虫方案!
May 20 Python
Python 3.x 连接数据库示例(pymysql 方式)
Jan 19 #Python
Python爬取网易云音乐上评论火爆的歌曲
Jan 19 #Python
一步步教你用Python实现2048小游戏
Jan 19 #Python
python 开发的三种运行模式详细介绍
Jan 18 #Python
Python 3中的yield from语法详解
Jan 18 #Python
Python中的字符串操作和编码Unicode详解
Jan 18 #Python
关于Python中异常(Exception)的汇总
Jan 18 #Python
You might like
php iconv() : Detected an illegal character in input string
2010/12/05 PHP
yii实现创建验证码实例解析
2014/07/31 PHP
thinkphp3.2点击刷新生成验证码
2016/02/16 PHP
Laravel5.1自定义500错误页面示例
2016/10/09 PHP
仿中关村在线首页弹出式广告插件(jQuery版)
2012/05/03 Javascript
js style.display=block显示布局错乱问题的解决方法
2016/09/21 Javascript
Bootstrap缩略图与警告框学习使用
2017/02/08 Javascript
Angular4学习笔记之新建项目的方法
2017/07/18 Javascript
js断点调试心得分享(必看篇)
2017/12/08 Javascript
ReactNative中使用Redux架构总结
2017/12/15 Javascript
layer.open 按钮的点击事件关闭方法
2018/08/17 Javascript
在layer弹层layer.prompt中,修改placeholder的实现方法
2019/09/27 Javascript
关于vue-cli3打包代码后白屏的解决方案
2020/09/02 Javascript
swiperjs实现导航与tab页的联动
2020/12/13 Javascript
pydev使用wxpython找不到路径的解决方法
2013/02/10 Python
Python实现比较两个列表(list)范围
2015/06/12 Python
使用Python脚本实现批量网站存活检测遇到问题及解决方法
2016/10/11 Python
python实现简单爬虫功能的示例
2016/10/24 Python
python验证码识别教程之利用滴水算法分割图片
2018/06/05 Python
Python反爬虫技术之防止IP地址被封杀的讲解
2019/01/09 Python
Python3之不使用第三方变量,实现交换两个变量的值
2019/06/26 Python
详解numpy.meshgrid()方法使用
2019/08/01 Python
详解如何用TensorFlow训练和识别/分类自定义图片
2019/08/05 Python
django-rest-swagger的优化使用方法
2019/08/29 Python
如何运行带参数的python脚本
2019/11/15 Python
python Opencv计算图像相似度过程解析
2019/12/03 Python
django-csrf使用和禁用方式
2020/03/13 Python
基于Python爬取fofa网页端数据过程解析
2020/07/13 Python
通过实例简单了解python yield使用方法
2020/08/06 Python
纯CSS3实现自定义Tooltip边框涂鸦风格的教程
2014/11/05 HTML / CSS
关于幼儿的自我评价
2013/12/18 职场文书
电子商务网站的创业计划书
2014/01/05 职场文书
机电一体化职业规划书
2014/01/07 职场文书
冬季安全检查方案
2014/05/23 职场文书
2014党员学习兰辉先进事迹思想汇报
2014/09/17 职场文书
高中生军训感言
2015/08/01 职场文书