python解决汉字编码问题:Unicode Decode Error


Posted in Python onJanuary 19, 2017

前言

最近由于项目需要,需要读取一个含有中文的txt文档,完了还要保存文件。文档之前是由base64编码,导致所有汉字读取显示乱码。项目组把base64废弃之后,先后出现两个错误:

ascii codec can't encode characters in position ordinal not in range 128
UnicodeDecodeError: ‘utf8' codec can't decode byte 0x。

如果对于ascii、unicode和utf-8还不了解的小伙伴,可以看之前的这篇文章关于字符串和编码

那么必须对下面这三个概念有所了解:

  1. ascii只能表示数字、英文字母和一些特殊符号,不能表示汉字
  2. unicode和utf-8都可以表示汉字,unicode是固定长度,utf-8是可变长度
  3. 内存中存储方式一般为unicode,而磁盘文件存储方式一般为utf-8,因为utf-8可以节约存储空间

那么python的默认编码是什么?

>>> import sys
>>> sys.getdefaultencoding()
'ascii'
>>> reload(sys)
<module 'sys' (built-in)>
>>> sys.setdefaultencoding('utf-8')
>>> sys.getdefaultencoding()
'utf-8'

python的默认编码是ascii,可以通过sys.setdefaultencoding('utf-8')函数设置python的默认编码。

python中可以通过encode和decode的方式改变数据的编码,比如:

>>> u'汉字'
u'\u6c49\u5b57'
>>> u'汉字'.encode('utf-8')
'\xe6\xb1\x89\xe5\xad\x97'
>>> u'汉字'.encode('utf-8').decode('utf-8')
u'\u6c49\u5b57'

我们可以通过这两个函数设置编码。

那么,python中的str是什么类型?

>>> import binascii
>>> '汉字'
'\xba\xba\xd7\xd6'
>>> type('汉字')
<type 'str'>
>>> print binascii.b2a_hex('汉字')
babad7d6
>>> print binascii.b2a_hex(u'汉字')
Traceback (most recent call last):
 File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in
position 0-1: ordinal not in range(128)
>>> print binascii.b2a_hex(u'汉字'.encode('utf-8'))
e6b189e5ad97
>>> print binascii.b2a_hex(u'汉字'.encode('gbk'))
babad7d6

binascii是将数据的二进制转换成ascii,上面的解释是:‘汉字'的类型是str,二进制是babad7d6,u‘汉字'是无法转换成ascii,这样就报出了开头的第一个错误。解决办法就是把它.encode(‘utf-8')成str类型。因为我命令行是windows默认的GBK编码,所有u'汉字'.encode(‘gbk')的时候,输出结果和‘汉字'结果一样。

总结一下,python的str实际上是unicode的一种,python的默认编码是ascii,对于非ascii转成ascii的时候都会报错,牢记下面的规则:

  1. unicode => encode(‘合适的编码') => str
  2. str => decode(‘合适的编码') => unicode

还有一种简单的方式,就是在文件头设置编码,可以省去很多麻烦:

import sys
reloads(sys)
sys.setdefaultencoding('utf-8')

对于第二个问题,是在文件读取的时候出的错。utf-8的文件有bom和无bom两种方式,两者的差别好像在bom文件比无bom文件多了一个头,导致以utf-8方式读文件时报错,我先前曾尝试读文件的时候先对有无bom进行判断,跳过bom文件的头,后来失败了,真尴尬~~。

还得上google求助大神,具体的操作方法就是使用codecs库来读文件(我猜这个库就是对文件的头进行检测)。

import codecs
codecs.open(file_name, "r",encoding='utf-8', errors='ignore')

对于编码问题,一定要懂得ascii、unicode和utf-8工作原理。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流。

Python 相关文章推荐
python使用PIL缩放网络图片并保存的方法
Apr 24 Python
实例解析Python的Twisted框架中Deferred对象的用法
May 25 Python
python 环境变量和import模块导入方法(详解)
Jul 11 Python
python 判断网络连通的实现方法
Apr 22 Python
pandas.DataFrame删除/选取含有特定数值的行或列实例
Nov 07 Python
python aiohttp的使用详解
Jun 20 Python
Python容器使用的5个技巧和2个误区总结
Sep 26 Python
谈谈Python:为什么类中的私有属性可以在外部赋值并访问
Mar 05 Python
python datetime处理时间小结
Apr 16 Python
Python使用Matlab命令过程解析
Jun 04 Python
python爬虫使用正则爬取网站的实现
Aug 03 Python
Python实现机器学习算法的分类
Jun 03 Python
Python 3.x 连接数据库示例(pymysql 方式)
Jan 19 #Python
Python爬取网易云音乐上评论火爆的歌曲
Jan 19 #Python
一步步教你用Python实现2048小游戏
Jan 19 #Python
python 开发的三种运行模式详细介绍
Jan 18 #Python
Python 3中的yield from语法详解
Jan 18 #Python
Python中的字符串操作和编码Unicode详解
Jan 18 #Python
关于Python中异常(Exception)的汇总
Jan 18 #Python
You might like
上海无线电三厂简史修改版
2021/03/01 无线电
php中sprintf与printf函数用法区别解析
2014/02/17 PHP
单台服务器的PHP进程之间实现共享内存的方法
2014/06/13 PHP
php去除字符串中空字符的常用方法小结
2015/03/17 PHP
php5.4以上版本GBK编码下htmlspecialchars输出为空问题解决方法汇总
2015/04/03 PHP
详解EventDispatcher事件分发组件
2016/12/25 PHP
Firefox和IE浏览器兼容JS脚本写法小结
2008/07/07 Javascript
检测是否已安装 .NET Framework 3.5的js脚本
2009/02/14 Javascript
Javascript 浮点运算的问题分析与解决方法
2013/08/27 Javascript
javascript版的in_array函数(判断数组中是否存在特定值)
2014/05/09 Javascript
node.js+captchapng+jsonwebtoken实现登录验证示例
2017/08/17 Javascript
详解vue2 $watch要注意的问题
2017/09/08 Javascript
微信公众号H5支付接口调用方法
2019/01/10 Javascript
重学 JS:为啥 await 不能用在 forEach 中详解
2019/04/15 Javascript
在react中使用vue的状态管理的方法示例
2020/05/02 Javascript
python开发之thread实现布朗运动的方法
2015/11/11 Python
Python开发如何在ubuntu 15.10 上配置vim
2016/01/25 Python
Python3.6 Schedule模块定时任务(实例讲解)
2017/11/09 Python
利用django-suit模板添加自定义的菜单、页面及设置访问权限
2018/07/13 Python
利用python循环创建多个文件的方法
2018/10/25 Python
Python/Django后端使用PIL Image生成头像缩略图
2019/04/30 Python
python操作小程序云数据库实现简单的增删改查功能
2019/06/06 Python
怎么快速自学python
2020/06/22 Python
雪花秀美国官方网站:韩国著名草本护肤化妆品品牌
2016/10/19 全球购物
薇诺娜官方网上商城:专注敏感肌肤
2017/05/25 全球购物
美国男士和女士奢侈品折扣手表购物网站:Certified Watch Store
2018/06/13 全球购物
会计主管岗位职责
2014/01/03 职场文书
五水共治捐款倡议书
2014/05/14 职场文书
副总经理党的群众路线教育实践活动个人对照检查材料思想汇报
2014/10/06 职场文书
汽车转让协议书范本
2014/12/07 职场文书
幼儿园圣诞节活动总结
2015/05/06 职场文书
教务处教学工作总结
2015/08/10 职场文书
单位病假条范文
2015/08/17 职场文书
Lakehouse数据湖并发控制陷阱分析
2022/03/31 Oracle
MySQL三种方式实现递归查询
2022/04/18 MySQL
Mysql的Table doesn't exist问题及解决
2022/12/24 MySQL