编程 Python

Python3中编码与解码之Unicode与bytes的讲解

Posted in Python onFebruary 28, 2019

今天玩Python爬虫，下载一个网页，然后把所有内容写入一个txt文件中，出现错误；

TypeError: write() argument must be str, not bytes
AttributeError: 'URLError' object has no attribute 'code'
UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' inposition 5747: illegal multibyte sequence

一看就是编码问题，不懂，度娘上面这方面讲得不多，感觉没说清楚，自己研究了一晚上，摸出了一点门道。

从头说起，由于各国语言文字不同，起初要在计算机中表示，就有了各种各样的编码（例如中文的gb2312）。但是这样就出现了兼容性的问题，所以就有了Unicode，也就是所谓的万国码，python3中字符串类型str就是以Unicode编码格式编码，所以我们在Python3 中看到多种语言文字的字符串而不会出现乱码。

编码是一种用一种特定的方式对抽象字符（Unicode）转换为二进制形式（bytes）进行表示，也就是python3中的encode。解码就是对用特定方式表示的二进制数据用特定的方式转化为Unicode，也就是decode。

下图就是编码的核心：

一、字符的编码：

Python对于bites类型的数据用带‘b‘前缀的单引号活双引号表示。

下面关于字符编码解码的代码很好的解释了上面的流程图：

s='你好'
print(s)#输出结果：你好
print(type(s))#输出结果：<class 'str'>
s=s.encode('UTF-8')
print(s)#输出结果：b'\xe4\xbd\xa0\xe5\xa5\xbd'
print(type(s))#输出结果：<class 'bytes'>
s=s.decode('UTF-8')
print(s)#输出结果：你好
print(type(s))#输出结果：<class 'str'>

多说一句，如果你对str类型字符进行decode会报错，同理，对bytes类型进行encode也会报错。

二、文件编码

在python 3 中字符是以Unicode的形式存储的，当然这里所说的存储是指存储在计算机内存当中，如果是存储在硬盘里，Python 3的字符是以bytes形式存储，也就是说如果要将字符写入硬盘，就必须对字符进行encode。对上面这段话再解释一下，如果要将str写入文件，如果以‘w'模式写入，则要求写入的内容必须是str类型；如果以‘wb'形式写入，则要求写入的内容必须是bytes类型。文章开头出现的集中错误，就是因为写入模式与写入内容的数据类型不匹配造成的。

s1 = '你好'
#如果是以‘w'的方式写入，写入前一定要进行encoding，否则会报错 
with open('F:\\1.txt','w',encoding='utf-8') as f1:
  f1.write(s1)
s2 = s1.encode("utf-8")#转换为bytes的形式
#这时候写入方式一定要是‘wb'，且一定不能加encoding参数
with open('F:\\2.txt','wb') as f2:
  f2.write(s2)

有的人会问，我在系统里面用文本编辑器打开以bytes形式写入的2.txt文件，发现里面显示的是‘你好'，而不是‘b'\xe4\xbd\xa0\xe5\xa5\xbd''，因为文本文档打开2.txt时，又会对它进行decode，然后才给你看到。

三、网页的编码

网页编码和文件编码方法差不多，如下urlopen下载下来的网页read()且用decoding(‘utf-8')解码，那就必须以‘w'的方式写入文件。如果只是read()而不用encoding(‘utf-8')进行编码，一定要以‘wb'方式写入：

以‘w'方式写入时：

response= url_open('https://3water.com/article/157034.htm ' ,timeout=5 )
#此处以UTF-8方式进行解码，解码后的数据以unicode的方式存储在html中
html = response.read().decode('UTF-8')
print(type(html))#输出结果：<class 'str'>
#这时写入方式一定要加encoding,以encoding
# 即UTF-8的方式对二进制数据进行编码才能写入
with open('F:\DownloadAppData\html.txt',"w" , encoding='UTF-8') as f:
  f.write(html)

以‘wb'方式写入：

response= url_open('https://3water.com/article/157034.htm ' ,timeout=5 )
html = response.read()#此处不需要进行解码，下载下来
print(type(html))#输出结果：<class 'bytes'>
with open('F:\DownloadAppData\html.txt',"wb" ) as f:
  f.write(html)

如果要在Python3中，对urlopen下来的网页进行字符搜索，肯定也要进行decode，例如使用lxml.etree就必须进行decode。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python3中编码与解码之Unicode与bytes的讲解

- Author -

奥辰_

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python读大数据txt

Mar 28 Python

动感网页相册 python编写简单文件夹内图片浏览工具

Aug 17 Python

Python实现多线程HTTP下载器示例

Feb 11 Python

谈谈python中GUI的选择

Mar 01 Python

解决python3 网络请求路径包含中文的问题

May 10 Python

python之pyqt5通过按钮改变Label的背景颜色方法

Jun 13 Python

python pytest进阶之fixture详解

Jun 27 Python

Django外键（ForeignKey）操作以及related_name的作用详解

Jul 29 Python

Python lambda表达式filter、map、reduce函数用法解析

Sep 11 Python

python数据预处理方式 :数据降维

Feb 24 Python

python实现全排列代码(回溯、深度优先搜索)

Feb 26 Python

Pytest测试框架基本使用方法详解

Nov 25 Python

Python multiprocessing多进程原理与应用示例

Feb 28 #Python

Python中的异常处理try/except/finally/raise用法分析

Feb 28 #Python

python使用phoenixdb操作hbase的方法示例

Feb 28 #Python

Python面向对象程序设计中类的定义、实例化、封装及私有变量/方法详解

Feb 28 #Python

Python类的继承、多态及获取对象信息操作详解

Feb 28 #Python

django模板结构优化的方法

Feb 28 #Python

详解python做UI界面的方法

Feb 27 #Python

You might like

关于php curl获取301或302转向的网址问题的解决方法

2011/06/02 PHP

PHP array_multisort()函数的使用札记

2011/07/03 PHP

PHP如何通过AJAX方式实现登录功能

2015/11/23 PHP

PHP实现的猴王算法(猴子选大王)示例

2018/04/30 PHP

PHP设计模式之模板方法模式实例浅析

2018/12/20 PHP

Javascript 继承机制实例

2009/08/12 Javascript

微博@符号的用户名提示效果。(想@到谁？)

2010/11/05 Javascript

js函数名与form表单元素同名冲突的问题

2014/03/07 Javascript

js判断滚动条是否已到页面最底部或顶部实例

2014/11/20 Javascript

使用jquery.qrcode.min.js实现中文转化二维码

2016/03/11 Javascript

JavaScript 对象字面量讲解

2016/06/06 Javascript

jQuery ajaxForm()的应用

2016/10/14 Javascript

详谈Angular路由与Nodejs路由的区别

2017/03/05 NodeJs

jquery PrintArea 实现票据的套打功能(代码)

2017/03/17 Javascript

Bootstrap Table使用整理（三）

2017/06/09 Javascript

JS实现的简单表单验证功能示例

2017/10/13 Javascript

JS实现求5的阶乘示例

2019/01/21 Javascript

Node 代理访问的实现

2019/09/19 Javascript

微信小程序 textarea 层级过高问题简单解决方案

2019/10/14 Javascript

JavaScript设计模式--简单工厂模式实例分析【XHR工厂案例】

2020/05/23 Javascript

python利用有道翻译实现"语言翻译器"的功能实例

2017/11/14 Python

Python实现输入二叉树的先序和中序遍历，再输出后序遍历操作示例

2018/07/27 Python

python 读取Linux服务器上的文件方法

2018/12/27 Python

python中树与树的表示知识点总结

2019/09/14 Python

Django实现任意文件上传（最简单的方法）

2020/06/03 Python

HTML5+JS实现俄罗斯方块原理及具体步骤

2013/11/29 HTML / CSS

武汉英思工程科技有限公司–ORACLE面试测试题目

2012/04/30 面试题

超市5.1促销活动

2014/01/15 职场文书

初三政治教学反思

2014/01/30 职场文书

银行职员个人的工作自我评价

2014/02/15 职场文书

环保倡议书范文

2014/05/12 职场文书

学校三节实施方案

2014/06/09 职场文书

厕所文明标语

2014/06/11 职场文书

个人借款协议书范本

2014/11/17 职场文书

Github 使用python对copilot做些简单使用测试

2022/04/14 Python

服务器间如何实现文件共享

2022/05/20 Servers