编程 Python

详解Python解决抓取内容乱码问题（decode和encode解码）

Posted in Python onMarch 29, 2019

一、乱码问题描述

经常在爬虫或者一些操作的时候，经常会出现中文乱码等问题，如下

原因是源网页编码和爬取下来后的编码格式不一致

二、利用encode与decode解决乱码问题

字符串在Python内部的表示是unicode编码，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。

decode的作用是将其他编码的字符串转换成unicode编码，如str1.decode(‘gb2312')，表示将gb2312编码的字符串str1转换成unicode编码。

encode的作用是将unicode编码转换成其他编码的字符串，如str2.encode(‘utf-8')，表示将unicode编码的字符串str2转换成utf-8编码。

decode中写的就是想抓取的网页的编码，encode即自己想设置的编码

代码如下

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author: xulinjie time:2017/10/22
import urllib2

request=urllib2.Request(r'http://nhxy.zjxu.edu.cn/')
RES=urllib2.urlopen(request).read()
RES = RES.decode('gb2312').encode('utf-8')//解决乱码
wfile=open(r'./1.html',r'wb')
wfile.write(RES)
wfile.close()
print RES

或者

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author: xulinjie time:2017/10/22
import urllib2

request=urllib2.Request(r'http://nhxy.zjxu.edu.cn/')
RES=urllib2.urlopen(request).read()
RES=RES.decode('gb2312')
RES=RES.encode('utf-8')
wfile=open(r'./1.html',r'wb')
wfile.write(RES)
wfile.close()
print RES

但是还要注意：
如果一个字符串已经是unicode了，再进行解码则将出错，因此通常要对其编码方式是否为unicode进行判断

isinstance(s, unicode)#用来判断是否为unicode

用非unicode编码形式的str来encode会报错

所以最终可靠代码：

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author: xulinjie time:2017/10/22
import urllib2

request=urllib2.Request(r'http://nhxy.zjxu.edu.cn/')
RES=urllib2.urlopen(request).read()

if isinstance(RES, unicode):
 RES=RES.encode('utf-8')
else:
 RES=RES.decode('gb2312').encode('utf-8')

wfile=open(r'./1.html',r'wb')
wfile.write(RES)
wfile.close()
print RES

详解Python解决抓取内容乱码问题（decode和encode解码）

三、如何找到需要抓取的目标网页的编码格式

1、查看网页源代码

详解Python解决抓取内容乱码问题（decode和encode解码）

如果源代码中没有charset编码格式显示可以用下面的方法

2、检查元素，查看Response Headers

详解Python解决抓取内容乱码问题（decode和encode解码）

以上所述是小编给大家介绍的Python解决抓取内容乱码问题（decode和encode解码）详解整合，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持！

详解Python解决抓取内容乱码问题（decode和encode解码）

- Author -

浅然_

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python安装官方whl包和tar.gz包的方法(推荐)

Jun 04 Python

Python中max函数用于二维列表的实例

Apr 03 Python

python3+PyQt5+Qt Designer实现堆叠窗口部件

Apr 20 Python

Python3连接SQLServer、Oracle、MySql的方法

Jun 28 Python

Python实现的简单线性回归算法实例分析

Dec 26 Python

总结Python图形用户界面和游戏开发知识点

May 22 Python

python用for循环求和的方法总结

Jul 08 Python

python自带tkinter库实现棋盘覆盖图形界面

Jul 17 Python

Pycharm连接远程服务器并实现远程调试的实现

Aug 02 Python

树莓派极简安装OpenCv的方法步骤

Oct 10 Python

Python3将jpg转为pdf文件的方法示例

Dec 13 Python

使用Python三角函数公式计算三角形的夹角案例

Apr 15 Python

详解python读取和输出到txt

Mar 29 #Python

Python实现账号密码输错三次即锁定功能简单示例

Mar 29 #Python

详解Python函数式编程—高阶函数

Mar 29 #Python

python实现AES加密与解密

Mar 28 #Python

python实现计数排序与桶排序实例代码

Mar 28 #Python

python实现AES和RSA加解密的方法

Mar 28 #Python

python简单实现AES加密和解密

Mar 28 #Python

You might like

深入解析yii权限分级式访问控制的实现(非RBAC法)

2013/06/13 PHP

PHP中替换键名的简易方法示例详解

2014/01/07 PHP

php中get_object_vars()方法用法实例

2015/02/08 PHP

php有效防止同一用户多次登录

2015/11/19 PHP

详解Yii2 rules 的验证规则

2016/12/02 PHP

PHP小程序支付功能完整版【基于thinkPHP】

2019/03/26 PHP

PHP实现通过二维数组键值获取一维键名操作示例

2019/10/11 PHP

利用javascript实现一些常用软件的下载导航

2009/08/03 Javascript

Js 中debug方式

2010/02/07 Javascript

优化innerHTML操作(提高代码执行效率)

2011/08/20 Javascript

如何学习Javascript入门指导

2013/11/01 Javascript

js中的如何定位固定层的位置

2014/06/15 Javascript

jQuery搜索同辈元素方法

2015/02/10 Javascript

jQuery实现为图片添加镜头放大效果的方法

2015/06/25 Javascript

Node.js的项目构建工具Grunt的安装与配置教程

2016/05/12 Javascript

AngularJS入门教程之Cookies读写操作示例

2016/11/02 Javascript

vue 动态绑定背景图片的方法

2018/08/10 Javascript

JS绘图Flot如何实现可选显示曲线图功能

2020/10/16 Javascript

JavaScript代码实现简单计算器

2020/12/27 Javascript

Python实现对excel文件列表值进行统计的方法

2015/07/25 Python

python开发之字符串string操作方法实例详解

2015/11/12 Python

Python函数的周期性执行实现方法

2016/08/13 Python

利用PyInstaller将python程序.py转为.exe的方法详解

2017/05/03 Python

Python基于高斯消元法计算线性方程组示例

2018/01/17 Python

详解使用python绘制混淆矩阵（confusion_matrix）

2019/07/14 Python

python根据多个文件名批量查找文件

2019/08/13 Python

python中lower函数实现方法及用法讲解

2020/12/23 Python

python上下文管理器异常问题解决方法

2021/02/07 Python

贝玲妃英国官网：Benefit英国

2018/02/03 全球购物

全球高级音频和视频专家：HiDef Lifestyle

2019/08/02 全球购物

一套C#面试题

2013/10/09 面试题

专业幼师实习生自我鉴定范文

2013/12/08 职场文书

《会变的花树叶》教学反思

2014/02/10 职场文书

个人安全生产责任书

2014/07/28 职场文书

教学改革问题查摆整改措施

2014/09/27 职场文书

关于党风廉政建设宣传教育月的活动总结！

2019/08/08 职场文书