详解Python解决抓取内容乱码问题(decode和encode解码)


Posted in Python onMarch 29, 2019

一、乱码问题描述

经常在爬虫或者一些操作的时候,经常会出现中文乱码等问题,如下

详解Python解决抓取内容乱码问题(decode和encode解码)

原因是源网页编码和爬取下来后的编码格式不一致

 二、利用encode与decode解决乱码问题

字符串在Python内部的表示是unicode编码,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。

decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode(‘gb2312'),表示将gb2312编码的字符串str1转换成unicode编码。

encode的作用是将unicode编码转换成其他编码的字符串,如str2.encode(‘utf-8'),表示将unicode编码的字符串str2转换成utf-8编码。

decode中写的就是想抓取的网页的编码,encode即自己想设置的编码

代码如下

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author: xulinjie time:2017/10/22
import urllib2

request=urllib2.Request(r'http://nhxy.zjxu.edu.cn/')
RES=urllib2.urlopen(request).read()
RES = RES.decode('gb2312').encode('utf-8')//解决乱码
wfile=open(r'./1.html',r'wb')
wfile.write(RES)
wfile.close()
print RES

或者

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author: xulinjie time:2017/10/22
import urllib2

request=urllib2.Request(r'http://nhxy.zjxu.edu.cn/')
RES=urllib2.urlopen(request).read()
RES=RES.decode('gb2312')
RES=RES.encode('utf-8')
wfile=open(r'./1.html',r'wb')
wfile.write(RES)
wfile.close()
print RES

但是还要注意:
如果一个字符串已经是unicode了,再进行解码则将出错,因此通常要对其编码方式是否为unicode进行判断

isinstance(s, unicode)#用来判断是否为unicode

用非unicode编码形式的str来encode会报错

所以最终可靠代码:

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author: xulinjie time:2017/10/22
import urllib2

request=urllib2.Request(r'http://nhxy.zjxu.edu.cn/')
RES=urllib2.urlopen(request).read()

if isinstance(RES, unicode):
 RES=RES.encode('utf-8')
else:
 RES=RES.decode('gb2312').encode('utf-8')

wfile=open(r'./1.html',r'wb')
wfile.write(RES)
wfile.close()
print RES

详解Python解决抓取内容乱码问题(decode和encode解码)

三、如何找到需要抓取的目标网页的编码格式

1、查看网页源代码

详解Python解决抓取内容乱码问题(decode和encode解码)

如果源代码中没有charset编码格式显示可以用下面的方法

2、检查元素,查看Response Headers

详解Python解决抓取内容乱码问题(decode和encode解码)

以上所述是小编给大家介绍的Python解决抓取内容乱码问题(decode和encode解码)详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
python实现的简单窗口倒计时界面实例
May 05 Python
python中enumerate函数遍历元素用法分析
Mar 11 Python
用tensorflow搭建CNN的方法
Mar 05 Python
Windows 7下Python Web环境搭建图文教程
Mar 20 Python
获取python的list中含有重复值的index方法
Jun 27 Python
python 输出所有大小写字母的方法
Jan 02 Python
python中比较两个列表的实例方法
Jul 04 Python
python 将字符串中的数字相加求和的实现
Jul 18 Python
Python操作Sonqube API获取检测结果并打印过程解析
Nov 27 Python
在pytorch 中计算精度、回归率、F1 score等指标的实例
Jan 18 Python
Pyinstaller 打包发布经验总结
Jun 02 Python
python爬虫看看虎牙女主播中谁最“顶”步骤详解
Dec 01 Python
详解python读取和输出到txt
Mar 29 #Python
Python实现账号密码输错三次即锁定功能简单示例
Mar 29 #Python
详解Python函数式编程—高阶函数
Mar 29 #Python
python实现AES加密与解密
Mar 28 #Python
python实现计数排序与桶排序实例代码
Mar 28 #Python
python实现AES和RSA加解密的方法
Mar 28 #Python
python简单实现AES加密和解密
Mar 28 #Python
You might like
手把手教你使用DedeCms V3的在线采集图文教程
2007/04/03 PHP
PHP关于IE下的iframe跨域导致session丢失问题解决方法
2013/10/10 PHP
CI框架实现cookie登陆的方法详解
2016/05/18 PHP
Yii2实现上下联动下拉框功能的方法
2016/08/10 PHP
PHP实现的登录页面信息提示功能示例
2017/07/24 PHP
php app支付宝回调(异步通知)详解
2018/07/25 PHP
PHP+RabbitMQ实现消息队列的完整代码
2019/03/20 PHP
一段实现页面上的图片延时加载的js代码
2010/02/11 Javascript
纯CSS打造的导航菜单(附jquery版)
2010/08/07 Javascript
JS获取网页属性包括宽、高等等
2014/04/03 Javascript
EditPlus中的正则表达式 实战(2)
2016/12/15 Javascript
js基于myFocus实现轮播图效果
2017/02/14 Javascript
基于rem的移动端响应式适配方案(详解)
2017/07/07 Javascript
Bootstrap table使用方法记录
2017/08/23 Javascript
判断div滑动到底部的scroll实例代码
2017/11/15 Javascript
微信小程序实现给嵌套template模板传递数据的方式总结
2017/12/18 Javascript
Angular(5.2->6.1)升级小结
2018/12/27 Javascript
微信小程序3D轮播实现代码
2019/09/19 Javascript
js事件机制----捕获与冒泡机制实例分析
2020/05/22 Javascript
JS中准确判断变量类型的方法
2020/06/01 Javascript
PHP读取远程txt文档到数组并实现遍历
2020/08/25 Javascript
[57:55]完美世界DOTA2联赛PWL S3 Magma vs Phoenix 第二场 12.12
2020/12/16 DOTA
Python赋值语句后逗号的作用分析
2015/06/08 Python
python处理数据,存进hive表的方法
2018/07/04 Python
Python 列表反转显示的四种方法
2020/11/16 Python
Python使用Opencv实现边缘检测以及轮廓检测的实现
2020/12/31 Python
新西兰最大的品牌运动鞋购物网站:Platypus NZ
2017/10/27 全球购物
大学生标准推荐信范文
2013/11/25 职场文书
新学期决心书
2014/03/11 职场文书
物理分数没达标检讨书
2014/09/13 职场文书
学习党的群众路线剖析材料
2014/10/09 职场文书
政协会议宣传标语
2014/10/09 职场文书
2015年党员公开承诺书范文
2015/01/22 职场文书
大学生青年志愿者活动总结
2015/05/06 职场文书
OpenCV-Python实现人脸磨皮算法
2021/06/07 Python
python多次执行绘制条形图
2022/04/20 Python