详解Python解决抓取内容乱码问题(decode和encode解码)


Posted in Python onMarch 29, 2019

一、乱码问题描述

经常在爬虫或者一些操作的时候,经常会出现中文乱码等问题,如下

详解Python解决抓取内容乱码问题(decode和encode解码)

原因是源网页编码和爬取下来后的编码格式不一致

 二、利用encode与decode解决乱码问题

字符串在Python内部的表示是unicode编码,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。

decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode(‘gb2312'),表示将gb2312编码的字符串str1转换成unicode编码。

encode的作用是将unicode编码转换成其他编码的字符串,如str2.encode(‘utf-8'),表示将unicode编码的字符串str2转换成utf-8编码。

decode中写的就是想抓取的网页的编码,encode即自己想设置的编码

代码如下

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author: xulinjie time:2017/10/22
import urllib2

request=urllib2.Request(r'http://nhxy.zjxu.edu.cn/')
RES=urllib2.urlopen(request).read()
RES = RES.decode('gb2312').encode('utf-8')//解决乱码
wfile=open(r'./1.html',r'wb')
wfile.write(RES)
wfile.close()
print RES

或者

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author: xulinjie time:2017/10/22
import urllib2

request=urllib2.Request(r'http://nhxy.zjxu.edu.cn/')
RES=urllib2.urlopen(request).read()
RES=RES.decode('gb2312')
RES=RES.encode('utf-8')
wfile=open(r'./1.html',r'wb')
wfile.write(RES)
wfile.close()
print RES

但是还要注意:
如果一个字符串已经是unicode了,再进行解码则将出错,因此通常要对其编码方式是否为unicode进行判断

isinstance(s, unicode)#用来判断是否为unicode

用非unicode编码形式的str来encode会报错

所以最终可靠代码:

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author: xulinjie time:2017/10/22
import urllib2

request=urllib2.Request(r'http://nhxy.zjxu.edu.cn/')
RES=urllib2.urlopen(request).read()

if isinstance(RES, unicode):
 RES=RES.encode('utf-8')
else:
 RES=RES.decode('gb2312').encode('utf-8')

wfile=open(r'./1.html',r'wb')
wfile.write(RES)
wfile.close()
print RES

详解Python解决抓取内容乱码问题(decode和encode解码)

三、如何找到需要抓取的目标网页的编码格式

1、查看网页源代码

详解Python解决抓取内容乱码问题(decode和encode解码)

如果源代码中没有charset编码格式显示可以用下面的方法

2、检查元素,查看Response Headers

详解Python解决抓取内容乱码问题(decode和encode解码)

以上所述是小编给大家介绍的Python解决抓取内容乱码问题(decode和encode解码)详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
Python写的PHPMyAdmin暴力破解工具代码
Aug 06 Python
Python中unittest用法实例
Sep 25 Python
python中__slots__用法实例
Jun 04 Python
实现python版本的按任意键继续/退出
Sep 26 Python
一步步教你用Python实现2048小游戏
Jan 19 Python
在PyCharm导航区中打开多个Project的关闭方法
Jan 17 Python
解决Pycharm调用Turtle时 窗口一闪而过的问题
Feb 16 Python
pycharm编写spark程序,导入pyspark包的3中实现方法
Aug 02 Python
使用python和pygame制作挡板弹球游戏
Dec 03 Python
Python迭代器Iterable判断方法解析
Mar 16 Python
django在开发中取消外键约束的实现
May 20 Python
Python钉钉报警及Zabbix集成钉钉报警的示例代码
Aug 17 Python
详解python读取和输出到txt
Mar 29 #Python
Python实现账号密码输错三次即锁定功能简单示例
Mar 29 #Python
详解Python函数式编程—高阶函数
Mar 29 #Python
python实现AES加密与解密
Mar 28 #Python
python实现计数排序与桶排序实例代码
Mar 28 #Python
python实现AES和RSA加解密的方法
Mar 28 #Python
python简单实现AES加密和解密
Mar 28 #Python
You might like
PHP array_multisort()函数的使用札记
2011/07/03 PHP
浅谈php自定义错误日志
2015/02/13 PHP
php基于Snoopy解析网页html的方法
2015/07/09 PHP
JavaScript 动态添加表格行 使用模板、标记
2009/10/24 Javascript
jquery中的ajax方法怎样通过JSONP进行远程调用
2014/05/04 Javascript
JQuery设置获取下拉菜单某个选项的值(比较全)
2014/08/05 Javascript
JavaScript检测鼠标移动方向的方法
2015/05/22 Javascript
JS实现table表格数据排序功能(可支持动态数据+分页效果)
2016/05/26 Javascript
jQuery实现的图片轮播效果完整示例
2016/09/12 Javascript
微信小程序 wx:key详细介绍
2016/10/28 Javascript
微信小程序 网络请求(GET请求)详解
2016/11/16 Javascript
原生JS实现 MUI导航栏透明渐变效果
2017/11/07 Javascript
jquery ajaxfileupload异步上传插件
2017/11/21 jQuery
layui表格分页 记录勾选的实例
2019/09/02 Javascript
微信小程序实现底部弹出模态框
2020/11/18 Javascript
[05:02][DOTA2]DOTA进化论 第一期
2013/09/27 DOTA
[07:49]2014DOTA2国际邀请赛 Newbee夺冠后采访xiao8坦言奖金会上交
2014/07/23 DOTA
[02:56]DOTA2亚洲邀请赛 VG出场战队巡礼
2015/02/07 DOTA
[47:18]完美世界DOTA2联赛循环赛 IO vs FTD BO2第一场 11.05
2020/11/06 DOTA
python thread 并发且顺序运行示例
2009/04/09 Python
讲解Python中fileno()方法的使用
2015/05/24 Python
python实现识别手写数字 python图像识别算法
2020/03/23 Python
python selenium 对浏览器标签页进行关闭和切换的方法
2018/05/21 Python
python中copy()与deepcopy()的区别小结
2018/08/03 Python
numpy中生成随机数的几种常用函数(小结)
2020/08/18 Python
美国一家运动专业鞋类零售商:Warehouse Shoe Sale(WSS)
2018/03/28 全球购物
效能监察建议书
2014/05/19 职场文书
商家认证委托书格式
2014/10/16 职场文书
机关党员四风问题个人整改措施
2014/10/26 职场文书
夫妻忠诚协议范文
2014/11/16 职场文书
企业战略合作意向书
2015/05/08 职场文书
幼儿园六一儿童节开幕词
2016/03/04 职场文书
numpy数据类型dtype转换实现
2021/04/24 Python
MySQL Shell的介绍以及安装
2021/04/24 MySQL
星际争霸:毕姥爷vs解冻03
2022/04/01 星际争霸
关于JS中的作用域中的问题思考分享
2022/04/06 Javascript