详解Python解决抓取内容乱码问题(decode和encode解码)


Posted in Python onMarch 29, 2019

一、乱码问题描述

经常在爬虫或者一些操作的时候,经常会出现中文乱码等问题,如下

详解Python解决抓取内容乱码问题(decode和encode解码)

原因是源网页编码和爬取下来后的编码格式不一致

 二、利用encode与decode解决乱码问题

字符串在Python内部的表示是unicode编码,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。

decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode(‘gb2312'),表示将gb2312编码的字符串str1转换成unicode编码。

encode的作用是将unicode编码转换成其他编码的字符串,如str2.encode(‘utf-8'),表示将unicode编码的字符串str2转换成utf-8编码。

decode中写的就是想抓取的网页的编码,encode即自己想设置的编码

代码如下

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author: xulinjie time:2017/10/22
import urllib2

request=urllib2.Request(r'http://nhxy.zjxu.edu.cn/')
RES=urllib2.urlopen(request).read()
RES = RES.decode('gb2312').encode('utf-8')//解决乱码
wfile=open(r'./1.html',r'wb')
wfile.write(RES)
wfile.close()
print RES

或者

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author: xulinjie time:2017/10/22
import urllib2

request=urllib2.Request(r'http://nhxy.zjxu.edu.cn/')
RES=urllib2.urlopen(request).read()
RES=RES.decode('gb2312')
RES=RES.encode('utf-8')
wfile=open(r'./1.html',r'wb')
wfile.write(RES)
wfile.close()
print RES

但是还要注意:
如果一个字符串已经是unicode了,再进行解码则将出错,因此通常要对其编码方式是否为unicode进行判断

isinstance(s, unicode)#用来判断是否为unicode

用非unicode编码形式的str来encode会报错

所以最终可靠代码:

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author: xulinjie time:2017/10/22
import urllib2

request=urllib2.Request(r'http://nhxy.zjxu.edu.cn/')
RES=urllib2.urlopen(request).read()

if isinstance(RES, unicode):
 RES=RES.encode('utf-8')
else:
 RES=RES.decode('gb2312').encode('utf-8')

wfile=open(r'./1.html',r'wb')
wfile.write(RES)
wfile.close()
print RES

详解Python解决抓取内容乱码问题(decode和encode解码)

三、如何找到需要抓取的目标网页的编码格式

1、查看网页源代码

详解Python解决抓取内容乱码问题(decode和encode解码)

如果源代码中没有charset编码格式显示可以用下面的方法

2、检查元素,查看Response Headers

详解Python解决抓取内容乱码问题(decode和encode解码)

以上所述是小编给大家介绍的Python解决抓取内容乱码问题(decode和encode解码)详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
python 合并文件的具体实例
Aug 08 Python
python正则表达式抓取成语网站
Nov 20 Python
python实现保存网页到本地示例
Mar 16 Python
Python3实现的画图及加载图片动画效果示例
Jan 19 Python
用于业余项目的8个优秀Python库
Sep 21 Python
提升Python程序性能的7个习惯
Apr 14 Python
Python实现将字符串的首字母变为大写,其余都变为小写的方法
Jun 11 Python
Django ORM多对多查询方法(自定义第三张表&ManyToManyField)
Aug 09 Python
python matplotlib库绘制散点图例题解析
Aug 10 Python
python2.7实现复制大量文件及文件夹资料
Aug 31 Python
关于Pytorch的MLP模块实现方式
Jan 07 Python
Python爬虫之用Xpath获取关键标签实现自动评论盖楼抽奖(二)
Jun 07 Python
详解python读取和输出到txt
Mar 29 #Python
Python实现账号密码输错三次即锁定功能简单示例
Mar 29 #Python
详解Python函数式编程—高阶函数
Mar 29 #Python
python实现AES加密与解密
Mar 28 #Python
python实现计数排序与桶排序实例代码
Mar 28 #Python
python实现AES和RSA加解密的方法
Mar 28 #Python
python简单实现AES加密和解密
Mar 28 #Python
You might like
Codeigniter检测表单post数据的方法
2015/03/21 PHP
PHP类相关知识点实例总结
2016/09/28 PHP
Laravel5.5新特性之友好报错以及展示详解
2017/08/13 PHP
通过PHP的Wrapper无缝迁移原有项目到新服务的实现方法
2020/04/02 PHP
Prototype RegExp对象 学习
2009/07/19 Javascript
js结合正则实现国内手机号段校验
2015/06/19 Javascript
javascript自定义in_array()函数实现方法
2015/08/03 Javascript
jQuery实现仿美橙互联两级导航菜单效果完整实例
2015/09/17 Javascript
node.js回调函数之阻塞调用与非阻塞调用
2015/11/13 Javascript
json格式数据的添加,删除及排序方法
2016/01/21 Javascript
浅析Bootstrap验证控件的使用
2016/06/23 Javascript
JavaScript实现Fly Bird小游戏
2016/12/15 Javascript
简单实现js无缝滚动效果
2017/02/05 Javascript
JavaScript正则替换HTML标签功能示例
2017/03/02 Javascript
微信小程序实现bindtap等事件传参
2019/04/08 Javascript
JavaScript实现背景自动切换小案例
2019/09/27 Javascript
jQuery实现鼠标移入显示蒙版效果
2020/01/11 jQuery
[44:47]Ti4 循环赛第三日 iG vs NaVi
2014/07/12 DOTA
[04:40]2016国际邀请赛中国区预选赛全程TOP10镜头集锦
2016/07/01 DOTA
删除目录下相同文件的python代码(逐级优化)
2012/05/25 Python
Python实现配置文件备份的方法
2015/07/30 Python
理解python中生成器用法
2017/12/20 Python
基于sklearn实现Bagging算法(python)
2019/07/11 Python
Python函数式编程实例详解
2020/01/17 Python
Python 窗体(tkinter)下拉列表框(Combobox)实例
2020/03/04 Python
英国快时尚女装购物网站:PrettyLittleThing
2018/08/15 全球购物
大学生心理活动总结
2014/07/04 职场文书
小学生勤俭节约演讲稿
2014/08/28 职场文书
社会治安综合治理责任书
2015/01/29 职场文书
高中社区服务活动报告
2015/02/05 职场文书
重阳节慰问信
2015/02/15 职场文书
庆七一主持词
2015/06/29 职场文书
大学军训通讯稿(2016最新版)
2015/12/21 职场文书
php远程请求CURL案例(爬虫、保存登录状态)
2021/04/01 PHP
只用20行Python代码实现屏幕录制功能
2021/06/02 Python
Spring Cloud OpenFeign模版化客户端
2022/06/25 Java/Android