详解Python解决抓取内容乱码问题(decode和encode解码)


Posted in Python onMarch 29, 2019

一、乱码问题描述

经常在爬虫或者一些操作的时候,经常会出现中文乱码等问题,如下

详解Python解决抓取内容乱码问题(decode和encode解码)

原因是源网页编码和爬取下来后的编码格式不一致

 二、利用encode与decode解决乱码问题

字符串在Python内部的表示是unicode编码,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。

decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode(‘gb2312'),表示将gb2312编码的字符串str1转换成unicode编码。

encode的作用是将unicode编码转换成其他编码的字符串,如str2.encode(‘utf-8'),表示将unicode编码的字符串str2转换成utf-8编码。

decode中写的就是想抓取的网页的编码,encode即自己想设置的编码

代码如下

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author: xulinjie time:2017/10/22
import urllib2

request=urllib2.Request(r'http://nhxy.zjxu.edu.cn/')
RES=urllib2.urlopen(request).read()
RES = RES.decode('gb2312').encode('utf-8')//解决乱码
wfile=open(r'./1.html',r'wb')
wfile.write(RES)
wfile.close()
print RES

或者

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author: xulinjie time:2017/10/22
import urllib2

request=urllib2.Request(r'http://nhxy.zjxu.edu.cn/')
RES=urllib2.urlopen(request).read()
RES=RES.decode('gb2312')
RES=RES.encode('utf-8')
wfile=open(r'./1.html',r'wb')
wfile.write(RES)
wfile.close()
print RES

但是还要注意:
如果一个字符串已经是unicode了,再进行解码则将出错,因此通常要对其编码方式是否为unicode进行判断

isinstance(s, unicode)#用来判断是否为unicode

用非unicode编码形式的str来encode会报错

所以最终可靠代码:

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author: xulinjie time:2017/10/22
import urllib2

request=urllib2.Request(r'http://nhxy.zjxu.edu.cn/')
RES=urllib2.urlopen(request).read()

if isinstance(RES, unicode):
 RES=RES.encode('utf-8')
else:
 RES=RES.decode('gb2312').encode('utf-8')

wfile=open(r'./1.html',r'wb')
wfile.write(RES)
wfile.close()
print RES

详解Python解决抓取内容乱码问题(decode和encode解码)

三、如何找到需要抓取的目标网页的编码格式

1、查看网页源代码

详解Python解决抓取内容乱码问题(decode和encode解码)

如果源代码中没有charset编码格式显示可以用下面的方法

2、检查元素,查看Response Headers

详解Python解决抓取内容乱码问题(decode和encode解码)

以上所述是小编给大家介绍的Python解决抓取内容乱码问题(decode和encode解码)详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
python访问sqlserver示例
Feb 10 Python
Python抓取淘宝下拉框关键词的方法
Jul 08 Python
Python编程中的异常处理教程
Aug 21 Python
python 中split 和 strip的实例详解
Jul 12 Python
Python中的默认参数实例分析
Jan 29 Python
python一键去抖音视频水印工具
Sep 14 Python
把JSON数据格式转换为Python的类对象方法详解(两种方法)
Jun 04 Python
python实现证件照换底功能
Aug 20 Python
python GUI库图形界面开发之PyQt5不规则窗口实现与显示GIF动画的详细方法与实例
Mar 09 Python
django模板获取list中指定索引的值方式
May 14 Python
pycharm 关掉syntax检查操作
Jun 09 Python
OpenCV中resize函数插值算法的实现过程(五种)
Jun 05 Python
详解python读取和输出到txt
Mar 29 #Python
Python实现账号密码输错三次即锁定功能简单示例
Mar 29 #Python
详解Python函数式编程—高阶函数
Mar 29 #Python
python实现AES加密与解密
Mar 28 #Python
python实现计数排序与桶排序实例代码
Mar 28 #Python
python实现AES和RSA加解密的方法
Mar 28 #Python
python简单实现AES加密和解密
Mar 28 #Python
You might like
php中使用ExcelFileParser处理excel获得数据(可作批量导入到数据库使用)
2010/08/21 PHP
克隆一个新项目的快捷方式
2013/04/10 PHP
给ECShop添加最新评论
2015/01/07 PHP
js 返回时间戳所对应的具体时间
2010/07/20 Javascript
你必须知道的Javascript知识点之"深入理解作用域链"的介绍
2013/04/23 Javascript
JS子父窗口互相操作取值赋值的方法介绍
2013/05/11 Javascript
Vue.js系列之vue-router(上)(3)
2017/01/03 Javascript
Node.js制作简单聊天室
2017/01/12 Javascript
jQuery实现扑克正反面翻牌效果
2017/03/10 Javascript
原生Aajax 和jQuery Ajax 写法个人总结
2017/03/24 jQuery
vue2项目使用sass的示例代码
2017/06/28 Javascript
原生JS封装_new函数实现new关键字的功能
2018/08/12 Javascript
原生js实现淘宝放大镜效果
2020/10/28 Javascript
JS异步执行结果获取的3种解决方式
2019/02/19 Javascript
Node对CommonJS的模块规范
2019/11/06 Javascript
JS控制只能输入数字并且最多允许小数点两位
2019/11/24 Javascript
详解React路由传参方法汇总记录
2020/11/29 Javascript
关于你不想知道的所有Python3 unicode特性
2014/11/28 Python
python实现的文件同步服务器实例
2015/06/02 Python
使用python编写udp协议的ping程序方法
2018/04/22 Python
查看django版本的方法分享
2018/05/14 Python
Python多线程threading创建及使用方法解析
2020/06/17 Python
Django-silk性能测试工具安装及使用解析
2020/11/28 Python
使用CSS3来制作消息提醒框
2015/07/12 HTML / CSS
Cole Haan官方网站:美国时尚潮流品牌
2017/12/06 全球购物
美国体育用品商店:Rally House(NCAA、NFL、MLB、NBA、NHL和MLS)
2018/01/03 全球购物
戴尔美国官方折扣店:Dell Outlet
2018/02/13 全球购物
英国婴儿和儿童服装网站:Vertbaudet
2018/04/02 全球购物
闭幕式主持词
2014/04/02 职场文书
学前教育专业求职信
2014/09/02 职场文书
学校党的群众路线教育实践活动对照检查材料
2014/09/24 职场文书
新学期开学标语2015
2015/07/16 职场文书
军训阅兵新闻稿
2015/07/17 职场文书
2020年元旦祝福语录,总有适合你的
2019/12/31 职场文书
python和anaconda的区别
2022/05/06 Python
Nginx配置使用详解
2022/07/07 Servers