详解Python解决抓取内容乱码问题(decode和encode解码)


Posted in Python onMarch 29, 2019

一、乱码问题描述

经常在爬虫或者一些操作的时候,经常会出现中文乱码等问题,如下

详解Python解决抓取内容乱码问题(decode和encode解码)

原因是源网页编码和爬取下来后的编码格式不一致

 二、利用encode与decode解决乱码问题

字符串在Python内部的表示是unicode编码,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。

decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode(‘gb2312'),表示将gb2312编码的字符串str1转换成unicode编码。

encode的作用是将unicode编码转换成其他编码的字符串,如str2.encode(‘utf-8'),表示将unicode编码的字符串str2转换成utf-8编码。

decode中写的就是想抓取的网页的编码,encode即自己想设置的编码

代码如下

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author: xulinjie time:2017/10/22
import urllib2

request=urllib2.Request(r'http://nhxy.zjxu.edu.cn/')
RES=urllib2.urlopen(request).read()
RES = RES.decode('gb2312').encode('utf-8')//解决乱码
wfile=open(r'./1.html',r'wb')
wfile.write(RES)
wfile.close()
print RES

或者

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author: xulinjie time:2017/10/22
import urllib2

request=urllib2.Request(r'http://nhxy.zjxu.edu.cn/')
RES=urllib2.urlopen(request).read()
RES=RES.decode('gb2312')
RES=RES.encode('utf-8')
wfile=open(r'./1.html',r'wb')
wfile.write(RES)
wfile.close()
print RES

但是还要注意:
如果一个字符串已经是unicode了,再进行解码则将出错,因此通常要对其编码方式是否为unicode进行判断

isinstance(s, unicode)#用来判断是否为unicode

用非unicode编码形式的str来encode会报错

所以最终可靠代码:

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author: xulinjie time:2017/10/22
import urllib2

request=urllib2.Request(r'http://nhxy.zjxu.edu.cn/')
RES=urllib2.urlopen(request).read()

if isinstance(RES, unicode):
 RES=RES.encode('utf-8')
else:
 RES=RES.decode('gb2312').encode('utf-8')

wfile=open(r'./1.html',r'wb')
wfile.write(RES)
wfile.close()
print RES

详解Python解决抓取内容乱码问题(decode和encode解码)

三、如何找到需要抓取的目标网页的编码格式

1、查看网页源代码

详解Python解决抓取内容乱码问题(decode和encode解码)

如果源代码中没有charset编码格式显示可以用下面的方法

2、检查元素,查看Response Headers

详解Python解决抓取内容乱码问题(decode和encode解码)

以上所述是小编给大家介绍的Python解决抓取内容乱码问题(decode和encode解码)详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
理解python多线程(python多线程简明教程)
Jun 09 Python
批处理与python代码混合编程的方法
May 19 Python
使用python判断你是青少年还是老年人
Nov 29 Python
python将list转为matrix的方法
Dec 12 Python
Python对象与引用的介绍
Jan 24 Python
详解Python_shutil模块
Mar 15 Python
解决Python安装时报缺少DLL问题【两种解决方法】
Jul 15 Python
python3.7将代码打包成exe程序并添加图标的方法
Oct 11 Python
关于pytorch中全连接神经网络搭建两种模式详解
Jan 14 Python
python实现从ftp服务器下载文件
Mar 03 Python
部署Django到阿里云服务器教程示例
Jun 03 Python
浅谈Python中的字符串
Jun 10 Python
详解python读取和输出到txt
Mar 29 #Python
Python实现账号密码输错三次即锁定功能简单示例
Mar 29 #Python
详解Python函数式编程—高阶函数
Mar 29 #Python
python实现AES加密与解密
Mar 28 #Python
python实现计数排序与桶排序实例代码
Mar 28 #Python
python实现AES和RSA加解密的方法
Mar 28 #Python
python简单实现AES加密和解密
Mar 28 #Python
You might like
德生PL550的电路分析
2021/03/02 无线电
第二章 PHP入门基础之php代码写法
2011/12/30 PHP
PHP正则表达式 /i, /is, /s, /isU等介绍
2014/10/23 PHP
PHP 生成N个不重复的随机数
2015/01/21 PHP
php通过function_exists检测函数是否存在的方法
2015/03/18 PHP
php字符串过滤strip_tags()函数用法实例分析
2019/06/24 PHP
JavaScript 学习初步 入门教程
2010/03/25 Javascript
JS 面向对象之神奇的prototype
2011/02/26 Javascript
javascript获取浏览器类型和版本的方法(js获取浏览器版本)
2014/03/13 Javascript
JavaScript中常用的六种互动方法示例
2015/03/13 Javascript
jquery+css实现的红色线条横向二级菜单效果
2015/08/22 Javascript
基于javascript实现listbox左右移动
2016/01/29 Javascript
浅谈jquery中next与siblings的区别
2016/10/27 Javascript
JavaScript 中 apply 、call 的详解
2017/03/21 Javascript
jQuery插件FusionCharts绘制2D柱状图和折线图的组合图效果示例【附demo源码】
2017/04/10 jQuery
微信小程序实现多宫格抽奖活动
2020/04/15 Javascript
vue项目使用微信公众号支付总结及遇到的坑
2018/10/23 Javascript
Node.js 使用axios读写influxDB的方法示例
2018/10/26 Javascript
Element中Slider滑块的具体使用
2020/07/29 Javascript
如何编写一个 Webpack Loader的实现
2020/10/18 Javascript
详解Python中的条件判断语句
2015/05/14 Python
初学python的操作难点总结(新手必看篇)
2017/08/03 Python
浅谈python之高阶函数和匿名函数
2019/03/21 Python
Python实现word2Vec model过程解析
2019/12/16 Python
python调用API接口实现登陆短信验证
2020/05/10 Python
迪士尼西班牙官方网上商店:ShopDisney西班牙
2020/02/02 全球购物
大学毕业感言200字
2014/03/09 职场文书
常务副总经理岗位职责
2014/04/12 职场文书
美术课外活动总结
2014/07/08 职场文书
2014县委书记四风对照检查材料思想汇报
2014/09/21 职场文书
2015年六年级班主任工作总结
2015/10/15 职场文书
2016幼儿园中班开学寄语
2015/12/03 职场文书
Python Pandas数据分析之iloc和loc的用法详解
2021/11/11 Python
一篇文章弄清楚Ajax请求的五个步骤
2022/03/17 Javascript
Vue组件更新数据v-model不生效的解决
2022/04/02 Vue.js
Vue 打包后相对路径的引用问题
2022/06/05 Vue.js