浅谈Python爬取网页的编码处理


Posted in Python onNovember 04, 2016

背景

中秋的时候,一个朋友给我发了一封邮件,说他在爬链家的时候,发现网页返回的代码都是乱码,让我帮他参谋参谋(中秋加班,真是敬业= =!),其实这个问题我很早就遇到过,之前在爬小说的时候稍微看了一下,不过没当回事,其实这个问题就是对编码的理解不到位导致的。

问题

很普通的一个爬虫代码,代码是这样的:

# ecoding=utf-8
import re
import requests
import sys
reload(sys)
sys.setdefaultencoding('utf8')

url = 'http://3water.com/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'
res = requests.get(url)
print res.text

目的其实很简单,就是爬一下链家的内容,但是这样执行之后,返回的结果,所有涉及到中文的内容,全部会变成乱码,比如这样

浅谈Python爬取网页的编码处理

<script type="text/template" id="newAddHouseTpl">
 <div class="newAddHouse">
  自从您上次浏览(<%=time%>)之后,该搜索条件下æ?°å¢žåŠ äº†<%=count%>套房源
  <a href="<%=url%>" class="LOGNEWERSHOUFANGSHOW" <%=logText%>><%=linkText%></a>
  <span class="newHouseRightClose">x</span>
 </div>
</script>

这样的数据拿来可以说毫无作用。

问题分析

这里的问题很明显了,就是文字的编码不正确,导致了乱码。

查看网页的编码

从爬取的目标网页的头来看,网页是用utf-8来编码的。

<meta http-equiv="Content-Type" content="text/html; charset=utf-8">

所以,最终的编码,我们肯定也要用utf-8来处理,也就是说,最终的文本处理,要用utf-8来解码,也就是:decode('utf-8')

文本的编码解码

Python的编码解码的过程是这样的,源文件 ===》 encode(编码方式) ===》decode(解码方式),在很大的程度上,不推荐使用

import sys
reload(sys)
sys.setdefaultencoding('utf8')

这种方式来硬处理文字编码。不过在某些时候不影响的情况下,偷偷懒也不是什么大问题,不过比较建议的就是获取源文件之后,使用encode和decode的方式来处理文本。

回到问题

现在问题最大的是源文件的编码方式,我们正常使用requests的时候,它会自动猜源文件的编码方式,然后转码成Unicode的编码,但是,毕竟是程序,是有可能猜错的,所以如果猜错了,我们就需要手工来指定编码方式。官方文档的描述如下:

When you make a request, Requests makes educated guesses about the encoding of the response based on the HTTP headers. The text encoding guessed by Requests is used when you access r.text. You can find out what encoding Requests is using, and change it, using the r.encoding property.

所以我们需要查看requests返回的编码方式到底是什么?

# ecoding=utf-8
import re
import requests
from bs4 import BeautifulSoup
import sys
reload(sys)
sys.setdefaultencoding('utf8')

url = 'http://3water.com/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'

res = requests.get(url)
print res.encoding

打印的结果如下:

ISO-8859-1

也就是说,源文件使用的是ISO-8859-1来编码。百度一下ISO-8859-1,结果如下:

ISO8859-1,通常叫做Latin-1。Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符。

问题解决

发现了这个东东,问题就很好解决了,只要指定一下编码,就能正确的打出中文了。代码如下:

# ecoding=utf-8
import requests
import sys
reload(sys)
sys.setdefaultencoding('utf8')

url = 'http://3water.com/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'

res = requests.get(url)
res.encoding = ('utf8')

print res.text

打印的结果就很明显,中文都正确的显示出来了。

浅谈Python爬取网页的编码处理

另一种方式是在源文件上做解码和编码,代码如下:

# ecoding=utf-8
import requests
import sys
reload(sys)
sys.setdefaultencoding('utf8')

url = 'http://3water.com/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'

res = requests.get(url)
# res.encoding = ('utf8')

print res.text.encode('ISO-8859-1').decode('utf-8')

另:ISO-8859-1也叫做latin1,使用latin1做解码结果也是正常的。

关于字符的编码,很多东西可以说,想了解的朋友可以参考以下大神的资料。

•《The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)》

以上这篇浅谈Python爬取网页的编码处理就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
跟老齐学Python之让人欢喜让人忧的迭代
Oct 02 Python
Python中的赋值、浅拷贝、深拷贝介绍
Mar 09 Python
python检查指定文件是否存在的方法
Jul 06 Python
python实现简易通讯录修改版
Mar 13 Python
Python学习笔记之open()函数打开文件路径报错问题
Apr 28 Python
Tensorflow卷积神经网络实例进阶
May 24 Python
vue.js实现输入框输入值内容实时响应变化示例
Jul 07 Python
pycharm 解除默认unittest模式的方法
Nov 30 Python
django中使用POST方法获取POST数据
Aug 20 Python
基于FME使用Python过程图解
May 13 Python
python批量合成bilibili的m4s缓存文件为MP4格式 ver2.5
Dec 01 Python
plt.figure()参数使用详解及运行演示
Jan 08 Python
Django接受前端数据的几种方法总结
Nov 04 #Python
Python多维/嵌套字典数据无限遍历的实现
Nov 04 #Python
浅谈Python数据类型判断及列表脚本操作
Nov 04 #Python
浅谈python字典多键值及重复键值的使用
Nov 04 #Python
用Python将动态GIF图片倒放播放的方法
Nov 02 #Python
各种Python库安装包下载地址与安装过程详细介绍(Windows版)
Nov 02 #Python
Python实现简单的四则运算计算器
Nov 02 #Python
You might like
php 搜索框提示(自动完成)实例代码
2012/02/05 PHP
php实现将上传word文件转为html的方法
2015/06/03 PHP
一键生成各种尺寸Icon的php脚本(实例)
2017/02/08 PHP
PHP单例模式与工厂模式详解
2017/08/29 PHP
PHP删除数组中特定元素的两种方法
2019/02/28 PHP
document.compatMode的CSS1compat使用介绍
2014/04/03 Javascript
javascript浏览器兼容教程之事件处理
2014/06/09 Javascript
JavaScript中常见获取元素的方法汇总
2015/03/04 Javascript
javascript实现随时变化着的背景颜色
2015/04/02 Javascript
老生常谈javascript变量的命名规范和注释
2016/09/29 Javascript
3种vue路由传参的基本模式
2018/02/22 Javascript
Angularjs 根据一个select的值去设置另一个select的值方法
2018/08/13 Javascript
Koa代理Http请求的示例代码
2018/10/10 Javascript
Element PageHeader页头的使用方法
2020/07/26 Javascript
Vue2.x和Vue3.x的双向绑定原理详解
2020/11/05 Javascript
python开发之函数定义实例分析
2015/11/12 Python
Python计时相关操作详解【time,datetime】
2017/05/26 Python
浅谈Python实现贪心算法与活动安排问题
2017/12/19 Python
Python基于列表list实现的CRUD操作功能示例
2018/01/05 Python
flask入门之表单的实现
2018/07/18 Python
学习Python需要哪些工具
2020/09/04 Python
iframe在移动端的缩放的示例代码
2018/10/12 HTML / CSS
日本最大的眼镜购物网站:Oh My Glasses
2016/11/13 全球购物
马来西亚网上购物:Youbeli
2018/03/30 全球购物
Rodd & Gunn澳大利亚官网:新西兰男装品牌
2018/09/25 全球购物
如何开发一个JQuery插件
2016/07/28 面试题
人事助理岗位职责
2013/11/18 职场文书
如何写一份好的自荐信
2014/01/02 职场文书
家长对老师的评语
2014/04/18 职场文书
教师爱岗敬业演讲稿
2014/05/05 职场文书
2014年四风问题自我剖析材料
2014/09/15 职场文书
2014年初三班主任工作总结
2014/12/05 职场文书
创业计划书介绍
2019/04/24 职场文书
2019新员工试用期转正申请书3篇
2019/08/13 职场文书
JVM上高性能数据格式库包Apache Arrow入门和架构详解(Gkatziouras)
2021/05/26 Servers
详解Laravel服务容器的优势
2021/05/29 PHP