浅谈Python爬取网页的编码处理


Posted in Python onNovember 04, 2016

背景

中秋的时候,一个朋友给我发了一封邮件,说他在爬链家的时候,发现网页返回的代码都是乱码,让我帮他参谋参谋(中秋加班,真是敬业= =!),其实这个问题我很早就遇到过,之前在爬小说的时候稍微看了一下,不过没当回事,其实这个问题就是对编码的理解不到位导致的。

问题

很普通的一个爬虫代码,代码是这样的:

# ecoding=utf-8
import re
import requests
import sys
reload(sys)
sys.setdefaultencoding('utf8')

url = 'http://3water.com/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'
res = requests.get(url)
print res.text

目的其实很简单,就是爬一下链家的内容,但是这样执行之后,返回的结果,所有涉及到中文的内容,全部会变成乱码,比如这样

浅谈Python爬取网页的编码处理

<script type="text/template" id="newAddHouseTpl">
 <div class="newAddHouse">
  自从您上次浏览(<%=time%>)之后,该搜索条件下æ?°å¢žåŠ 了<%=count%>套房源
  <a href="<%=url%>" class="LOGNEWERSHOUFANGSHOW" <%=logText%>><%=linkText%></a>
  <span class="newHouseRightClose">x</span>
 </div>
</script>

这样的数据拿来可以说毫无作用。

问题分析

这里的问题很明显了,就是文字的编码不正确,导致了乱码。

查看网页的编码

从爬取的目标网页的头来看,网页是用utf-8来编码的。

<meta http-equiv="Content-Type" content="text/html; charset=utf-8">

所以,最终的编码,我们肯定也要用utf-8来处理,也就是说,最终的文本处理,要用utf-8来解码,也就是:decode('utf-8')

文本的编码解码

Python的编码解码的过程是这样的,源文件 ===》 encode(编码方式) ===》decode(解码方式),在很大的程度上,不推荐使用

import sys
reload(sys)
sys.setdefaultencoding('utf8')

这种方式来硬处理文字编码。不过在某些时候不影响的情况下,偷偷懒也不是什么大问题,不过比较建议的就是获取源文件之后,使用encode和decode的方式来处理文本。

回到问题

现在问题最大的是源文件的编码方式,我们正常使用requests的时候,它会自动猜源文件的编码方式,然后转码成Unicode的编码,但是,毕竟是程序,是有可能猜错的,所以如果猜错了,我们就需要手工来指定编码方式。官方文档的描述如下:

When you make a request, Requests makes educated guesses about the encoding of the response based on the HTTP headers. The text encoding guessed by Requests is used when you access r.text. You can find out what encoding Requests is using, and change it, using the r.encoding property.

所以我们需要查看requests返回的编码方式到底是什么?

# ecoding=utf-8
import re
import requests
from bs4 import BeautifulSoup
import sys
reload(sys)
sys.setdefaultencoding('utf8')

url = 'http://3water.com/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'

res = requests.get(url)
print res.encoding

打印的结果如下:

ISO-8859-1

也就是说,源文件使用的是ISO-8859-1来编码。百度一下ISO-8859-1,结果如下:

ISO8859-1,通常叫做Latin-1。Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符。

问题解决

发现了这个东东,问题就很好解决了,只要指定一下编码,就能正确的打出中文了。代码如下:

# ecoding=utf-8
import requests
import sys
reload(sys)
sys.setdefaultencoding('utf8')

url = 'http://3water.com/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'

res = requests.get(url)
res.encoding = ('utf8')

print res.text

打印的结果就很明显,中文都正确的显示出来了。

浅谈Python爬取网页的编码处理

另一种方式是在源文件上做解码和编码,代码如下:

# ecoding=utf-8
import requests
import sys
reload(sys)
sys.setdefaultencoding('utf8')

url = 'http://3water.com/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'

res = requests.get(url)
# res.encoding = ('utf8')

print res.text.encode('ISO-8859-1').decode('utf-8')

另:ISO-8859-1也叫做latin1,使用latin1做解码结果也是正常的。

关于字符的编码,很多东西可以说,想了解的朋友可以参考以下大神的资料。

•《The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)》

以上这篇浅谈Python爬取网页的编码处理就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python 代码性能优化技巧分享
Aug 07 Python
pyqt和pyside开发图形化界面
Jan 22 Python
python爬虫爬取快手视频多线程下载功能
Feb 28 Python
TensorFlow实现非线性支持向量机的实现方法
Apr 28 Python
Python爬取数据并写入MySQL数据库的实例
Jun 21 Python
Python 修改列表中的元素方法
Jun 26 Python
对Python协程之异步同步的区别详解
Feb 19 Python
使用python制作游戏下载进度条的代码(程序说明见注释)
Oct 24 Python
python画环形图的方法
Mar 25 Python
解决python多线程报错:AttributeError: Can't pickle local object问题
Apr 08 Python
Python3基于print打印带颜色字符串
Jul 06 Python
Python利用folium实现地图可视化
May 23 Python
Django接受前端数据的几种方法总结
Nov 04 #Python
Python多维/嵌套字典数据无限遍历的实现
Nov 04 #Python
浅谈Python数据类型判断及列表脚本操作
Nov 04 #Python
浅谈python字典多键值及重复键值的使用
Nov 04 #Python
用Python将动态GIF图片倒放播放的方法
Nov 02 #Python
各种Python库安装包下载地址与安装过程详细介绍(Windows版)
Nov 02 #Python
Python实现简单的四则运算计算器
Nov 02 #Python
You might like
人工智能开始玩《星际争霸2》 你的操作跟得上吗?
2017/08/11 星际争霸
PHP ADODB生成下拉列表框功能示例
2018/05/29 PHP
利用NodeJS的子进程(child_process)调用系统命令的方法分享
2013/06/05 NodeJs
JS实现的省份级联实例代码
2013/06/24 Javascript
JS实现鼠标单击与双击事件共存
2014/03/08 Javascript
jQuery学习笔记之 Ajax操作篇(二) - 数据传递
2014/06/23 Javascript
EasyUI中combobox默认值注意事项
2015/03/01 Javascript
js实现按钮颜色渐变动画效果
2015/08/20 Javascript
jquery图片倾斜层叠切换特效代码分享
2015/08/27 Javascript
jQuery实现的经典滑动门效果
2015/09/22 Javascript
js表单提交和submit提交的区别实例分析
2015/12/10 Javascript
原生JS版和jquery版实现checkbox的全选/全不选/点选/行内点选(Mr.Think)
2016/10/29 Javascript
CSS+jQuery实现简单的折叠菜单
2016/12/20 Javascript
Angular2使用Guard和Resolve进行验证和权限控制
2017/04/24 Javascript
js canvas实现简单的图像扩散效果
2020/06/28 Javascript
nodejs基于express实现文件上传的方法
2018/03/19 NodeJs
js中的深浅拷贝问题简析
2019/05/10 Javascript
vue实现的上拉加载更多数据/分页功能示例
2019/05/25 Javascript
JS删除String里某个字符的方法
2021/01/06 Javascript
微信小程序利用for循环解决内容变更问题
2020/03/05 Javascript
[01:11]辉夜杯战队访谈宣传片—CDEC.Y
2015/12/26 DOTA
python中PIL安装简单教程
2016/04/21 Python
简单掌握Python的Collections模块中counter结构的用法
2016/07/07 Python
Python中文分词工具之结巴分词用法实例总结【经典案例】
2017/04/15 Python
python简单验证码识别的实现方法
2019/05/10 Python
python 含子图的gif生成时内存溢出的方法
2019/07/07 Python
Django model.py表单设置默认值允许为空的操作
2020/05/19 Python
pycharm如何使用anaconda中的各种包(操作步骤)
2020/07/31 Python
python tkinter实现下载进度条及抖音视频去水印原理
2021/02/07 Python
Boden英国官网:英国知名原创时装品牌
2018/11/06 全球购物
四年级数学教学反思
2014/02/02 职场文书
求职自荐信怎么写
2014/03/06 职场文书
2019秋季运动会口号
2019/06/25 职场文书
导游词之峨眉山
2019/12/16 职场文书
SQL Server使用CROSS APPLY与OUTER APPLY实现连接查询
2022/05/25 SQL Server
Win11右下角图标点了没反应怎么办?Win11点击右下角图标无反应解决方法汇总
2022/07/07 数码科技