浅谈Python爬取网页的编码处理


Posted in Python onNovember 04, 2016

背景

中秋的时候,一个朋友给我发了一封邮件,说他在爬链家的时候,发现网页返回的代码都是乱码,让我帮他参谋参谋(中秋加班,真是敬业= =!),其实这个问题我很早就遇到过,之前在爬小说的时候稍微看了一下,不过没当回事,其实这个问题就是对编码的理解不到位导致的。

问题

很普通的一个爬虫代码,代码是这样的:

# ecoding=utf-8
import re
import requests
import sys
reload(sys)
sys.setdefaultencoding('utf8')

url = 'http://3water.com/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'
res = requests.get(url)
print res.text

目的其实很简单,就是爬一下链家的内容,但是这样执行之后,返回的结果,所有涉及到中文的内容,全部会变成乱码,比如这样

浅谈Python爬取网页的编码处理

<script type="text/template" id="newAddHouseTpl">
 <div class="newAddHouse">
  自从您上次浏览(<%=time%>)之后,该搜索条件下æ?°å¢žåŠ 了<%=count%>套房源
  <a href="<%=url%>" class="LOGNEWERSHOUFANGSHOW" <%=logText%>><%=linkText%></a>
  <span class="newHouseRightClose">x</span>
 </div>
</script>

这样的数据拿来可以说毫无作用。

问题分析

这里的问题很明显了,就是文字的编码不正确,导致了乱码。

查看网页的编码

从爬取的目标网页的头来看,网页是用utf-8来编码的。

<meta http-equiv="Content-Type" content="text/html; charset=utf-8">

所以,最终的编码,我们肯定也要用utf-8来处理,也就是说,最终的文本处理,要用utf-8来解码,也就是:decode('utf-8')

文本的编码解码

Python的编码解码的过程是这样的,源文件 ===》 encode(编码方式) ===》decode(解码方式),在很大的程度上,不推荐使用

import sys
reload(sys)
sys.setdefaultencoding('utf8')

这种方式来硬处理文字编码。不过在某些时候不影响的情况下,偷偷懒也不是什么大问题,不过比较建议的就是获取源文件之后,使用encode和decode的方式来处理文本。

回到问题

现在问题最大的是源文件的编码方式,我们正常使用requests的时候,它会自动猜源文件的编码方式,然后转码成Unicode的编码,但是,毕竟是程序,是有可能猜错的,所以如果猜错了,我们就需要手工来指定编码方式。官方文档的描述如下:

When you make a request, Requests makes educated guesses about the encoding of the response based on the HTTP headers. The text encoding guessed by Requests is used when you access r.text. You can find out what encoding Requests is using, and change it, using the r.encoding property.

所以我们需要查看requests返回的编码方式到底是什么?

# ecoding=utf-8
import re
import requests
from bs4 import BeautifulSoup
import sys
reload(sys)
sys.setdefaultencoding('utf8')

url = 'http://3water.com/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'

res = requests.get(url)
print res.encoding

打印的结果如下:

ISO-8859-1

也就是说,源文件使用的是ISO-8859-1来编码。百度一下ISO-8859-1,结果如下:

ISO8859-1,通常叫做Latin-1。Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符。

问题解决

发现了这个东东,问题就很好解决了,只要指定一下编码,就能正确的打出中文了。代码如下:

# ecoding=utf-8
import requests
import sys
reload(sys)
sys.setdefaultencoding('utf8')

url = 'http://3water.com/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'

res = requests.get(url)
res.encoding = ('utf8')

print res.text

打印的结果就很明显,中文都正确的显示出来了。

浅谈Python爬取网页的编码处理

另一种方式是在源文件上做解码和编码,代码如下:

# ecoding=utf-8
import requests
import sys
reload(sys)
sys.setdefaultencoding('utf8')

url = 'http://3water.com/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'

res = requests.get(url)
# res.encoding = ('utf8')

print res.text.encode('ISO-8859-1').decode('utf-8')

另:ISO-8859-1也叫做latin1,使用latin1做解码结果也是正常的。

关于字符的编码,很多东西可以说,想了解的朋友可以参考以下大神的资料。

•《The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)》

以上这篇浅谈Python爬取网页的编码处理就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python字符转换
Sep 06 Python
python3.3实现乘法表示例
Feb 07 Python
利用标准库fractions模块让Python支持分数类型的方法详解
Aug 11 Python
Python中垃圾回收和del语句详解
Nov 15 Python
对Pandas MultiIndex(多重索引)详解
Nov 16 Python
Python使用POP3和SMTP协议收发邮件的示例代码
Apr 16 Python
Python自动化运维之Ansible定义主机与组规则操作详解
Jun 13 Python
pycharm全局搜索的具体步骤
Jul 28 Python
基于Python的图像阈值化分割(迭代法)
Nov 20 Python
python3字符串输出常见面试题总结
Dec 01 Python
超级详细实用的pycharm常用快捷键
May 12 Python
Python连续赋值需要注意的一些问题
Jun 03 Python
Django接受前端数据的几种方法总结
Nov 04 #Python
Python多维/嵌套字典数据无限遍历的实现
Nov 04 #Python
浅谈Python数据类型判断及列表脚本操作
Nov 04 #Python
浅谈python字典多键值及重复键值的使用
Nov 04 #Python
用Python将动态GIF图片倒放播放的方法
Nov 02 #Python
各种Python库安装包下载地址与安装过程详细介绍(Windows版)
Nov 02 #Python
Python实现简单的四则运算计算器
Nov 02 #Python
You might like
PHP新建类问题分析及解决思路
2015/11/19 PHP
WordPress中用于创建以及获取侧边栏的PHP函数讲解
2015/12/29 PHP
php删除二维数组中的重复值方法
2018/03/12 PHP
php使用curl获取header检测开启GZip压缩的方法
2018/08/15 PHP
ASP中用Join和Array,可以加快字符连接速度的代码
2007/08/22 Javascript
Js(JavaScript)中,弹出是或否的选择框示例(confirm用法的实例分析)
2013/07/09 Javascript
JS冒泡事件的快速解决方法
2013/12/16 Javascript
JS函数重载的解决方案
2014/05/13 Javascript
JavaScript中定义类的方式详解
2016/01/07 Javascript
NodeJS使用七牛云存储上传文件的方法
2017/07/24 NodeJs
chorme 浏览器记住密码后input黄色背景处理方法(两种)
2017/11/22 Javascript
jQuery实现鼠标响应式透明度渐变动画效果示例
2018/02/13 jQuery
实例解析Vue.js下载方式及基本概念
2018/05/11 Javascript
使用Jenkins部署React项目的方法步骤
2019/03/11 Javascript
Element实现表格嵌套、多个表格共用一个表头的方法
2020/05/09 Javascript
[01:38]2018DOTA2亚洲邀请赛主赛事第二日现场采访 神秘商人痛陈生计不易
2018/04/05 DOTA
基于scrapy实现的简单蜘蛛采集程序
2015/04/17 Python
pygame游戏之旅 创建游戏窗口界面
2018/11/20 Python
PyTorch 1.0 正式版已经发布了
2018/12/13 Python
python中for循环变量作用域及用法详解
2019/11/05 Python
python按顺序重命名文件并分类转移到各个文件夹中的实现代码
2020/07/21 Python
浅谈anaconda python 版本对应关系
2020/10/07 Python
美国领先的水果篮送货公司和新鲜水果供应商:The Fruit Company
2018/02/13 全球购物
建筑专业自荐信范文
2014/01/05 职场文书
金融管理应届生求职信
2014/02/20 职场文书
春节请假条
2014/04/11 职场文书
“四风”问题的主要表现和危害思想汇报
2014/09/19 职场文书
群众路线教育实践活动剖析材料
2014/09/30 职场文书
护士长2014年度工作总结
2014/11/11 职场文书
机动车交通事故协议书
2015/01/29 职场文书
大连导游词
2015/02/12 职场文书
先进工作者个人总结
2015/02/15 职场文书
2015年社区卫生工作总结
2015/04/21 职场文书
陈斌强事迹观后感
2015/06/17 职场文书
2016年元旦致辞
2015/08/01 职场文书
详解flex:1什么意思
2022/07/23 HTML / CSS