编程 Python

浅谈Python爬取网页的编码处理

Posted in Python onNovember 04, 2016

背景

中秋的时候，一个朋友给我发了一封邮件，说他在爬链家的时候，发现网页返回的代码都是乱码，让我帮他参谋参谋(中秋加班，真是敬业= =！)，其实这个问题我很早就遇到过，之前在爬小说的时候稍微看了一下，不过没当回事，其实这个问题就是对编码的理解不到位导致的。

问题

很普通的一个爬虫代码，代码是这样的：

# ecoding=utf-8
import re
import requests
import sys
reload(sys)
sys.setdefaultencoding('utf8')

url = 'http://3water.com/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'
res = requests.get(url)
print res.text

目的其实很简单，就是爬一下链家的内容，但是这样执行之后，返回的结果，所有涉及到中文的内容，全部会变成乱码，比如这样

浅谈Python爬取网页的编码处理

<script type="text/template" id="newAddHouseTpl">
 <div class="newAddHouse">
  è‡ªä»Žæ‚¨ä¸Šæ¬¡æµè§ˆï¼ˆ<%=time%>ï¼‰ä¹‹åŽï¼Œè¯¥æœç´¢æ¡ä»¶ä¸‹æ?°å¢žåŠ äº†<%=count%>å¥—æˆ¿æº
  <a href="<%=url%>" class="LOGNEWERSHOUFANGSHOW" <%=logText%>><%=linkText%></a>
  <span class="newHouseRightClose">x</span>
 </div>
</script>

这样的数据拿来可以说毫无作用。

问题分析

这里的问题很明显了，就是文字的编码不正确，导致了乱码。

查看网页的编码

从爬取的目标网页的头来看，网页是用utf-8来编码的。

<meta http-equiv="Content-Type" content="text/html; charset=utf-8">

所以，最终的编码，我们肯定也要用utf-8来处理，也就是说，最终的文本处理，要用utf-8来解码，也就是：decode('utf-8')

文本的编码解码

Python的编码解码的过程是这样的，源文件 ===》 encode(编码方式) ===》decode(解码方式)，在很大的程度上，不推荐使用

import sys
reload(sys)
sys.setdefaultencoding('utf8')

这种方式来硬处理文字编码。不过在某些时候不影响的情况下，偷偷懒也不是什么大问题，不过比较建议的就是获取源文件之后，使用encode和decode的方式来处理文本。

回到问题

现在问题最大的是源文件的编码方式，我们正常使用requests的时候，它会自动猜源文件的编码方式，然后转码成Unicode的编码，但是，毕竟是程序，是有可能猜错的，所以如果猜错了，我们就需要手工来指定编码方式。官方文档的描述如下：

When you make a request, Requests makes educated guesses about the encoding of the response based on the HTTP headers. The text encoding guessed by Requests is used when you access r.text. You can find out what encoding Requests is using, and change it, using the r.encoding property.

所以我们需要查看requests返回的编码方式到底是什么？

# ecoding=utf-8
import re
import requests
from bs4 import BeautifulSoup
import sys
reload(sys)
sys.setdefaultencoding('utf8')

url = 'http://3water.com/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'

res = requests.get(url)
print res.encoding

打印的结果如下：

ISO-8859-1

也就是说，源文件使用的是ISO-8859-1来编码。百度一下ISO-8859-1，结果如下：

ISO8859-1，通常叫做Latin-1。Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符。

问题解决

发现了这个东东，问题就很好解决了，只要指定一下编码，就能正确的打出中文了。代码如下：

# ecoding=utf-8
import requests
import sys
reload(sys)
sys.setdefaultencoding('utf8')

url = 'http://3water.com/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'

res = requests.get(url)
res.encoding = ('utf8')

print res.text

打印的结果就很明显，中文都正确的显示出来了。

浅谈Python爬取网页的编码处理

另一种方式是在源文件上做解码和编码，代码如下：

# ecoding=utf-8
import requests
import sys
reload(sys)
sys.setdefaultencoding('utf8')

url = 'http://3water.com/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'

res = requests.get(url)
# res.encoding = ('utf8')

print res.text.encode('ISO-8859-1').decode('utf-8')

另：ISO-8859-1也叫做latin1，使用latin1做解码结果也是正常的。

关于字符的编码，很多东西可以说，想了解的朋友可以参考以下大神的资料。

•《The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)》

以上这篇浅谈Python爬取网页的编码处理就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

浅谈Python爬取网页的编码处理

- Author -

jingxian

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python中apply函数的用法实例教程

Jul 31 Python

python使用PIL模块实现给图片打水印的方法

May 22 Python

python中根据字符串调用函数的实现方法

Jun 12 Python

python常用知识梳理(必看篇)

Mar 23 Python

解决新版Pycharm中Matplotlib图像不在弹出独立的显示窗口问题

Jan 15 Python

python自定义函数实现最大值的输出方法

Jul 09 Python

python数据处理之如何选取csv文件中某几行的数据

Sep 02 Python

python Plotly绘图工具的简单使用

Mar 03 Python

python 将视频通过视频帧转换成时间实例

Apr 23 Python

python使用多线程+socket实现端口扫描

May 28 Python

用Python制作mini翻译器的实现示例

Aug 17 Python

简单且有用的Python数据分析和机器学习代码

Jul 02 Python

Django接受前端数据的几种方法总结

Nov 04 #Python

Python多维/嵌套字典数据无限遍历的实现

Nov 04 #Python

浅谈Python数据类型判断及列表脚本操作

Nov 04 #Python

浅谈python字典多键值及重复键值的使用

Nov 04 #Python

用Python将动态GIF图片倒放播放的方法

Nov 02 #Python

各种Python库安装包下载地址与安装过程详细介绍(Windows版)

Nov 02 #Python

Python实现简单的四则运算计算器

Nov 02 #Python

You might like

PHP 魔术函数使用说明

2010/05/14 PHP

php分页代码学习示例分享

2014/02/20 PHP

php遍历数组的4种方法总结

2014/07/05 PHP

PHP基于openssl实现的非对称加密操作示例

2019/01/11 PHP

JAVASCRIPT实现的WEB页面跳转以及页面间传值方法

2010/05/13 Javascript

精通Javascript系列之数值计算

2011/06/07 Javascript

Javascript中的匿名函数与封装介绍

2015/03/15 Javascript

js实现Form栏显示全格式时间时钟效果代码

2015/08/19 Javascript

JS基于myFocus库实现各种功能的tab选项卡切换效果

2015/09/19 Javascript

js实现iframe框架取值的方法(兼容IE,firefox,chrome等)

2015/11/26 Javascript

jQuery实现点击弹出背景变暗遮罩效果实例代码

2016/06/24 Javascript

artDialog+plupload实现多文件上传

2016/07/19 Javascript

vue2的todolist入门小项目的详细解析

2017/05/11 Javascript

JS的函数调用栈stack size的计算方法

2018/06/24 Javascript

小程序实现列表多个批量倒计时

2021/01/29 Javascript

nodejs环境使用Typeorm连接查询Oracle数据

2019/12/05 NodeJs

小程序中设置缓存过期的实现方法

2020/01/14 Javascript

jQuery实现数字华容道小游戏(实例代码)

2020/01/16 jQuery

[47:45]Liquid vs OG 2018国际邀请赛小组赛BO2 第二场 8.16

2018/08/17 DOTA

[02:21]十步杀一人，千里不留行——DOTA2全新英雄天涯墨客展示

2018/08/29 DOTA

Python中函数eval和ast.literal_eval的区别详解

2017/08/10 Python

pandas将numpy数组写入到csv的实例

2018/07/04 Python

Python多继承原理与用法示例

2018/08/23 Python

python实现文本进度条程序进度条加载进度条单行刷新功能

2019/07/03 Python

python的一些加密方法及python 加密模块

2019/07/11 Python

使用python实现回文数的四种方法小结

2019/11/24 Python

HTML5 canvas实现移动端上传头像拖拽裁剪效果

2016/03/14 HTML / CSS

Holland & Barrett爱尔兰：英国领先的健康零售商

2019/03/31 全球购物

企业文化建设实施方案

2014/03/22 职场文书

李开复演讲稿

2014/05/24 职场文书

2015年中秋节主持词

2015/07/30 职场文书

纪检部部长竞选稿

2015/11/21 职场文书

详解python的内存分配机制

2021/05/10 Python

Python Django模型详解

2021/10/05 Python

Redis中缓存穿透/击穿/雪崩问题和解决方法

2021/12/04 Redis

Java异常体系非正常停止和分类

2022/06/14 Java/Android