编程 Python

编写Python脚本来获取Google搜索结果的示例

Posted in Python onMay 04, 2015

前一段时间一直在研究如何用python抓取搜索引擎结果，在实现的过程中遇到了很多的问题，我把我遇到的问题都记录下来，希望以后遇到同样问题的童鞋不要再走弯路。

1. 搜索引擎的选取

选择一个好的搜索引擎意味着你能够得到更准确的搜索结果。我用过的搜索引擎有四种：Google、Bing、Baidu、Yahoo!。作为程序员，我首选Google。但当我看见我最爱的Google返回给我的全是一堆的js代码，根本没我想要的搜索结果。于是我转而投向了Bing的阵营，在用过一段时间后我发现Bing返回的搜索结果对于我的问题来说不太理想。正当我要绝望时，Google拯救了我。原来Google为了照顾那些禁止浏览器使用js的用户，还有另外一种搜索方式，请看下面的搜索URL：

https://www.google.com.hk/search?hl=en&q=hello

hl指定要搜索的语言，q就是你要搜索的关键字。好了，感谢Google，搜索结果页面包含我要抓取的内容。

PS: 网上很多利用python抓取Google搜索结果还是利用 https://ajax.googleapis.com/ajax/services/search/web... 的方法。需要注意的是这个方法Google已经不再推荐使用了，见 https://developers.google.com/web-search/docs/ 。Google现在提供了Custom Search API，不过API限制每天100次请求，如果需要更多则只能花钱买。

2. Python抓取并分析网页

利用Python抓取网页很方便，不多说，见代码:

def search(self, queryStr):
   queryStr = urllib2.quote(queryStr)
   url = 'https://www.google.com.hk/search?hl=en&q=%s' % queryStr
   request = urllib2.Request(url)
   response = urllib2.urlopen(request)
   html = response.read()
   results = self.extractSearchResults(html)

第6行的 html 就是我们抓取的搜索结果页面源码。使用过Python的同学会发现，Python同时提供了urllib 和 urllib2两个模块，都是和URL请求相关的模块，不过提供了不同的功能，urllib只可以接收URL，而urllib2可以接受一个Request类的实例来设置URL请求的headers，这意味着你可以伪装你的user agent 等(下面会用到)。

现在我们已经可以用Python抓取网页并保存下来，接下来我们就可以从源码页面中抽取我们想要的搜索结果。Python提供了htmlparser模块，不过用起来相对比较麻烦，这里推荐一个很好用的网页分析包BeautifulSoup，关于BeautifulSoup的用法官网有详细的介绍，这里我不再多说。

利用上面的代码，对于少量的查询还比较OK，但如果要进行上千上万次的查询，上面的方法就不再有效了， Google会检测你请求的来源，如果我们利用机器频繁爬取Google的搜索结果，不多久就Google会block你的IP，并给你返回503 Error页面。这不是我们想要的结果，于是我们还要继续探索

前面提到利用urllib2我们可以设置URL请求的headers, 伪装我们的user agent。简单的说，user agent就是客户端浏览器等应用程序使用的一种特殊的网络协议，在每次浏览器（邮件客户端/搜索引擎蜘蛛）进行 HTTP 请求时发送到服务器，服务器就知道了用户是使用什么浏览器（邮件客户端/搜索引擎蜘蛛）来访问的。有时候为了达到一些目的，我们不得不去善意的欺骗服务器告诉它我不是在用机器访问你。

于是，我们的代码就成了下面这个样子:

user_agents = ['Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20130406 Firefox/23.0', \
     'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:18.0) Gecko/20100101 Firefox/18.0', \
     'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/533+ \
     (KHTML, like Gecko) Element Browser 5.0', \
     'IBM WebExplorer /v0.94', 'Galaxy/1.0 [en] (Mac OS X 10.5.6; U; en)', \
     'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0)', \
     'Opera/9.80 (Windows NT 6.0) Presto/2.12.388 Version/12.14', \
     'Mozilla/5.0 (iPad; CPU OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) \
     Version/6.0 Mobile/10A5355d Safari/8536.25', \
     'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) \
     Chrome/28.0.1468.0 Safari/537.36', \
     'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.0; Trident/5.0; TheWorld)']
 def search(self, queryStr):
   queryStr = urllib2.quote(queryStr)
   url = 'https://www.google.com.hk/search?hl=en&q=%s' % queryStr
   request = urllib2.Request(url)
   index = random.randint(0, 9)
   user_agent = user_agents[index]
   request.add_header('User-agent', user_agent)
   response = urllib2.urlopen(request)
   html = response.read()
   results = self.extractSearchResults(html)

不要被user_agents那个list吓到，那其实就是10个user agent 字符串，这么做是让我们伪装的更好一些，如果你需要更多的user agent 请看这里 UserAgentString。

17-19行表示随机选择一个user agent 字符串，然后用request 的add_header方法伪装一个user agent。

通过伪装user agent能够让我们持续抓取搜索引擎结果，如果这样还不行，那我建议在每两次查询间随机休眠一段时间，这样会影响抓取速度，但是能够让你更持续的抓取结果，如果你有多个IP，那抓取的速度也就上来了。

github上有本文所有源代码，需要的同学可从下面的网址下载:

https://github.com/meibenjin/GoogleSearchCrawler

编写Python脚本来获取Google搜索结果的示例

- Author -

goldensun

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python的迭代器与生成器实例详解

Jul 16 Python

python实现的简单窗口倒计时界面实例

May 05 Python

python网络编程之文件下载实例分析

May 20 Python

Java中重定向输出流实现用文件记录程序日志

Jun 12 Python

python导入csv文件出现SyntaxError问题分析

Dec 15 Python

Python3.7实现中控考勤机自动连接

Aug 28 Python

详解Python_shutil模块

Mar 15 Python

简单了解python变量的作用域

Jul 30 Python

Python图片的横坐标汉字实例

Dec 04 Python

django rest framework 过滤时间操作

Jul 12 Python

学习Python爬虫的几点建议

Aug 05 Python

pytorch 如何把图像数据集进行划分成train,test和val

May 31 Python

编写Python脚本来实现最简单的FTP下载的教程

May 04 #Python

Python下线程之间的共享和释放示例

May 04 #Python

简单介绍Python中利用生成器实现的并发编程

May 04 #Python

简单分析Python中用fork()函数生成的子进程

May 04 #Python

python实现从字典中删除元素的方法

May 04 #Python

Python中利用原始套接字进行网络编程的示例

May 04 #Python

python通过索引遍历列表的方法

May 04 #Python

You might like

简单介绍下 PHP5 中引入的 MYSQLI的用途

2007/03/19 PHP

PHP输出多个元素的排列或组合的方法

2017/03/14 PHP

PHP使用PDO操作sqlite数据库应用案例

2019/03/07 PHP

php过滤htmlspecialchars() 函数实现把预定义的字符转换为 HTML 实体用法分析

2019/06/25 PHP

Javascript图像处理—平滑处理实现原理

2012/12/28 Javascript

jquery 文本上下无缝滚动,鼠标放上去就停止小例子

2013/06/05 Javascript

js遍历、动态的添加数据的小例子

2013/06/22 Javascript

javascript获取隐藏元素(display:none)的高度和宽度的方法

2014/06/06 Javascript

fckeditor粘贴Word时弹出窗口取消的方法

2014/10/30 Javascript

JQuery validate插件Remote用法大全

2016/05/15 Javascript

将 vue 生成的 js 上传到七牛的实例

2017/07/28 Javascript

对Vue beforeRouteEnter 的next执行时机详解

2018/08/25 Javascript

最适应的vue.js的form提交涉及多种插件【推荐】

2018/08/27 Javascript

彻底弄懂 JavaScript 执行机制

2018/10/23 Javascript

3分钟了解vue数据劫持的原理实现

2019/05/01 Javascript

JQuery实现简单的复选框树形结构图示例【附源码下载】

2019/07/16 jQuery

js实现图片无缝循环轮播

2019/10/28 Javascript

微信小程序新闻网站详情页实例代码

2020/01/10 Javascript

JS面向对象之多选框实现

2020/01/17 Javascript

jenkins自动构建发布vue项目的方法步骤

2021/01/04 Vue.js

给Python初学者的一些编程技巧

2015/04/03 Python

python检测空间储存剩余大小和指定文件夹内存占用的实例

2018/06/11 Python

pandas的to_datetime时间转换使用及学习心得

2019/08/11 Python

django执行数据库查询之后实现返回的结果集转json

2020/03/31 Python

解析Python 偏函数用法全方位实现

2020/06/26 Python

python爬虫实现爬取同一个网站的多页数据的实例讲解

2021/01/18 Python

使用html5新特性轻松监听任何App自带返回键的示例

2018/03/13 HTML / CSS

化石印度尼西亚在线商店：Fossil Indonesia

2019/03/11 全球购物

学生打架检讨书大全

2014/01/23 职场文书

幼儿园门卫岗位职责范本

2014/07/02 职场文书

教师党的群众路线对照检查材料

2014/09/24 职场文书

会议室使用管理制度

2015/08/06 职场文书

2016中秋节问候语

2015/11/11 职场文书

asyncio异步编程之Task对象详解

2022/03/13 Python

sql server偶发出现死锁的解决方法

2022/04/10 SQL Server

python中urllib包的网络请求教程

2022/04/19 Python