Python使用Mechanize模块编写爬虫的要点解析


Posted in Python onMarch 31, 2016

 mechanize是对urllib2的部分功能的替换,能够更好的模拟浏览器行为,在web访问控制方面做得更全面。结合beautifulsoup和re模块,可以有效的解析web页面,我比较喜欢这种方法。
    下面主要总结了使用mechanize模拟浏览器的行为和几个例子(谷歌搜索,百度搜索和人人网登录等)
1.初始化并建立一个浏览器对象
    如果没有mechanize需要easy_install安装,以下代码建立浏览器对象并作了一些初始化设置,实际使用过程可以按需开关。其实只用默认的设置也可以完成基本任务。

#!/usr/bin/env python
import sys,mechanize

#Browser
br = mechanize.Browser()

#options
br.set_handle_equiv(True)
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)

#Follows refresh 0 but not hangs on refresh > 0
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)

#debugging?
br.set_debug_http(True)
br.set_debug_redirects(True)
br.set_debug_responses(True)

#User-Agent (this is cheating, ok?)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]

2.模拟浏览器行为
    浏览器对象建立并初始化完毕之后即可使用了,下面给出几个例子(代码承接以上部分)
获取web网页:
    分行打印可以逐个查看详细信息,就不赘述

r = br.open(sys.argv[1])
html = r.read()
print html
print br.response().read()
print br.title()
print r.info()

模拟谷歌和百度查询
    打印和选择forms,然后填写相应键值,通过post提交完成操作

for f in br.forms():
 print f

br.select_form(nr=0)

    谷歌查询football

br.form['q'] = 'football'
br.submit()
print br.response().read()

    百度查询football

br.form['wd'] = 'football'
br.submit()
print br.response().read()

  
    相应键值名,可以通过打印查出

回退(Back)
    非常简单的操作,打印url即可验证是否回退

# Back
br.back()
print br.geturl()

3.http基本认证

br.add_password('http://xxx.com', 'username', 'password')
br.open('http://xxx.com')

4.form认证
    以登陆人人网为例,打印forms可以查出用户名和密码键信息

br.select_form(nr = 0)
br['email'] = username
br['password'] = password
resp = self.br.submit()

5.cookie支持
    通过导入cookielib模块,并设置浏览器cookie,可以在需要认证的网络行为之后不用重复认证登陆。通过保存session cookie即可重新访问,Cookie Jar完成了该功能。

#!/usr/bin/env python
import mechanize, cookielib

br = mechanize.Browser()
cj = cookielib.LWPCookieJar()
br.set_cookiejar()

6.proxy设置
设置http代理

#Proxy
br.set_proxies({"http":"proxy.com:8888"})
br.add_proxy_password("username", "password")

#Proxy and usrer/password
br.set_proxies({"http":"username:password@proxy.com:8888"})

7.关于内存过高问题

在用mechanize写了一个爬虫脚本,想要去某网站爬取大概30万张图片。
 
整个过程是:
1、获取目标页面地址
2、取得目标地址前几页的所有图片url
3、对这些url进行下载,并把索引数据保存到mysql数据库。

这个脚本大概每秒钟完成一张图片的下载(主要是网络只有200K/S左右,是瓶颈)
当图片下载到大约15000张左右的时候,发现越来越慢,最后干脆停下了。
用ps aux查看,发现进程sleep了,感觉很奇怪。
free看一下,内存竟然只剩下100M了(系统总内存4GB)
在网上瞎逛了一下,发现原来mechanize默认会保存模拟过的操作历史,导致占用的内存越来越大:
http://stackoverflow.com/questions/2393299/how-do-i-disable-history-in-python-mechanize-module
 
为了方便,大约翻译一下:
mechanize初始化Browser()的时候,如果你不给他传一个history对象作为参数,Browser()就会按照默认的方式(允许保存操作历史)来进行初始化,你可以随便传个什么history给它即可,如自定义一个NoHistory对象:
 

class NoHistory(object): 
 def add(self, *a, **k): pass 
 def clear(self): pass 
 
b = mechanize.Browser(history=NoHistory())
Python 相关文章推荐
python提取字典key列表的方法
Jul 11 Python
Python使用爬虫猜密码
Feb 19 Python
详解Python中的静态方法与类成员方法
Feb 28 Python
python音频处理用到的操作的示例代码
Oct 27 Python
快速了解Python中的装饰器
Jan 11 Python
Python3模拟登录操作实例分析
Mar 12 Python
Python3获取电脑IP、主机名、Mac地址的方法示例
Apr 11 Python
Django使用unittest模块进行单元测试过程解析
Aug 02 Python
Python编程快速上手——疯狂填词程序实现方法分析
Feb 29 Python
Python Django路径配置实现过程解析
Nov 05 Python
python控制台打印log输出重复的解决方法
May 14 Python
教你如何使用Python开发一个钉钉群应答机器人
Jun 21 Python
Python语言实现获取主机名根据端口杀死进程
Mar 31 #Python
Linux中Python 环境软件包安装步骤
Mar 31 #Python
Python内置的HTTP协议服务器SimpleHTTPServer使用指南
Mar 30 #Python
横向对比分析Python解析XML的四种方式
Mar 30 #Python
python简单实现刷新智联简历
Mar 30 #Python
详解Python迭代和迭代器
Mar 28 #Python
Python读大数据txt
Mar 28 #Python
You might like
PHP生成带有雪花背景的验证码
2008/09/28 PHP
PHP获取MySql新增记录ID值的3种方法
2014/06/24 PHP
Laravel 5框架学习之日期,Mutator 和 Scope
2015/04/08 PHP
php读取der格式证书乱码解决方法
2015/06/22 PHP
mongodb和php的用法详解
2019/03/25 PHP
JQuery Ajax通过Handler访问外部XML数据的代码
2010/06/01 Javascript
悄悄用脚本检查你访问过哪些网站的代码
2010/12/04 Javascript
JavaScript自执行闭包的小例子
2013/06/29 Javascript
jquery实现submit提交表单
2015/02/03 Javascript
浅谈下拉菜单中的Option对象
2015/05/10 Javascript
值得分享的Bootstrap Ace模板实现菜单和Tab页效果
2015/12/30 Javascript
原生js实现autocomplete插件
2016/04/14 Javascript
Bootstrap Navbar Component实现响应式导航
2016/10/08 Javascript
微信小程序 页面之间传参实例详解
2017/01/13 Javascript
angularjs使用directive实现分页组件的示例
2017/02/07 Javascript
Angular4实现鼠标悬停3d倾斜效果
2017/10/25 Javascript
JS实现数组去重,显示重复元素及个数的方法示例
2019/01/21 Javascript
使用Node.js写一个代码生成器的方法步骤
2019/05/10 Javascript
理解Proxy及使用Proxy实现vue数据双向绑定操作
2020/07/18 Javascript
Python编程语言的35个与众不同之处(语言特征和使用技巧)
2014/07/07 Python
非递归的输出1-N的全排列实例(推荐)
2017/04/11 Python
python+opencv实现动态物体识别
2018/01/09 Python
Python使用爬虫爬取静态网页图片的方法详解
2018/06/05 Python
python实现dijkstra最短路由算法
2019/01/17 Python
python3 正则表达式基础廖雪峰
2020/03/25 Python
Django之全局使用request.user.username的实例详解
2020/05/14 Python
BrandAlley英国:法国折扣奢侈品网上零售商
2017/07/03 全球购物
英国的屈臣氏:Boots博姿
2017/12/23 全球购物
教师岗位职责
2013/11/17 职场文书
租房协议书
2014/04/10 职场文书
优质服务演讲稿
2014/05/14 职场文书
2015年纪委工作总结
2015/05/13 职场文书
项目备案申请报告
2015/05/15 职场文书
python自然语言处理之字典树知识总结
2021/04/25 Python
MySQL 数据类型选择原则
2021/05/27 MySQL
python基础之类方法和静态方法
2021/10/24 Python