Python使用Mechanize模块编写爬虫的要点解析


Posted in Python onMarch 31, 2016

 mechanize是对urllib2的部分功能的替换,能够更好的模拟浏览器行为,在web访问控制方面做得更全面。结合beautifulsoup和re模块,可以有效的解析web页面,我比较喜欢这种方法。
    下面主要总结了使用mechanize模拟浏览器的行为和几个例子(谷歌搜索,百度搜索和人人网登录等)
1.初始化并建立一个浏览器对象
    如果没有mechanize需要easy_install安装,以下代码建立浏览器对象并作了一些初始化设置,实际使用过程可以按需开关。其实只用默认的设置也可以完成基本任务。

#!/usr/bin/env python
import sys,mechanize

#Browser
br = mechanize.Browser()

#options
br.set_handle_equiv(True)
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)

#Follows refresh 0 but not hangs on refresh > 0
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)

#debugging?
br.set_debug_http(True)
br.set_debug_redirects(True)
br.set_debug_responses(True)

#User-Agent (this is cheating, ok?)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]

2.模拟浏览器行为
    浏览器对象建立并初始化完毕之后即可使用了,下面给出几个例子(代码承接以上部分)
获取web网页:
    分行打印可以逐个查看详细信息,就不赘述

r = br.open(sys.argv[1])
html = r.read()
print html
print br.response().read()
print br.title()
print r.info()

模拟谷歌和百度查询
    打印和选择forms,然后填写相应键值,通过post提交完成操作

for f in br.forms():
 print f

br.select_form(nr=0)

    谷歌查询football

br.form['q'] = 'football'
br.submit()
print br.response().read()

    百度查询football

br.form['wd'] = 'football'
br.submit()
print br.response().read()

  
    相应键值名,可以通过打印查出

回退(Back)
    非常简单的操作,打印url即可验证是否回退

# Back
br.back()
print br.geturl()

3.http基本认证

br.add_password('http://xxx.com', 'username', 'password')
br.open('http://xxx.com')

4.form认证
    以登陆人人网为例,打印forms可以查出用户名和密码键信息

br.select_form(nr = 0)
br['email'] = username
br['password'] = password
resp = self.br.submit()

5.cookie支持
    通过导入cookielib模块,并设置浏览器cookie,可以在需要认证的网络行为之后不用重复认证登陆。通过保存session cookie即可重新访问,Cookie Jar完成了该功能。

#!/usr/bin/env python
import mechanize, cookielib

br = mechanize.Browser()
cj = cookielib.LWPCookieJar()
br.set_cookiejar()

6.proxy设置
设置http代理

#Proxy
br.set_proxies({"http":"proxy.com:8888"})
br.add_proxy_password("username", "password")

#Proxy and usrer/password
br.set_proxies({"http":"username:password@proxy.com:8888"})

7.关于内存过高问题

在用mechanize写了一个爬虫脚本,想要去某网站爬取大概30万张图片。
 
整个过程是:
1、获取目标页面地址
2、取得目标地址前几页的所有图片url
3、对这些url进行下载,并把索引数据保存到mysql数据库。

这个脚本大概每秒钟完成一张图片的下载(主要是网络只有200K/S左右,是瓶颈)
当图片下载到大约15000张左右的时候,发现越来越慢,最后干脆停下了。
用ps aux查看,发现进程sleep了,感觉很奇怪。
free看一下,内存竟然只剩下100M了(系统总内存4GB)
在网上瞎逛了一下,发现原来mechanize默认会保存模拟过的操作历史,导致占用的内存越来越大:
http://stackoverflow.com/questions/2393299/how-do-i-disable-history-in-python-mechanize-module
 
为了方便,大约翻译一下:
mechanize初始化Browser()的时候,如果你不给他传一个history对象作为参数,Browser()就会按照默认的方式(允许保存操作历史)来进行初始化,你可以随便传个什么history给它即可,如自定义一个NoHistory对象:
 

class NoHistory(object): 
 def add(self, *a, **k): pass 
 def clear(self): pass 
 
b = mechanize.Browser(history=NoHistory())
Python 相关文章推荐
Python中使用socket发送HTTP请求数据接收不完整问题解决方法
Feb 04 Python
Python实现遍历windows所有窗口并输出窗口标题的方法
Mar 13 Python
Python wxPython库Core组件BoxSizer用法示例
Sep 03 Python
使用NumPy读取MNIST数据的实现代码示例
Nov 20 Python
window环境pip切换国内源(pip安装异常缓慢的问题)
Dec 31 Python
浅谈Python访问MySQL的正确姿势
Jan 07 Python
在python中使用pymysql往mysql数据库中插入(insert)数据实例
Mar 02 Python
Django与pyecharts结合的实例代码
May 13 Python
Python openpyxl模块实现excel读写操作
Jun 30 Python
Python 保存加载mat格式文件的示例代码
Aug 04 Python
PyCharm常用配置和常用插件(小结)
Feb 06 Python
OpenCV-Python实现人脸美白算法的实例
Jun 11 Python
Python语言实现获取主机名根据端口杀死进程
Mar 31 #Python
Linux中Python 环境软件包安装步骤
Mar 31 #Python
Python内置的HTTP协议服务器SimpleHTTPServer使用指南
Mar 30 #Python
横向对比分析Python解析XML的四种方式
Mar 30 #Python
python简单实现刷新智联简历
Mar 30 #Python
详解Python迭代和迭代器
Mar 28 #Python
Python读大数据txt
Mar 28 #Python
You might like
不用mod_rewrite直接用php实现伪静态化页面代码
2008/10/04 PHP
php 面试碰到过的问题 在此做下记录
2011/06/09 PHP
php获取YouTube视频信息的方法
2015/02/11 PHP
php使用GD库创建图片缩略图的方法
2015/06/10 PHP
PHP-FPM之Chroot执行环境详解
2015/08/03 PHP
php简单解析mysqli查询结果的方法(2种方法)
2016/06/29 PHP
使用 laravel sms 构建短信验证码发送校验功能
2017/11/06 PHP
PHP多线程模拟实现秒杀抢单
2018/02/07 PHP
php打开本地exe程序,js打开本地exe应用程序,并传递相关参数方法
2018/02/06 PHP
动态加载js的几种方法
2006/10/23 Javascript
通过JS来判断页面控件是否获取焦点
2014/01/03 Javascript
JavaScript实战(原生range和自定义特效)简单实例
2016/08/21 Javascript
微信小程序引用公共js里的方法的实例详解
2017/08/17 Javascript
vue.js路由跳转详解
2017/08/28 Javascript
微信小程序 页面滑动事件的实例详解
2017/10/12 Javascript
js 获取json数组里面数组的长度实例
2017/10/31 Javascript
小程序scroll-view组件实现滚动的示例代码
2018/09/20 Javascript
小程序实现展开/收起的效果示例
2018/09/22 Javascript
jquery实现动态添加附件功能
2018/10/23 jQuery
jQuery选择器之基本选择器用法实例分析
2019/02/19 jQuery
浅析Python中的多进程与多线程的使用
2015/04/07 Python
Python判断某个用户对某个文件的权限
2016/10/13 Python
在Python中pandas.DataFrame重置索引名称的实例
2018/11/06 Python
Django视图扩展类知识点详解
2019/10/25 Python
python-numpy-指数分布实例详解
2019/12/07 Python
tensorflow指定CPU与GPU运算的方法实现
2020/04/21 Python
HTML5 离线应用之打造零请求、无流量网站的解决方法
2013/04/25 HTML / CSS
先进个人获奖感言
2014/01/24 职场文书
关于十八大的演讲稿
2014/09/15 职场文书
党的群众路线教育实践活动学习笔记
2014/11/05 职场文书
研究生给导师的自荐信
2015/03/06 职场文书
2015年党建工作总结
2015/03/30 职场文书
中学生社会实践教育活动总结
2015/05/06 职场文书
中国梦宣传标语口号
2015/12/26 职场文书
2016党员学习作风建设心得体会
2016/01/21 职场文书
vue 自定义组件添加原生事件
2022/04/21 Vue.js