Python使用Mechanize模块编写爬虫的要点解析


Posted in Python onMarch 31, 2016

 mechanize是对urllib2的部分功能的替换,能够更好的模拟浏览器行为,在web访问控制方面做得更全面。结合beautifulsoup和re模块,可以有效的解析web页面,我比较喜欢这种方法。
    下面主要总结了使用mechanize模拟浏览器的行为和几个例子(谷歌搜索,百度搜索和人人网登录等)
1.初始化并建立一个浏览器对象
    如果没有mechanize需要easy_install安装,以下代码建立浏览器对象并作了一些初始化设置,实际使用过程可以按需开关。其实只用默认的设置也可以完成基本任务。

#!/usr/bin/env python
import sys,mechanize

#Browser
br = mechanize.Browser()

#options
br.set_handle_equiv(True)
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)

#Follows refresh 0 but not hangs on refresh > 0
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)

#debugging?
br.set_debug_http(True)
br.set_debug_redirects(True)
br.set_debug_responses(True)

#User-Agent (this is cheating, ok?)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]

2.模拟浏览器行为
    浏览器对象建立并初始化完毕之后即可使用了,下面给出几个例子(代码承接以上部分)
获取web网页:
    分行打印可以逐个查看详细信息,就不赘述

r = br.open(sys.argv[1])
html = r.read()
print html
print br.response().read()
print br.title()
print r.info()

模拟谷歌和百度查询
    打印和选择forms,然后填写相应键值,通过post提交完成操作

for f in br.forms():
 print f

br.select_form(nr=0)

    谷歌查询football

br.form['q'] = 'football'
br.submit()
print br.response().read()

    百度查询football

br.form['wd'] = 'football'
br.submit()
print br.response().read()

  
    相应键值名,可以通过打印查出

回退(Back)
    非常简单的操作,打印url即可验证是否回退

# Back
br.back()
print br.geturl()

3.http基本认证

br.add_password('http://xxx.com', 'username', 'password')
br.open('http://xxx.com')

4.form认证
    以登陆人人网为例,打印forms可以查出用户名和密码键信息

br.select_form(nr = 0)
br['email'] = username
br['password'] = password
resp = self.br.submit()

5.cookie支持
    通过导入cookielib模块,并设置浏览器cookie,可以在需要认证的网络行为之后不用重复认证登陆。通过保存session cookie即可重新访问,Cookie Jar完成了该功能。

#!/usr/bin/env python
import mechanize, cookielib

br = mechanize.Browser()
cj = cookielib.LWPCookieJar()
br.set_cookiejar()

6.proxy设置
设置http代理

#Proxy
br.set_proxies({"http":"proxy.com:8888"})
br.add_proxy_password("username", "password")

#Proxy and usrer/password
br.set_proxies({"http":"username:password@proxy.com:8888"})

7.关于内存过高问题

在用mechanize写了一个爬虫脚本,想要去某网站爬取大概30万张图片。
 
整个过程是:
1、获取目标页面地址
2、取得目标地址前几页的所有图片url
3、对这些url进行下载,并把索引数据保存到mysql数据库。

这个脚本大概每秒钟完成一张图片的下载(主要是网络只有200K/S左右,是瓶颈)
当图片下载到大约15000张左右的时候,发现越来越慢,最后干脆停下了。
用ps aux查看,发现进程sleep了,感觉很奇怪。
free看一下,内存竟然只剩下100M了(系统总内存4GB)
在网上瞎逛了一下,发现原来mechanize默认会保存模拟过的操作历史,导致占用的内存越来越大:
http://stackoverflow.com/questions/2393299/how-do-i-disable-history-in-python-mechanize-module
 
为了方便,大约翻译一下:
mechanize初始化Browser()的时候,如果你不给他传一个history对象作为参数,Browser()就会按照默认的方式(允许保存操作历史)来进行初始化,你可以随便传个什么history给它即可,如自定义一个NoHistory对象:
 

class NoHistory(object): 
 def add(self, *a, **k): pass 
 def clear(self): pass 
 
b = mechanize.Browser(history=NoHistory())
Python 相关文章推荐
Python如何快速上手? 快速掌握一门新语言的方法
Nov 14 Python
Tornado 多进程实现分析详解
Jan 12 Python
python爬虫之xpath的基本使用详解
Apr 18 Python
解决python "No module named pip" 的问题
Oct 13 Python
Python递归函数实例讲解
Feb 27 Python
python 读取修改pcap包的例子
Jul 23 Python
Python 矩阵转置的几种方法小结
Dec 02 Python
如何通过python实现全排列
Feb 11 Python
sklearn+python:线性回归案例
Feb 24 Python
python GUI库图形界面开发之PyQt5简单绘图板实例与代码分析
Mar 08 Python
python爬虫基础知识点整理
Jun 02 Python
Python办公自动化之Excel(中)
May 24 Python
Python语言实现获取主机名根据端口杀死进程
Mar 31 #Python
Linux中Python 环境软件包安装步骤
Mar 31 #Python
Python内置的HTTP协议服务器SimpleHTTPServer使用指南
Mar 30 #Python
横向对比分析Python解析XML的四种方式
Mar 30 #Python
python简单实现刷新智联简历
Mar 30 #Python
详解Python迭代和迭代器
Mar 28 #Python
Python读大数据txt
Mar 28 #Python
You might like
[企业公众号]升级到[企业微信]之后发送消息失败的解决方法
2017/06/30 PHP
浅谈Yii乐观锁的使用及原理
2017/07/25 PHP
可兼容php5与php7的cURL文件上传功能实例分析
2018/05/11 PHP
PHP PDOStatement::errorCode讲解
2019/01/31 PHP
Yii2框架视图(View)操作及Layout的使用方法分析
2019/05/27 PHP
laravel框架模板之公共模板、继承、包含实现方法分析
2019/08/30 PHP
工作需要写的一个js拖拽组件
2011/07/28 Javascript
浅谈JavaScript中Date(日期对象),Math对象
2015/02/05 Javascript
JQuery简单实现锚点链接的平滑滚动
2015/05/03 Javascript
jQuery筛选数组之grep、each、inArray、map的用法及遍历json对象
2016/06/20 Javascript
JavaScript获取URL参数的方法之一
2017/03/24 Javascript
js 事件的传播机制(实例讲解)
2017/07/20 Javascript
解决在vue+webpack开发中出现两个或多个菜单公用一个组件问题
2017/11/28 Javascript
详解微信UnionID作用
2019/05/15 Javascript
详解vue-cli3开发Chrome插件实践
2019/05/29 Javascript
[02:14]DOTA2英雄基础教程 修补匠
2013/12/23 DOTA
[46:57]EG vs Winstrike 2018国际邀请赛小组赛BO2 第二场 8.18
2018/08/19 DOTA
Python字符遍历的艺术
2008/09/06 Python
使用python BeautifulSoup库抓取58手机维修信息
2013/11/21 Python
Python中的super()方法使用简介
2015/08/14 Python
Python实现的三层BP神经网络算法示例
2018/02/07 Python
python如何获取apk的packagename和activity
2020/01/10 Python
CSS3实现的闪烁跳跃进度条示例(附源码)
2013/08/19 HTML / CSS
H5 meta小结(前端必看篇)
2016/08/24 HTML / CSS
优质美利奴羊毛袜,不只是徒步旅行:Darn Tough Vermont
2018/11/05 全球购物
东方通信股份有限公司VC面试题
2014/08/27 面试题
初二政治教学反思
2014/01/12 职场文书
考试没考好检讨书
2014/01/31 职场文书
教师简历自我评价
2014/02/03 职场文书
优秀学生干部先进事迹材料
2014/05/26 职场文书
应届生自荐信
2014/06/30 职场文书
2015年教师新年寄语
2014/12/08 职场文书
户外亲子活动总结
2015/05/08 职场文书
优秀教师主要事迹材料
2015/11/04 职场文书
pandas中DataFrame检测重复值的实现
2021/05/26 Python
win10如何更改appdata文件夹的默认位置?
2022/07/15 数码科技