Python使用Mechanize模块编写爬虫的要点解析


Posted in Python onMarch 31, 2016

 mechanize是对urllib2的部分功能的替换,能够更好的模拟浏览器行为,在web访问控制方面做得更全面。结合beautifulsoup和re模块,可以有效的解析web页面,我比较喜欢这种方法。
    下面主要总结了使用mechanize模拟浏览器的行为和几个例子(谷歌搜索,百度搜索和人人网登录等)
1.初始化并建立一个浏览器对象
    如果没有mechanize需要easy_install安装,以下代码建立浏览器对象并作了一些初始化设置,实际使用过程可以按需开关。其实只用默认的设置也可以完成基本任务。

#!/usr/bin/env python
import sys,mechanize

#Browser
br = mechanize.Browser()

#options
br.set_handle_equiv(True)
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)

#Follows refresh 0 but not hangs on refresh > 0
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)

#debugging?
br.set_debug_http(True)
br.set_debug_redirects(True)
br.set_debug_responses(True)

#User-Agent (this is cheating, ok?)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]

2.模拟浏览器行为
    浏览器对象建立并初始化完毕之后即可使用了,下面给出几个例子(代码承接以上部分)
获取web网页:
    分行打印可以逐个查看详细信息,就不赘述

r = br.open(sys.argv[1])
html = r.read()
print html
print br.response().read()
print br.title()
print r.info()

模拟谷歌和百度查询
    打印和选择forms,然后填写相应键值,通过post提交完成操作

for f in br.forms():
 print f

br.select_form(nr=0)

    谷歌查询football

br.form['q'] = 'football'
br.submit()
print br.response().read()

    百度查询football

br.form['wd'] = 'football'
br.submit()
print br.response().read()

  
    相应键值名,可以通过打印查出

回退(Back)
    非常简单的操作,打印url即可验证是否回退

# Back
br.back()
print br.geturl()

3.http基本认证

br.add_password('http://xxx.com', 'username', 'password')
br.open('http://xxx.com')

4.form认证
    以登陆人人网为例,打印forms可以查出用户名和密码键信息

br.select_form(nr = 0)
br['email'] = username
br['password'] = password
resp = self.br.submit()

5.cookie支持
    通过导入cookielib模块,并设置浏览器cookie,可以在需要认证的网络行为之后不用重复认证登陆。通过保存session cookie即可重新访问,Cookie Jar完成了该功能。

#!/usr/bin/env python
import mechanize, cookielib

br = mechanize.Browser()
cj = cookielib.LWPCookieJar()
br.set_cookiejar()

6.proxy设置
设置http代理

#Proxy
br.set_proxies({"http":"proxy.com:8888"})
br.add_proxy_password("username", "password")

#Proxy and usrer/password
br.set_proxies({"http":"username:password@proxy.com:8888"})

7.关于内存过高问题

在用mechanize写了一个爬虫脚本,想要去某网站爬取大概30万张图片。
 
整个过程是:
1、获取目标页面地址
2、取得目标地址前几页的所有图片url
3、对这些url进行下载,并把索引数据保存到mysql数据库。

这个脚本大概每秒钟完成一张图片的下载(主要是网络只有200K/S左右,是瓶颈)
当图片下载到大约15000张左右的时候,发现越来越慢,最后干脆停下了。
用ps aux查看,发现进程sleep了,感觉很奇怪。
free看一下,内存竟然只剩下100M了(系统总内存4GB)
在网上瞎逛了一下,发现原来mechanize默认会保存模拟过的操作历史,导致占用的内存越来越大:
http://stackoverflow.com/questions/2393299/how-do-i-disable-history-in-python-mechanize-module
 
为了方便,大约翻译一下:
mechanize初始化Browser()的时候,如果你不给他传一个history对象作为参数,Browser()就会按照默认的方式(允许保存操作历史)来进行初始化,你可以随便传个什么history给它即可,如自定义一个NoHistory对象:
 

class NoHistory(object): 
 def add(self, *a, **k): pass 
 def clear(self): pass 
 
b = mechanize.Browser(history=NoHistory())
Python 相关文章推荐
利用打码兔和超人打码自封装的打码类分享
Mar 16 Python
跟老齐学Python之编写类之三子类
Oct 11 Python
python提取内容关键词的方法
Mar 16 Python
利用Python绘制数据的瀑布图的教程
Apr 07 Python
Python3实现统计单词表中每个字母出现频率的方法示例
Jan 28 Python
Python脚本修改阿里云的访问控制列表的方法
Mar 08 Python
python并发编程多进程 互斥锁原理解析
Aug 20 Python
python区分不同数据类型的方法
Oct 14 Python
Keras 在fit_generator训练方式中加入图像random_crop操作
Jul 03 Python
python 基于卡方值分箱算法的实现示例
Jul 17 Python
Django框架实现在线考试系统的示例代码
Nov 30 Python
pytorch交叉熵损失函数的weight参数的使用
May 24 Python
Python语言实现获取主机名根据端口杀死进程
Mar 31 #Python
Linux中Python 环境软件包安装步骤
Mar 31 #Python
Python内置的HTTP协议服务器SimpleHTTPServer使用指南
Mar 30 #Python
横向对比分析Python解析XML的四种方式
Mar 30 #Python
python简单实现刷新智联简历
Mar 30 #Python
详解Python迭代和迭代器
Mar 28 #Python
Python读大数据txt
Mar 28 #Python
You might like
php绘制一个扇形的方法
2015/01/24 PHP
php使用GD实现颜色渐变实例
2015/06/02 PHP
PHP截取发动短信内容的方法
2017/07/04 PHP
PHP中register_shutdown_function函数的基础介绍与用法详解
2017/11/28 PHP
PHP7内核CGI与FastCGI详解
2019/04/14 PHP
select 控制网页内容隐藏于显示的实现代码
2010/05/25 Javascript
js 判断浏览器使用的语言示例代码
2014/03/22 Javascript
js获取当前日期时间及其它操作汇总
2015/04/17 Javascript
jquery插件jquery.nicescroll实现图片无滚动条左右拖拽的方法
2015/08/10 Javascript
JavaScript开发者必备的10个Sublime Text插件
2016/02/27 Javascript
BootStrap使用popover插件实现鼠标经过显示并保持显示框
2016/06/23 Javascript
jQuery模拟实现的select点击选择效果【附demo源码下载】
2016/11/09 Javascript
javascript 判断一个对象为数组的方法
2017/05/03 Javascript
ES6中Array.includes()函数的用法
2017/09/20 Javascript
微信小程序App生命周期详解
2018/01/31 Javascript
微信小程序实现分享朋友圈的图片功能示例
2019/01/18 Javascript
js中对象和面向对象与Json介绍
2019/01/21 Javascript
mapboxgl实现带箭头轨迹线的代码
2021/01/04 Javascript
Python多线程编程(八):使用Event实现线程间通信
2015/04/05 Python
python正则分析nginx的访问日志
2017/01/17 Python
Python实现的连接mssql数据库操作示例
2018/08/17 Python
Python3.6简单的操作Mysql数据库的三个实例
2018/10/17 Python
python3检查字典传入函数键是否齐全的实例
2020/06/05 Python
关于Python3的import问题(pycharm可以运行命令行import错误)
2020/11/18 Python
Python系统公网私网流量监控实现流程
2020/11/23 Python
详解使用双缓存解决Canvas clearRect引起的闪屏问题
2019/04/29 HTML / CSS
Lacoste(法国鳄鱼)加拿大官网:以标志性的POLO衫而闻名
2019/05/15 全球购物
Wiggle新西兰:自行车、跑步、游泳
2020/05/06 全球购物
销售类个人求职信范文
2013/09/25 职场文书
重阳节登山活动方案
2014/02/03 职场文书
点菜员岗位职责范本
2014/02/14 职场文书
爱国卫生月实施方案
2014/02/21 职场文书
青年文明号汇报材料
2014/12/23 职场文书
幼师辞职信怎么写
2015/02/27 职场文书
国情备忘录观后感
2015/06/04 职场文书
一文了解MYSQL三大范式和表约束
2022/04/03 MySQL