Python使用Mechanize模块编写爬虫的要点解析


Posted in Python onMarch 31, 2016

 mechanize是对urllib2的部分功能的替换,能够更好的模拟浏览器行为,在web访问控制方面做得更全面。结合beautifulsoup和re模块,可以有效的解析web页面,我比较喜欢这种方法。
    下面主要总结了使用mechanize模拟浏览器的行为和几个例子(谷歌搜索,百度搜索和人人网登录等)
1.初始化并建立一个浏览器对象
    如果没有mechanize需要easy_install安装,以下代码建立浏览器对象并作了一些初始化设置,实际使用过程可以按需开关。其实只用默认的设置也可以完成基本任务。

#!/usr/bin/env python
import sys,mechanize

#Browser
br = mechanize.Browser()

#options
br.set_handle_equiv(True)
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)

#Follows refresh 0 but not hangs on refresh > 0
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)

#debugging?
br.set_debug_http(True)
br.set_debug_redirects(True)
br.set_debug_responses(True)

#User-Agent (this is cheating, ok?)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]

2.模拟浏览器行为
    浏览器对象建立并初始化完毕之后即可使用了,下面给出几个例子(代码承接以上部分)
获取web网页:
    分行打印可以逐个查看详细信息,就不赘述

r = br.open(sys.argv[1])
html = r.read()
print html
print br.response().read()
print br.title()
print r.info()

模拟谷歌和百度查询
    打印和选择forms,然后填写相应键值,通过post提交完成操作

for f in br.forms():
 print f

br.select_form(nr=0)

    谷歌查询football

br.form['q'] = 'football'
br.submit()
print br.response().read()

    百度查询football

br.form['wd'] = 'football'
br.submit()
print br.response().read()

  
    相应键值名,可以通过打印查出

回退(Back)
    非常简单的操作,打印url即可验证是否回退

# Back
br.back()
print br.geturl()

3.http基本认证

br.add_password('http://xxx.com', 'username', 'password')
br.open('http://xxx.com')

4.form认证
    以登陆人人网为例,打印forms可以查出用户名和密码键信息

br.select_form(nr = 0)
br['email'] = username
br['password'] = password
resp = self.br.submit()

5.cookie支持
    通过导入cookielib模块,并设置浏览器cookie,可以在需要认证的网络行为之后不用重复认证登陆。通过保存session cookie即可重新访问,Cookie Jar完成了该功能。

#!/usr/bin/env python
import mechanize, cookielib

br = mechanize.Browser()
cj = cookielib.LWPCookieJar()
br.set_cookiejar()

6.proxy设置
设置http代理

#Proxy
br.set_proxies({"http":"proxy.com:8888"})
br.add_proxy_password("username", "password")

#Proxy and usrer/password
br.set_proxies({"http":"username:password@proxy.com:8888"})

7.关于内存过高问题

在用mechanize写了一个爬虫脚本,想要去某网站爬取大概30万张图片。
 
整个过程是:
1、获取目标页面地址
2、取得目标地址前几页的所有图片url
3、对这些url进行下载,并把索引数据保存到mysql数据库。

这个脚本大概每秒钟完成一张图片的下载(主要是网络只有200K/S左右,是瓶颈)
当图片下载到大约15000张左右的时候,发现越来越慢,最后干脆停下了。
用ps aux查看,发现进程sleep了,感觉很奇怪。
free看一下,内存竟然只剩下100M了(系统总内存4GB)
在网上瞎逛了一下,发现原来mechanize默认会保存模拟过的操作历史,导致占用的内存越来越大:
http://stackoverflow.com/questions/2393299/how-do-i-disable-history-in-python-mechanize-module
 
为了方便,大约翻译一下:
mechanize初始化Browser()的时候,如果你不给他传一个history对象作为参数,Browser()就会按照默认的方式(允许保存操作历史)来进行初始化,你可以随便传个什么history给它即可,如自定义一个NoHistory对象:
 

class NoHistory(object): 
 def add(self, *a, **k): pass 
 def clear(self): pass 
 
b = mechanize.Browser(history=NoHistory())
Python 相关文章推荐
python中将字典转换成其json字符串
Jul 16 Python
Python使用Redis实现作业调度系统(超简单)
Mar 22 Python
Python利用Beautiful Soup模块搜索内容详解
Mar 29 Python
python实现控制台打印的方法
Jan 12 Python
python3.6数独问题的解决
Jan 21 Python
python内置模块collections知识点总结
Dec 19 Python
python每5分钟从kafka中提取数据的例子
Dec 23 Python
python中如何使用insert函数
Jan 09 Python
Pytorch .pth权重文件的使用解析
Feb 14 Python
Python requests设置代理的方法步骤
Feb 23 Python
python 密码学示例——理解哈希(Hash)算法
Sep 21 Python
python3中布局背景颜色代码分析
Dec 01 Python
Python语言实现获取主机名根据端口杀死进程
Mar 31 #Python
Linux中Python 环境软件包安装步骤
Mar 31 #Python
Python内置的HTTP协议服务器SimpleHTTPServer使用指南
Mar 30 #Python
横向对比分析Python解析XML的四种方式
Mar 30 #Python
python简单实现刷新智联简历
Mar 30 #Python
详解Python迭代和迭代器
Mar 28 #Python
Python读大数据txt
Mar 28 #Python
You might like
用PHP将数据导入到Foxmail的实现代码
2010/09/05 PHP
php实现的zip文件内容比较类
2014/09/24 PHP
PHP操作MySQL事务实例
2014/11/05 PHP
PHP实现的简单异常处理类示例
2017/05/04 PHP
Javascript 解疑
2009/11/11 Javascript
一些mootools的学习资源
2010/02/07 Javascript
javascript 正则替换 replace(regExp, function)用法
2010/05/22 Javascript
JQuery 中几个类选择器的简单使用介绍
2013/03/14 Javascript
jquery特效 幻灯片效果示例代码
2013/07/16 Javascript
jquery模拟SELECT下拉框取值效果
2013/10/23 Javascript
js常用自定义公共函数汇总
2014/01/15 Javascript
简单易用的倒计时js代码
2014/08/04 Javascript
JS中对象与字符串的互相转换详解
2016/05/20 Javascript
基于WebUploader的文件上传js插件
2016/08/19 Javascript
Vue.js 2.0 和 React、Augular等其他前端框架大比拼
2016/10/08 Javascript
JS实现快速的导航下拉菜单动画效果附源码下载
2016/11/01 Javascript
JavaScript运动框架 解决速度正负取整问题(一)
2017/05/17 Javascript
JS 组件系列之Bootstrap Table的冻结列功能彻底解决高度问题
2017/06/30 Javascript
bootstrap table支持高度百分比的实例代码
2018/02/28 Javascript
vue 实现的树形菜的实例代码
2018/03/19 Javascript
vue组件jsx语法的具体使用
2018/05/21 Javascript
在vue中使用vant TreeSelect分类选择组件操作
2020/11/02 Javascript
tensorflow实现KNN识别MNIST
2018/03/12 Python
使用DataFrame删除行和列的实例讲解
2018/04/08 Python
详解pandas库pd.read_excel操作读取excel文件参数整理与实例
2019/02/17 Python
Python判断两个文件是否相同与两个文本进行相同项筛选的方法
2019/03/01 Python
基于python实现蓝牙通信代码实例
2019/11/19 Python
Python如何使用PIL Image制作GIF图片
2020/05/16 Python
使用pyecharts1.7进行简单的可视化大全
2020/05/17 Python
儿科主治医生个人求职信
2013/09/23 职场文书
犯错检讨书
2014/02/21 职场文书
2015年世界无烟日活动总结
2015/02/10 职场文书
CSS 实现Chrome标签栏的技巧
2021/08/04 HTML / CSS
Java练习之潜艇小游戏的实现
2022/03/16 Java/Android
JS前端监控采集用户行为的N种姿势
2022/07/23 Javascript
微软Win11 全新照片应用面向 Dev预览版推出 新版本上手体验图集
2022/09/23 数码科技