Python使用Mechanize模块编写爬虫的要点解析


Posted in Python onMarch 31, 2016

 mechanize是对urllib2的部分功能的替换,能够更好的模拟浏览器行为,在web访问控制方面做得更全面。结合beautifulsoup和re模块,可以有效的解析web页面,我比较喜欢这种方法。
    下面主要总结了使用mechanize模拟浏览器的行为和几个例子(谷歌搜索,百度搜索和人人网登录等)
1.初始化并建立一个浏览器对象
    如果没有mechanize需要easy_install安装,以下代码建立浏览器对象并作了一些初始化设置,实际使用过程可以按需开关。其实只用默认的设置也可以完成基本任务。

#!/usr/bin/env python
import sys,mechanize

#Browser
br = mechanize.Browser()

#options
br.set_handle_equiv(True)
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)

#Follows refresh 0 but not hangs on refresh > 0
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)

#debugging?
br.set_debug_http(True)
br.set_debug_redirects(True)
br.set_debug_responses(True)

#User-Agent (this is cheating, ok?)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]

2.模拟浏览器行为
    浏览器对象建立并初始化完毕之后即可使用了,下面给出几个例子(代码承接以上部分)
获取web网页:
    分行打印可以逐个查看详细信息,就不赘述

r = br.open(sys.argv[1])
html = r.read()
print html
print br.response().read()
print br.title()
print r.info()

模拟谷歌和百度查询
    打印和选择forms,然后填写相应键值,通过post提交完成操作

for f in br.forms():
 print f

br.select_form(nr=0)

    谷歌查询football

br.form['q'] = 'football'
br.submit()
print br.response().read()

    百度查询football

br.form['wd'] = 'football'
br.submit()
print br.response().read()

  
    相应键值名,可以通过打印查出

回退(Back)
    非常简单的操作,打印url即可验证是否回退

# Back
br.back()
print br.geturl()

3.http基本认证

br.add_password('http://xxx.com', 'username', 'password')
br.open('http://xxx.com')

4.form认证
    以登陆人人网为例,打印forms可以查出用户名和密码键信息

br.select_form(nr = 0)
br['email'] = username
br['password'] = password
resp = self.br.submit()

5.cookie支持
    通过导入cookielib模块,并设置浏览器cookie,可以在需要认证的网络行为之后不用重复认证登陆。通过保存session cookie即可重新访问,Cookie Jar完成了该功能。

#!/usr/bin/env python
import mechanize, cookielib

br = mechanize.Browser()
cj = cookielib.LWPCookieJar()
br.set_cookiejar()

6.proxy设置
设置http代理

#Proxy
br.set_proxies({"http":"proxy.com:8888"})
br.add_proxy_password("username", "password")

#Proxy and usrer/password
br.set_proxies({"http":"username:password@proxy.com:8888"})

7.关于内存过高问题

在用mechanize写了一个爬虫脚本,想要去某网站爬取大概30万张图片。
 
整个过程是:
1、获取目标页面地址
2、取得目标地址前几页的所有图片url
3、对这些url进行下载,并把索引数据保存到mysql数据库。

这个脚本大概每秒钟完成一张图片的下载(主要是网络只有200K/S左右,是瓶颈)
当图片下载到大约15000张左右的时候,发现越来越慢,最后干脆停下了。
用ps aux查看,发现进程sleep了,感觉很奇怪。
free看一下,内存竟然只剩下100M了(系统总内存4GB)
在网上瞎逛了一下,发现原来mechanize默认会保存模拟过的操作历史,导致占用的内存越来越大:
http://stackoverflow.com/questions/2393299/how-do-i-disable-history-in-python-mechanize-module
 
为了方便,大约翻译一下:
mechanize初始化Browser()的时候,如果你不给他传一个history对象作为参数,Browser()就会按照默认的方式(允许保存操作历史)来进行初始化,你可以随便传个什么history给它即可,如自定义一个NoHistory对象:
 

class NoHistory(object): 
 def add(self, *a, **k): pass 
 def clear(self): pass 
 
b = mechanize.Browser(history=NoHistory())
Python 相关文章推荐
python自动安装pip
Apr 24 Python
横向对比分析Python解析XML的四种方式
Mar 30 Python
Python实现代码统计工具(终极篇)
Jul 04 Python
Python爬取网易云音乐热门评论
Mar 31 Python
python实现数独游戏 java简单实现数独游戏
Mar 30 Python
Python tkinter的grid布局及Text动态显示方法
Oct 11 Python
python实现简单日期工具类
Apr 24 Python
Django实现发送邮件找回密码功能
Aug 12 Python
Pytorch Tensor 输出为txt和mat格式方式
Jan 03 Python
pycharm远程连接vagrant虚拟机中mariadb数据库
Jun 05 Python
Jupyter Notebook内使用argparse报错的解决方案
Jun 03 Python
教你用Python matplotlib库制作简单的动画
Jun 11 Python
Python语言实现获取主机名根据端口杀死进程
Mar 31 #Python
Linux中Python 环境软件包安装步骤
Mar 31 #Python
Python内置的HTTP协议服务器SimpleHTTPServer使用指南
Mar 30 #Python
横向对比分析Python解析XML的四种方式
Mar 30 #Python
python简单实现刷新智联简历
Mar 30 #Python
详解Python迭代和迭代器
Mar 28 #Python
Python读大数据txt
Mar 28 #Python
You might like
PHP入门之常量简介和系统常量
2014/05/12 PHP
PHP异常处理浅析
2015/05/12 PHP
jquery获取一组checkbox的值(实例代码)
2013/11/04 Javascript
jquery阻止后续事件只执行第一个事件
2014/07/24 Javascript
angularJS提交表单(form)
2015/02/09 Javascript
Javascript非构造函数的继承
2015/04/27 Javascript
AngularJS在IE8的不支持的解决方法
2016/05/13 Javascript
JS输出空格的简单实现方法
2016/09/08 Javascript
JS实现的简单折叠展开动画效果示例
2018/04/28 Javascript
vue-router中的hash和history两种模式的区别
2018/07/17 Javascript
Layer组件多个iframe弹出层打开与关闭及参数传递的方法
2019/09/25 Javascript
详解Vscode中使用Eslint终极配置大全
2019/11/08 Javascript
Vuex的各个模块封装的实现
2020/06/05 Javascript
Postman无法正常返回结果问题解决
2020/08/28 Javascript
[38:23]2014 DOTA2国际邀请赛中国区预选赛 5 23 CIS VS LGD第一场
2014/05/24 DOTA
[01:29:46]DOTA2上海特级锦标赛C组资格赛#1 OG VS LGD第二局
2016/02/27 DOTA
python使用win32com在百度空间插入html元素示例
2014/02/20 Python
Python迭代和迭代器详解
2016/11/10 Python
Python实现的桶排序算法示例
2017/11/29 Python
使用python根据端口号关闭进程的方法
2018/11/06 Python
Python绘制并保存指定大小图像的方法
2019/01/10 Python
Python3从零开始搭建一个语音对话机器人的实现
2019/08/23 Python
Python操作SQLite/MySQL/LMDB数据库的方法
2019/11/07 Python
Win下PyInstaller 安装和使用教程
2019/12/25 Python
Europcar葡萄牙:葡萄牙汽车和货车租赁
2017/10/13 全球购物
大学生毕业自我鉴定
2013/11/06 职场文书
自荐信怎么写好
2013/11/11 职场文书
电教室标语
2014/06/20 职场文书
办公室务虚会发言材料
2014/10/20 职场文书
社区学习党的群众路线教育实践活动心得体会
2014/11/03 职场文书
实习证明格式范文
2015/06/16 职场文书
暑假生活随笔
2015/08/15 职场文书
教你怎么用Python selenium操作浏览器对象的基础API
2021/06/23 Python
浅谈sql_@SelectProvider及使用注意说明
2021/08/04 Java/Android
SQL优化老出错,那是你没弄明白MySQL解释计划用法
2021/11/27 MySQL
超越Nginx的Web服务器caddy优雅用法
2022/06/21 Servers