编程 Python

Python使用Mechanize模块编写爬虫的要点解析

Posted in Python onMarch 31, 2016

mechanize是对urllib2的部分功能的替换，能够更好的模拟浏览器行为，在web访问控制方面做得更全面。结合beautifulsoup和re模块，可以有效的解析web页面，我比较喜欢这种方法。
下面主要总结了使用mechanize模拟浏览器的行为和几个例子（谷歌搜索，百度搜索和人人网登录等）
1.初始化并建立一个浏览器对象
如果没有mechanize需要easy_install安装，以下代码建立浏览器对象并作了一些初始化设置，实际使用过程可以按需开关。其实只用默认的设置也可以完成基本任务。

#!/usr/bin/env python
import sys,mechanize

#Browser
br = mechanize.Browser()

#options
br.set_handle_equiv(True)
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)

#Follows refresh 0 but not hangs on refresh > 0
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)

#debugging?
br.set_debug_http(True)
br.set_debug_redirects(True)
br.set_debug_responses(True)

#User-Agent (this is cheating, ok?)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]

2.模拟浏览器行为
浏览器对象建立并初始化完毕之后即可使用了，下面给出几个例子（代码承接以上部分）
获取web网页：
分行打印可以逐个查看详细信息，就不赘述

r = br.open(sys.argv[1])
html = r.read()
print html
print br.response().read()
print br.title()
print r.info()

模拟谷歌和百度查询
打印和选择forms，然后填写相应键值，通过post提交完成操作

for f in br.forms():
 print f

br.select_form(nr=0)

谷歌查询football

br.form['q'] = 'football'
br.submit()
print br.response().read()

百度查询football

br.form['wd'] = 'football'
br.submit()
print br.response().read()

相应键值名，可以通过打印查出

回退（Back）
非常简单的操作，打印url即可验证是否回退

# Back
br.back()
print br.geturl()

3.http基本认证

br.add_password('http://xxx.com', 'username', 'password')
br.open('http://xxx.com')

4.form认证
以登陆人人网为例，打印forms可以查出用户名和密码键信息

br.select_form(nr = 0)
br['email'] = username
br['password'] = password
resp = self.br.submit()

5.cookie支持
通过导入cookielib模块，并设置浏览器cookie，可以在需要认证的网络行为之后不用重复认证登陆。通过保存session cookie即可重新访问，Cookie Jar完成了该功能。

#!/usr/bin/env python
import mechanize, cookielib

br = mechanize.Browser()
cj = cookielib.LWPCookieJar()
br.set_cookiejar()

6.proxy设置
设置http代理

#Proxy
br.set_proxies({"http":"proxy.com:8888"})
br.add_proxy_password("username", "password")

#Proxy and usrer/password
br.set_proxies({"http":"username:password@proxy.com:8888"})

7.关于内存过高问题

在用mechanize写了一个爬虫脚本，想要去某网站爬取大概30万张图片。

整个过程是：
1、获取目标页面地址
2、取得目标地址前几页的所有图片url
3、对这些url进行下载，并把索引数据保存到mysql数据库。

这个脚本大概每秒钟完成一张图片的下载(主要是网络只有200K/S左右，是瓶颈)
当图片下载到大约15000张左右的时候，发现越来越慢，最后干脆停下了。
用ps aux查看，发现进程sleep了，感觉很奇怪。
free看一下，内存竟然只剩下100M了（系统总内存4GB）
在网上瞎逛了一下，发现原来mechanize默认会保存模拟过的操作历史，导致占用的内存越来越大：
http://stackoverflow.com/questions/2393299/how-do-i-disable-history-in-python-mechanize-module

为了方便，大约翻译一下：
mechanize初始化Browser()的时候，如果你不给他传一个history对象作为参数，Browser()就会按照默认的方式（允许保存操作历史）来进行初始化，你可以随便传个什么history给它即可，如自定义一个NoHistory对象：

class NoHistory(object): 
 def add(self, *a, **k): pass 
 def clear(self): pass 
 
b = mechanize.Browser(history=NoHistory())

Python使用Mechanize模块编写爬虫的要点解析

- Author -

iWonderLinux

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python 测试实现方法

Dec 24 Python

浅谈python中截取字符函数strip，lstrip，rstrip

Jul 17 Python

python从入门到精通（DAY 3）

Dec 20 Python

Python学习笔记之if语句的使用示例

Oct 23 Python

Windows下Anaconda2安装NLTK教程

Sep 19 Python

python3 小数位的四舍五入(用两种方法解决round 遇5不进)

Apr 11 Python

python 读写excel文件操作示例【附源码下载】

Jun 19 Python

解决Django加载静态资源失败的问题

Jul 28 Python

解决python -m pip install --upgrade pip 升级不成功问题

Mar 05 Python

python/golang 删除链表中的元素

Sep 14 Python

Python列表的深复制和浅复制示例详解

Feb 12 Python

Python中使用Opencv开发停车位计数器功能

Apr 04 Python

Python语言实现获取主机名根据端口杀死进程

Mar 31 #Python

Linux中Python 环境软件包安装步骤

Mar 31 #Python

Python内置的HTTP协议服务器SimpleHTTPServer使用指南

Mar 30 #Python

横向对比分析Python解析XML的四种方式

Mar 30 #Python

python简单实现刷新智联简历

Mar 30 #Python

详解Python迭代和迭代器

Mar 28 #Python

Python读大数据txt

Mar 28 #Python

i7 6700(1) win10(43) i5 9400(1) i5 10400(1) React(6) win11(40) 对讲机(1) GTX1660(1) R71E(1) R72E(1)

You might like

又十个超级有用的PHP代码片段

2015/09/24 PHP

PHP yield关键字功能与用法分析

2019/01/03 PHP

php中字符串和整数比较的操作方法

2019/06/06 PHP

javascript+css 网页每次加载不同样式的实现方法

2009/12/27 Javascript

使用JavaScript构建JSON格式字符串实现步骤

2013/03/22 Javascript

Javascript 鼠标移动上去滑块跟随效果代码分享

2013/11/23 Javascript

js使用eval解析json实例与注意事项分享

2014/01/18 Javascript

js中运算符&& 和 || 的使用记录

2014/08/21 Javascript

使用JavaScript实现旋转的彩圈特效

2015/06/23 Javascript

javascript中alert()与console.log()的区别

2015/08/26 Javascript

Nodejs如何复制文件

2016/03/09 NodeJs

JavaScript sort数组排序方法和自我实现排序方法小结

2016/06/06 Javascript

js数组与字符串常用方法总结

2017/01/13 Javascript

vue 请求后台数据的实例代码

2017/06/22 Javascript

JS运动特效之同时运动实现方法分析

2018/01/24 Javascript

vue-cli2.0转3.0之项目搭建的详细步骤

2018/12/11 Javascript

Vue CLI3基础学习之pages构建多页应用

2019/06/02 Javascript

浅谈Vue3 Composition API如何替换Vue Mixins

2020/04/29 Javascript

[02:00]DOTA2英雄COSPLAY闹市街头巡游助威2015国际邀请赛

2015/08/02 DOTA

PyTorch快速搭建神经网络及其保存提取方法详解

2018/04/28 Python

检测tensorflow是否使用gpu进行计算的方式

2020/02/03 Python

Python实现自动访问网页的例子

2020/02/21 Python

2021年值得向Python开发者推荐的VS Code扩展插件

2021/01/25 Python

django inspectdb 操作已有数据库数据的使用步骤

2021/02/07 Python

美国知名艺术画网站：Art.com

2017/02/09 全球购物

英国度假别墅预订：Sykes Cottages

2017/06/12 全球购物

高街生活方式全球在线商店：AZBRO

2017/08/26 全球购物

口头翻译求职人自荐信

2013/12/07 职场文书

乡镇纠风工作实施方案

2014/03/22 职场文书

交通运输局四风问题对照检查材料思想汇报

2014/10/09 职场文书

学习焦裕禄精神践行三严三实心得体会

2014/10/13 职场文书

堂吉诃德读书笔记

2015/06/30 职场文书

小学新课改心得体会

2016/01/22 职场文书

2016年社区国庆节活动总结

2016/04/01 职场文书

Nginx中break与last的区别详析

2021/03/31 Servers

MySQL中in和exists区别详解

2021/06/03 MySQL