零基础写python爬虫之urllib2中的两个重要概念:Openers和Handlers


Posted in Python onNovember 05, 2014

在开始后面的内容之前,先来解释一下urllib2中的两个个方法:info / geturl
urlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl()

1.geturl():

这个返回获取的真实的URL,这个很有用,因为urlopen(或者opener对象使用的)或许会有重定向。获取的URL或许跟请求URL不同。
以人人中的一个超级链接为例,
我们建一个urllib2_test10.py来比较一下原始URL和重定向的链接:

from urllib2 import Request, urlopen, URLError, HTTPError  

old_url = 'http://rrurl.cn/b1UZuP'  

req = Request(old_url)  

response = urlopen(req)    

print 'Old url :' + old_url  

print 'Real url :' + response.geturl() 

运行之后可以看到真正的链接指向的网址:

零基础写python爬虫之urllib2中的两个重要概念:Openers和Handlers

2.info():

这个返回对象的字典对象,该字典描述了获取的页面情况。通常是服务器发送的特定头headers。目前是httplib.HTTPMessage 实例。
经典的headers包含"Content-length","Content-type",和其他内容。
我们建一个urllib2_test11.py来测试一下info的应用:

from urllib2 import Request, urlopen, URLError, HTTPError  

old_url = 'http://www.baidu.com'  

req = Request(old_url)  

response = urlopen(req)    

print 'Info():'  

print response.info() 

运行的结果如下,可以看到页面的相关信息:

零基础写python爬虫之urllib2中的两个重要概念:Openers和Handlers

下面来说一说urllib2中的两个重要概念:Openers和Handlers。

1.Openers:

当你获取一个URL你使用一个opener(一个urllib2.OpenerDirector的实例)。
正常情况下,我们使用默认opener:通过urlopen。
但你能够创建个性的openers。

2.Handles:

Openers使用处理器handlers,所有的“繁重”工作由handlers处理。
每个handlers知道如何通过特定协议打开URLs,或者如何处理URL打开时的各个方面。
例如HTTP重定向或者HTTP cookies。

如果你希望用特定处理器获取URLs你会想创建一个openers,例如获取一个能处理cookie的opener,或者获取一个不重定向的opener。

要创建一个 opener,可以实例化一个OpenerDirector,
然后调用.add_handler(some_handler_instance)。
同样,可以使用build_opener,这是一个更加方便的函数,用来创建opener对象,他只需要一次函数调用。
build_opener默认添加几个处理器,但提供快捷的方法来添加或更新默认处理器。
其他的处理器handlers你或许会希望处理代理,验证,和其他常用但有点特殊的情况。

install_opener 用来创建(全局)默认opener。这个表示调用urlopen将使用你安装的opener。
Opener对象有一个open方法。
该方法可以像urlopen函数那样直接用来获取urls:通常不必调用install_opener,除了为了方便。

说完了上面两个内容,下面我们来看一下基本认证的内容,这里会用到上面提及的Opener和Handler。

Basic Authentication 基本验证

为了展示创建和安装一个handler,我们将使用HTTPBasicAuthHandler。
当需要基础验证时,服务器发送一个header(401错误码) 请求验证。这个指定了scheme 和一个‘realm',看起来像这样:Www-authenticate: SCHEME realm="REALM".
例如
Www-authenticate: Basic realm="cPanel Users"
客户端必须使用新的请求,并在请求头里包含正确的姓名和密码。
这是“基础验证”,为了简化这个过程,我们可以创建一个HTTPBasicAuthHandler的实例,并让opener使用这个handler就可以啦。

HTTPBasicAuthHandler使用一个密码管理的对象来处理URLs和realms来映射用户名和密码。
如果你知道realm(从服务器发送来的头里)是什么,你就能使用HTTPPasswordMgr。

通常人们不关心realm是什么。那样的话,就能用方便的HTTPPasswordMgrWithDefaultRealm。
这个将在你为URL指定一个默认的用户名和密码。
这将在你为特定realm提供一个其他组合时得到提供。
我们通过给realm参数指定None提供给add_password来指示这种情况。

最高层次的URL是第一个要求验证的URL。你传给.add_password()更深层次的URLs将同样合适。
说了这么多废话,下面来用一个例子演示一下上面说到的内容。
我们建一个urllib2_test12.py来测试一下info的应用:

# -*- coding: utf-8 -*-  

import urllib2  

# 创建一个密码管理者  

password_mgr = urllib2.HTTPPasswordMgrWithDefaultRealm()  

# 添加用户名和密码  

top_level_url = "http://example.com/foo/"  

# 如果知道 realm, 我们可以使用他代替 ``None``.  

# password_mgr.add_password(None, top_level_url, username, password)  

password_mgr.add_password(None, top_level_url,'why', '1223')  

# 创建了一个新的handler  

handler = urllib2.HTTPBasicAuthHandler(password_mgr)  

# 创建 "opener" (OpenerDirector 实例)  

opener = urllib2.build_opener(handler)  

a_url = 'http://www.baidu.com/'  

# 使用 opener 获取一个URL  

opener.open(a_url)  

# 安装 opener.  

# 现在所有调用 urllib2.urlopen 将用我们的 opener.  

urllib2.install_opener(opener) 

  
注意:以上的例子我们仅仅提供我们的HHTPBasicAuthHandler给build_opener。
默认的openers有正常状况的handlers:ProxyHandler,UnknownHandler,HTTPHandler,HTTPDefaultErrorHandler, HTTPRedirectHandler,FTPHandler, FileHandler, HTTPErrorProcessor。
代码中的top_level_url 实际上可以是完整URL(包含"http:",以及主机名及可选的端口号)。
例如:http://example.com/。
也可以是一个“authority”(即主机名和可选的包含端口号)。
例如:“example.com” or “example.com:8080”。
后者包含了端口号。
Python 相关文章推荐
python正则分组的应用
Nov 10 Python
github配置使用指南
Nov 18 Python
Windows下python2.7.8安装图文教程
May 26 Python
Python爬虫DNS解析缓存方法实例分析
Jun 02 Python
python使用Plotly绘图工具绘制散点图、线形图
Apr 02 Python
Python中asyncio模块的深入讲解
Jun 10 Python
对Python的交互模式和直接运行.py文件的区别详解
Jun 29 Python
Django ORM 自定义 char 类型字段解析
Aug 09 Python
python实现将字符串中的数字提取出来然后求和
Apr 02 Python
Python configparser模块封装及构造配置文件
Aug 07 Python
Django如何实现密码错误报错提醒
Sep 04 Python
pandas中关于apply+lambda的应用
Feb 28 Python
零基础写python爬虫之HTTP异常处理
Nov 05 #Python
零基础写python爬虫之使用urllib2组件抓取网页内容
Nov 04 #Python
零基础写python爬虫之爬虫的定义及URL构成
Nov 04 #Python
使用Python编写简单网络爬虫抓取视频下载资源
Nov 04 #Python
Python爬取Coursera课程资源的详细过程
Nov 04 #Python
使用python开发vim插件及心得分享
Nov 04 #Python
Python学习笔记之os模块使用总结
Nov 03 #Python
You might like
PHP 七大优势分析
2009/06/23 PHP
php实现将上传word文件转为html的方法
2015/06/03 PHP
php技术实现加载字体并保存成图片
2015/07/27 PHP
php-beanstalkd消息队列类实例分享
2017/07/19 PHP
PHP+Ajax实现的博客文章添加类别功能示例
2018/03/29 PHP
thinkphp5修改view到根目录实例方法
2019/07/02 PHP
表单填写时用回车代替TAB的实现方法
2007/10/09 Javascript
jQuery.Validate 使用笔记(jQuery Validation范例 )
2010/06/25 Javascript
JQuery入门—编写一个简单的JQuery应用案例
2013/01/03 Javascript
JS实现仿雅虎首页快捷登录入口及导航模块效果
2015/09/19 Javascript
Bootstrap表格和栅格分页实例详解
2016/05/20 Javascript
详解利用exif.js解决ios手机上传竖拍照片旋转90度问题
2016/11/04 Javascript
JavaScript中的call和apply的用途以及区别
2017/01/11 Javascript
详解vue-cli 接口代理配置
2017/12/13 Javascript
Gulp实现静态网页模块化的方法详解
2018/01/09 Javascript
基于casperjs和resemble.js实现一个像素对比服务详解
2018/01/10 Javascript
解决webpack无法通过IP地址访问localhost的问题
2018/02/22 Javascript
vue2.0 子组件改变props值,并向父组件传值的方法
2018/03/01 Javascript
解决Nodejs全局安装模块后找不到命令的问题
2018/05/15 NodeJs
React 全自动数据表格组件——BodeGrid的实现思路
2019/06/12 Javascript
vue.js 打包时出现空白页和路径错误问题及解决方法
2019/06/26 Javascript
微信小程序跳转到其他网页(外部链接)的实现方法
2019/09/20 Javascript
vue中实现动态生成二维码的方法
2020/02/21 Javascript
JavaScript设计模式--简单工厂模式实例分析【XHR工厂案例】
2020/05/23 Javascript
python调用java模块SmartXLS和jpype修改excel文件的方法
2015/04/28 Python
Python数据库的连接实现方法与注意事项
2016/02/27 Python
python tkinter基本属性详解
2019/09/16 Python
Python模块_PyLibTiff读取tif文件的实例
2020/01/13 Python
利用纯css3实现的文字亮光特效的代码演示
2014/11/27 HTML / CSS
用HTML5制作烟火效果的教程
2015/05/12 HTML / CSS
HTML实现代码雨源码及效果示例
2020/02/25 HTML / CSS
农村婚礼证婚词
2014/01/08 职场文书
预备党员表决心书
2014/03/11 职场文书
学雷锋标兵事迹材料
2014/08/18 职场文书
2015年车间管理工作总结
2015/07/23 职场文书
浅谈MySQL之select优化方案
2021/08/07 MySQL