Python urllib2运行过程原理解析


Posted in Python onJune 04, 2020

1.urlopen函数

urllib2.urlopen(url[, data[, timeout[, cafile[, capath[, cadefault[, context]]]]])

注:

url表示目标网页地址,可以是字符串,也可以是请求对象Request

req= urllib2.Request(url, data,headers) response = urllib2.urlopen(req,timeout=3)

data表示post方式提交给目标服务器的参数

data = urllib.urlencode(data)

import urllib,urllib2 
action_url="http://www.xxxxxx.com/post"#用于测试post的网址,返回提交的数据 
values={'name':"alice",'age':20} 
data=urllib.urlencode(values)#对表单数据编码 
rqst=urllib2.Request(action_url,data) 
response=urllib2.urlopen(rqst)#模拟提交表单数据到url并获得响应

timeout表示超时时间设置。

返回值

  • response.read()返回页面内容
  • response.info()返回网页信息
  • response.geturl()返回连接地址

这个函数可以像urllib.urlopen()那样以url做参数。也能以Request实例为参数,即用一个Request对象(下文构造方法)来映射你提出的HTTP请求,在它最简单的使用形式中你将用你要请求的地址创建一个Request对象,这个Request对象中可以设置传输数据、headers等。通过调用urlopen并传入Request对象,将返回一个file-like对象。urllib2还提供了接口来处理一般情况,例如:基础验证,cookies,代理和其他,它们通过handlers和openers的对象实现。

2、Request函数

urllib2.Request(url[, data][, headers][, origin_req_host][, unverifiable])

用于构造Request对象,可以传递data数据,添加请求头(headers)等,构造好后作为urllib2.urlopen()的参数。

注:

url表示目标网页地址,可以是字符串,也可以是请求对象Request

data表示post方式提交给目标服务器的参数

headers表示用户标识,是一个字典类型的数据,有些不允许脚本的抓取,所以需要用户代理,像火狐浏览器的代理就是类似:

Mozilla/5.0 (X11; U; Linux i686)Gecko/20071127 Firefox/2.0.0.11

浏览器的标准UA格式为:浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识 版本信息 ,headers默认是

Python-urllib/2.6

origin_req_host表示请求方的主机域名或者ip地址。

headers = {'User-Agent':'Mozilla/5.0 (X11; U; Linux i686)Gecko/20071127 Firefox/2.0.0.11'}

import urllib  
import urllib2  
url = 'http://www.weibo.cn/'  
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'  
h = { 'User-Agent' : user_agent }  
req = urllib2.Request(url,headers=h)  
response = urllib2.urlopen(req)  
print response.read()

3、build_opener()

build_opener([handler1 [ handler2, ... ]])

urllib2.urlopen()函数不支持验证、cookie或者其它HTTP高级功能。要支持这些功能,必须使用build_opener()函数创建自定义Opener对象。

参数handler是Handler实例,常用的有HTTPBasicAuthHandler、HTTPCookieProcessor、ProxyHandler等。
build_opener ()返回的对象具有open()方法,与urlopen()函数的功能相同。

如果要修改http报头,可以用:

import urllib2 
opener = urllib2.build_opener() 
opener.addheaders = [('User-agent', 'Mozilla/5.0')] 
opener.open('http://www.example.com/')

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
php使用递归与迭代实现快速排序示例
Jan 23 Python
Python实现的数据结构与算法之链表详解
Apr 22 Python
Python进程间通信Queue实例解析
Jan 25 Python
解决python nohup linux 后台运行输出的问题
May 11 Python
Python找出微信上删除你好友的人脚本写法
Nov 01 Python
uwsgi+nginx部署Django项目操作示例
Dec 04 Python
python模糊图片过滤的方法
Dec 14 Python
CentOS7安装Python3的教程详解
Apr 10 Python
Python pandas用法最全整理
Aug 04 Python
python基于event实现线程间通信控制
Jan 13 Python
python中安装django模块的方法
Mar 12 Python
为2021年的第一场雪锦上添花:用matplotlib绘制雪花和雪景
Jan 05 Python
Python如何生成xml文件
Jun 04 #Python
基于python代码批量处理图片resize
Jun 04 #Python
Python脚本如何在bilibili中查找弹幕发送者
Jun 04 #Python
Python爬虫谷歌Chrome F12抓包过程原理解析
Jun 04 #Python
python实现按键精灵找色点击功能教程,使用pywin32和Pillow库
Jun 04 #Python
解决python图像处理图像赋值后变为白色的问题
Jun 04 #Python
Python爬虫JSON及JSONPath运行原理详解
Jun 04 #Python
You might like
PHP 读取文件的正确方法
2009/04/29 PHP
php对图像的各种处理函数代码小结
2013/07/08 PHP
php中curl、fsocket、file_get_content三个函数的使用比较
2014/05/09 PHP
Destoon旺旺无法正常显示,点击提示“会员名不存在”的解决办法
2014/06/21 PHP
php合并数组中相同元素的方法
2014/11/13 PHP
PHP file_get_contents函数读取远程数据超时的解决方法
2015/05/13 PHP
php使用goto实现自动重启swoole、reactphp、workerman服务的代码
2020/04/13 PHP
JavaScript 学习历程和心得分享
2010/12/12 Javascript
Iframe自适应高度绝对好使的代码 兼容IE,遨游,火狐
2011/01/27 Javascript
浅谈jQuery异步对象(XMLHttpRequest)
2014/11/17 Javascript
node.js中的fs.exists方法使用说明
2014/12/17 Javascript
JavaScript面向对象的实现方法小结
2015/04/14 Javascript
JavaScript实现梯形乘法表的方法
2015/04/25 Javascript
jquery 实现滚动条下拉时无限加载的简单实例
2016/06/01 Javascript
Bootstrap Validator 表单验证
2016/07/25 Javascript
COM组件中调用JavaScript函数详解及实例
2017/02/23 Javascript
jQuery的三种bind/One/Live/On事件绑定使用方法
2017/02/23 Javascript
js中Number数字数值运算后值不对的解决方法
2017/02/28 Javascript
纯jQuery实现前端分页功能
2017/03/23 jQuery
利用JS对iframe父子(内外)页面进行操作的方法教程
2017/06/15 Javascript
javascript用rem来做响应式开发
2018/01/13 Javascript
jQuery实现左右滑动的toggle方法
2018/03/03 jQuery
vue-cli在 history模式下的配置详解
2019/11/26 Javascript
python开发之thread实现布朗运动的方法
2015/11/11 Python
解决pycharm每次新建项目都要重新安装一些第三方库的问题
2019/01/17 Python
python实践项目之监控当前联网状态详情
2019/05/23 Python
numpy.random.shuffle打乱顺序函数的实现
2019/09/10 Python
利用python3筛选excel中特定的行(行值满足某个条件/行值属于某个集合)
2020/09/04 Python
python3中布局背景颜色代码分析
2020/12/01 Python
DJI大疆德国官方商城:大疆无人机
2018/09/01 全球购物
中学生国旗下讲话稿
2014/04/26 职场文书
任命书范本大全
2014/06/06 职场文书
2014年幼儿园教研工作总结
2014/12/04 职场文书
先进党员事迹材料
2014/12/24 职场文书
结婚保证书
2015/01/16 职场文书
2015秋季开学典礼新闻稿
2015/07/17 职场文书