编程 Python

Python urllib request模块发送请求实现过程解析

Posted in Python onDecember 10, 2020

1.Request()的参数

import urllib.request

request=urllib.request.Request('https://python.org')
response=urllib.request.urlopen(request)
print(response.read().decode('utf-8'))

通过构造这个数据结构，一方面可以我们可以将请求独立成一个对象，另一方面可以更加丰富和灵活地配置参数。

它的构造方法如下：

class.urllib.request.Request(url,data=None,headers={},origin_rep_host=None,unverifiable=False,method=None)

参数：

1.url必传参数

2.data，必须传bytes类型。如果是字典，先使用urllib.parse里的urlencode()

3.headers，是一个字典，请求头，直接构造或者用add_header()方法添加

4.origin_rep_host，请求方的名称或者ip地址

5.unverifiable，默认为false，表示这个请求是否无法验证。如果没有抓取的权限，此时值就是true。

6.method，用来指示请求使用的方法。

尝试传入多个参数构建请求：

from urllib import request,parse

url='http://httpbin.org/post'
headers={
  'Url-Agent':'Mozilla/4.0(compatible;MSIE 5.5;Windows NT)',
  'Host':'httpbin.org'
}#也可以使用add_header()方法添加headers：#req=request.Request(url=url,data=data,method='POST')#req.add_header('User-Agent','Mozilla/4.0(compatible;MSIE 5.5;Windows NT)')
dict={
  'name':'Germey'
}
data=bytes(parse.urlencode(dict),encoding='utf-8')#用urlencode()将dict转换成bytes类型，传递给data
req=request.Request(url=url,data=data,headers=headers,method='POST')
response=request.urlopen(req)
print(response.read().decode('utf-8'))

运行结果：

Python urllib request模块发送请求实现过程解析

2.Handler与Opener

Handler：

它是各种处理器，几乎可以做到HTTP请求中的所有事情。

urllib.request模块里的BaseHandler类，它是所有其他Headler的父类，它提供了最基本的方法。

Opener：

例如urlopen()就是一个Opener，它是urllib为我们提供的。

它们的关系是：使用Handler来构建Opener。

3.用法

验证：

创建一个需要验证的网站，我这里使用的是IIS

Python urllib request模块发送请求实现过程解析

遇到的问题：

IIS怎样安装与配置-百度经验 (baidu.com)

IIS网站如何设置基本身份验证-百度经验 (baidu.com)

window10家庭版解决IIS中万维网服务的安全性中无Windows身份验证 - enjoryWeb - 博客园 (cnblogs.com)

代码：

from urllib.request import HTTPPasswordMgrWithDefaultRealm,HTTPBasicAuthHandler,build_opener
from urllib.error import URLError

username='username'#填上自己的用户名和密码
password='password'
url='http://localhost:5000/'

p=HTTPPasswordMgrWithDefaultRealm()
p.add_password(None,url,username,password)#添加用户名和密码，建立了一个处理验证的Handler
auth_handler=HTTPBasicAuthHandler(p)#基本认证
opener=build_opener(auth_handler)#利用Handler构建一个Opener

try:
  result=opener.open(url)#打开链接
  html=result.read().decode('utf-8')
  print(html)#结果打印html源码内容
except URLError as e:
  print(e.reason)

代理：

添加代理，在本地搭建一个代理，运行在9743端口上。

代码：

from urllib.request import ProxyHandler,build_opener
from urllib.error import URLError

proxy_handler=ProxyHandler({
  'http':'http://127.0.0.1:9743',
  'https':'https://127.0.0.1:9743'
})#构建一个Handler
opener=build_opener(proxy_handler)#构建一个Opener
try:
  response=opener.open('https://www.baidu.com')
  print(response.read().decode('utf-8'))
except URLError as e:
  print(e.reason)

Cookies：

将网站的Cookies获取下来：

代码：

import http.cookiejar,urllib.request

cookie=http.cookiejar.CookieJar()#声明一个CookieJar对象
handler=urllib.request.HTTPCookieProcessor(cookie)#构建一个Handler
opener=urllib.request.build_opener(handler)#构建一个Opener
response=opener.open('http://www.baidu.com')
for item in cookie:
  print(item.name+"="+item.value)

运行结果：

Python urllib request模块发送请求实现过程解析

将Cookie输出成文件格式：

代码：

import http.cookiejar,urllib.request

filename='cookies.txt'

cookie=http.cookiejar.MozillaCookieJar(filename)
#MozillaCookieJar()生成文件时用到，用来处理Cookie和文件相关的事件
#如果要保存LWP格式的Cookies文件，可以改为：
#cookie=http.cookiejar.LWPCookieJar(filename)

handler=urllib.request.HTTPCookieProcessor(cookie)
opener=urllib.request.build_opener(handler)
response=opener.open('http://www.baidu.com')
cookie.save(ignore_discard=True,ignore_expires=True)

运行结果：

# Netscape HTTP Cookie File
# http://curl.haxx.se/rfc/cookie_spec.html
# This is a generated file! Do not edit.

.baidu.com  TRUE  /  FALSE  1638359640  BAIDUID  9BB1BA4FDD840EBD956A3D2EFB6BF883:FG=1
.baidu.com  TRUE  /  FALSE  3754307287  BIDUPSID  9BB1BA4FDD840EBD25D00EE8183D1125
.baidu.com  TRUE  /  FALSE    H_PS_PSSID  1445_33119_33059_31660_33099_33101_26350_33199
.baidu.com  TRUE  /  FALSE  3754307287  PSTM  1606823639
www.baidu.com  FALSE  /  FALSE    BDSVRTM  7
www.baidu.com  FALSE  /  FALSE    BD_HOME  1

LWP格式：

#LWP-Cookies-2.0
Set-Cookie3: BAIDUID="DDF5CB401A1543ED614CE42962D48099:FG=1"; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="2021-12-01 12:04:18Z"; comment=bd; version=0
Set-Cookie3: BIDUPSID=DDF5CB401A1543ED00860C3997C3282C; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="2088-12-19 15:18:25Z"; version=0
Set-Cookie3: H_PS_PSSID=1430_33058_31254_33098_33101_33199; path="/"; domain=".baidu.com"; path_spec; domain_dot; discard; version=0
Set-Cookie3: PSTM=1606824257; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="2088-12-19 15:18:25Z"; version=0
Set-Cookie3: BDSVRTM=0; path="/"; domain="www.baidu.com"; path_spec; discard; version=0
Set-Cookie3: BD_HOME=1; path="/"; domain="www.baidu.com"; path_spec; discard; version=0

以LWP格式的文件为示例，展示读取和利用的方法：

代码：

import http.cookiejar,urllib.request

cookie=http.cookiejar.LWPCookieJar()
#如果文件保存为Mozilla型浏览器格式，可以改为：
#cookie=http.cookiejar.MozillaCookieJar()

cookie.load('cookies.txt',ignore_discard=True,ignore_expires=True)
#调用load()方法来读取本地的Cookies文件，获取Cookies的内容

handler=urllib.request.HTTPCookieProcessor(cookie)
opener=urllib.request.build_opener(handler)
response=opener.open('http://www.baidu.com')
print(response.read().decode('utf-8'))

运行结果：输出网页源代码。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python urllib request模块发送请求实现过程解析

- Author -

Hao_ran

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python的多态性实例分析

Jul 07 Python

Python 探针的实现原理

Apr 23 Python

Python模拟登录的多种方法(四种)

Jun 01 Python

tensorflow 获取变量&打印权值的实例讲解

Jun 14 Python

python 从csv读数据到mysql的实例

Jun 21 Python

python绘制多个曲线的折线图

Mar 23 Python

python系列文件操作的代码

Oct 06 Python

用python求一重积分和二重积分的例子

Dec 06 Python

你应该知道的Python3.6、3.7、3.8新特性小结

May 12 Python

Python Django form 组件动态从数据库取choices数据实例

May 19 Python

django 外键创建注意事项说明

May 20 Python

Python实现学生管理系统（面向对象版）

Jun 24 Python

Python APScheduler执行使用方法详解

Dec 10 #Python

flask项目集成swagger的方法

Dec 09 #Python

python的dict判断key是否存在的方法

Dec 09 #Python

python RSA加密的示例

Dec 09 #Python

python中把元组转换为namedtuple方法

Dec 09 #Python

python不同版本的_new_不同点总结

Dec 09 #Python

python中_del_还原数据的方法

Dec 09 #Python

You might like

ftp类(example.php)

2006/10/09 PHP

PHP 杂谈《重构-改善既有代码的设计》之三重新组织数据

2012/04/09 PHP

PHP之autoload运行机制实例分析

2014/08/28 PHP

PHP常见的序列化与反序列化操作实例分析

2019/10/28 PHP

jquery tools 系列 scrollable学习

2009/09/06 Javascript

JavaScript判断IE版本型号

2015/07/27 Javascript

js强制把网址设为默认首页

2015/09/29 Javascript

提升jQuery的性能需要做好七件事

2016/01/11 Javascript

微信小程序获取当前地理位置和经纬度实例代码

2016/12/05 Javascript

Javascript DOM事件操作小结(监听鼠标点击、释放，悬停、离开等)

2017/01/20 Javascript

常用的几个JQuery代码片段

2017/03/13 Javascript

javascript图片预览和上传（兼容IE）

2017/03/15 Javascript

微信小程序 action-sheet 反馈上拉菜单简单实例

2017/05/11 Javascript

JavaScript之面向对象_动力节点Java学院整理

2017/06/29 Javascript

在vue中使用v-bind:class的选项卡方法

2018/09/27 Javascript

JS实现盒子跟着鼠标移动及键盘方向键控制盒子移动效果示例

2019/01/29 Javascript

微信小程序扫描二维码获取信息实例详解

2019/05/07 Javascript

react中Suspense的使用详解

2019/09/01 Javascript

jQuery Raty星级评分插件使用方法实例分析

2019/11/25 jQuery

详谈Object.defineProperty 及实现数据双向绑定

2020/07/18 Javascript

vue 保留两位小数不能直接用toFixed(2) 的解决

2020/08/07 Javascript

[01:13:59]LGD vs Mineski Supermajor 胜者组 BO3 第三场 6.5

2018/06/06 DOTA

Python读写Excel文件方法介绍

2014/11/22 Python

python中sleep函数用法实例分析

2015/04/29 Python

Python中用sleep()方法操作时间的教程

2015/05/22 Python

python版学生管理系统

2018/01/10 Python

python 调用有道api接口的方法

2019/01/03 Python

python opencv摄像头的简单应用

2019/06/06 Python

纯css3无js实现的Android Logo(有简单动画)

2013/01/21 HTML / CSS

怎样在 Applet 中建立自己的菜单(MenuBar/Menu)？

2012/06/20 面试题

模具设计与制造专业自荐书

2014/07/01 职场文书

2014年乡镇领导个人整改措施

2014/09/19 职场文书

党员自我剖析材料（群众路线）

2014/10/06 职场文书

工作期间打牌检讨书范文

2014/11/20 职场文书

英语复习计划

2015/01/19 职场文书

教你如何使用Python下载B站视频的详细教程

2021/04/29 Python