编程 Python

Python2.X/Python3.X中urllib库区别讲解

Posted in Python onDecember 19, 2017

本文介绍urllib库在不同版本的Python中的变动，并以Python3.X讲解urllib库的相关用法。

urllib库对照速查表

Python2.X	Python3.X
urllib	urllib.request, urllib.error, urllib.parse
urllib2	urllib.request, urllib.error
urllib2.urlopen	urllib.request.urlopen
urllib.urlencode	urllib.parse.urlencode
urllib.quote	urllib.request.quote
urllib2.Request	urllib.request.Request
urlparse	urllib.parse
urllib.urlretrieve	urllib.request.urlretrieve
urllib2.URLError	urllib.error.URLError
cookielib.CookieJar	http.CookieJar

urllib库是用于操作URL，爬取页面的python第三方库，同样的库还有requests、httplib2。

在Python2.X中，分urllib和urllib2，但在Python3.X中，都统一合并到urllib中。通过上表可以看到其中常见的变动，依据该变动可快速写出相应版本的python程序。

相对来说，Python3.X对中文的支持比Python2.X友好，所以该博客接下来通过Python3.X来介绍urllib库的一些常见用法。

发送请求

import urllib.request
r = urllib.request.urlopen(http://www.python.org/)

首先导入urllib.request模块，使用urlopen()对参数中的URL发送请求，返回一个http.client.HTTPResponse对象。

在urlopen()中，使用timeout字段，可设定相应的秒数时间之后停止等待响应。除此之外，还可使用r.info()、r.getcode()、r.geturl()获取相应的当前环境信息、状态码、当前网页URL。

读取响应内容

import urllib.request
url = "http://www.python.org/"
with urllib.request.urlopen(url) as r:
r.read()

使用r.read()读取响应内容到内存，该内容为网页的源代码（可用相应的浏览器“查看网页源代码”功能看到），并可对返回的字符串进行相应解码decode()。

传递URL参数

import urllib.request
import urllib.parse
params = urllib.parse.urlencode({'q': 'urllib', 'check_keywords': 'yes', 'area': 'default'})
url = "https://docs.python.org/3/search.html?{}".format(params)
r = urllib.request.urlopen(url)

以字符串字典的形式，通过urlencode()编码，为URL的查询字符串传递数据，

编码后的params为字符串，字典每项键值对以'&'连接：'q=urllib&check_keywords=yes&area=default'

构建后的URL：https://docs.python.org/3/search.html?q=urllib&check_keywords=yes&area=default

当然，urlopen()支持直接构建的URL，简单的get请求可以不通过urlencode()编码，手动构建后直接请求。上述方法使代码模块化，更优雅。

传递中文参数

import urllib.request
searchword = urllib.request.quote(input("请输入要查询的关键字："))
url = "https://cn.bing.com/images/async?q={}&first=0&mmasync=1".format(searchword)
r = urllib.request.urlopen(url)

该URL是利用bing图片接口，查询关键字q的图片。如果直接将中文传入URL中请求，会导致编码错误。我们需要使用quote()，对该中文关键字进行URL编码，相应的可以使用unquote()进行解码。

定制请求头

import urllib.request
url = 'https://docs.python.org/3/library/urllib.request.html'
headers = {
  'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36',
  'Referer': 'https://docs.python.org/3/library/urllib.html'
}
req = urllib.request.Request(url, headers=headers)
r = urllib.request.urlopen(req)

有时爬取一些网页时，会出现403错误（Forbidden），即禁止访问。这是因为网站服务器对访问者的Headers属性进行身份验证，例如：通过urllib库发送的请求，默认以”Python-urllib/X.Y”作为User-Agent，其中X为Python的主版本号，Y为副版本号。所以，我们需要通过urllib.request.Request()构建Request对象，传入字典形式的Headers属性，模拟浏览器。

相应的Headers信息，可通过浏览器的开发者调试工具，”检查“功能的”Network“标签查看相应的网页得到，或使用抓包分析软件Fiddler、Wireshark。

除上述方法外，还可以使用urllib.request.build_opener()或req.add_header()定制请求头，详见官方样例。

在Python2.X中，urllib模块和urllib2模块通常一起使用，因为urllib.urlencode()可以对URL参数进行编码，而urllib2.Request()可以构建Request对象，定制请求头，然后统一使用urllib2.urlopen()发送请求。

传递POST请求

import urllib.request
import urllib.parse
url = 'https://passport.cnblogs.com/user/signin?'
post = {
  'username': 'xxx',
  'password': 'xxxx'
}
postdata = urllib.parse.urlencode(post).encode('utf-8')
req = urllib.request.Request(url, postdata)
r = urllib.request.urlopen(req)

我们在进行注册、登录等操作时，会通过POST表单传递信息。

这时，我们需要分析页面结构，构建表单数据post，使用urlencode()进行编码处理，返回字符串，再指定'utf-8'的编码格式，这是因为POSTdata只能是bytes或着file object。最后通过Request()对象传递postdata，使用urlopen()发送请求。

下载远程数据到本地

import urllib.request
url = "https://www.python.org/static/img/python-logo.png"
urllib.request.urlretrieve(url, "python-logo.png")

爬取图片、视频等远程数据时，可使用urlretrieve()下载到本地。

第一个参数为要下载的url，第二个参数为下载后的存放路径。

该样例下载python官网logo到当前目录下，返回元组(filename, headers)。

设置代理IP

import urllib.request
url = "https://www.cnblogs.com/"
proxy_ip = "180.106.16.132:8118"
proxy = urllib.request.ProxyHandler({'http': proxy_ip})
opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler)
urllib.request.install_opener(opener)
r = urllib.request.urlopen(url)

有时频繁的爬取一个网页，会被网站服务器屏蔽IP。这时，可通过上述方法设置代理IP。

首先，通过网上代理IP的网站找一个可以用的IP，构建ProxyHandler()对象，将'http'和代理IP以字典形式作为参数传入，设置代理服务器信息。再构建opener对象，将proxy和HTTPHandler类传入。通过installl_opener()将opener设置成全局，当用urlopen()发送请求时，会使用之前设置的信息来发送相应的请求。

异常处理

import urllib.request
import urllib.error
url = "http://www.balabalabala.org"
try:
  r = urllib.request.urlopen(url)
except urllib.error.URLError as e:
  if hasattr(e, 'code'):
    print(e.code)
  if hasattr(e, 'reason'):
    print(e.reason)

可以使用URLError类，处理一些URL相关异常。导入urllib.error，捕获URLError异常后，因为只有发生HTTPError异常（URLError子类）时，才会有异常状态码e.code，所以需要判断异常是否有属性code。

Cookie的使用

import urllib.request
import http.cookiejar
url = "http://www.balabalabala.org/"
cjar = http.cookiejar.CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cjar))
urllib.request.install_opener(opener)
r = urllib.request.urlopen(url)

通过无状态协议HTTP访问网页时，Cookie维持会话间的状态。例如：有些网站需要登录操作，第一次可通过提交POST表单来登录，当爬取该网站下的其它站点时，可以使用Cookie来保持登录状态，而不用每次都通过提交表单来登录。

首先，构建CookieJar()对象cjar，再使用HTTPCookieProcessor()处理器，处理cjar，并通过build_opener()构建opener对象，设置成全局，通过urlopen()发送请求。

Python2.X/Python3.X中urllib库区别讲解

- Author -

返回主页 sherlockChen

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python发送email的3种方法

Apr 28 Python

Python实现求一个集合所有子集的示例

May 04 Python

python使用RNN实现文本分类

May 24 Python

Django 中使用流响应处理视频的方法

Jul 20 Python

解决python os.mkdir创建目录失败的问题

Oct 16 Python

Python判断对象是否相等及eq函数的讲解

Feb 25 Python

python初学者，用python实现基本的学生管理系统（python3）代码实例

Apr 10 Python

python如何获取列表中每个元素的下标位置

Jul 01 Python

检测python爬虫时是否代理ip伪装成功的方法

Jul 12 Python

Python对wav文件的重采样实例

Feb 25 Python

解决python DataFrame 打印结果不换行问题

Apr 09 Python

PyCharm2020.1.2社区版安装,配置及使用教程详解（Windows)

Aug 07 Python

Python实现采用进度条实时显示处理进度的方法

Dec 19 #Python

Python实现矩阵加法和乘法的方法分析

Dec 19 #Python

分析python切片原理和方法

Dec 19 #Python

python实现redis三种cas事务操作

Dec 19 #Python

Python2/3中urllib库的一些常见用法

Dec 19 #Python

Python与人工神经网络:使用神经网络识别手写图像介绍

Dec 19 #Python

Python random模块用法解析及简单示例

Dec 18 #Python

You might like

Yii中render和renderPartial的区别

2014/09/03 PHP

深入浅析yii2-gii自定义模板的方法

2016/04/26 PHP

Yii2.0预定义的别名功能小结

2016/07/04 PHP

PHP在弹框中获取foreach中遍历的id值并传递给地址栏

2017/06/13 PHP

JQuery 网站换肤功能实现代码

2009/11/02 Javascript

jquery 弹出层注册页面等(asp.net后台)

2010/06/17 Javascript

JQuery开发的数独游戏代码

2010/10/29 Javascript

基于jQuery的让非HTML5浏览器支持placeholder属性的代码

2011/05/24 Javascript

使用javascript创建快捷方式的简单实例

2013/08/09 Javascript

解决JQeury显示内容没有边距内容紧挨着浏览器边线

2013/12/20 Javascript

认识Knockout及如何使用Knockout绑定上下文

2015/12/25 Javascript

Bootstrap Table从零开始

2017/06/30 Javascript

详解vue-cli项目中用json-sever搭建mock服务器

2017/11/02 Javascript

Angular2的管道Pipe的使用方法

2017/11/07 Javascript

js设置默认时间跨度过程详解

2019/07/17 Javascript

nuxt.js添加环境变量,区分项目打包环境操作

2020/11/06 Javascript

详解ES6实现类的私有变量的几种写法

2021/02/10 Javascript

深入解析Python编程中JSON模块的使用

2015/10/15 Python

python魔法方法-属性访问控制详解

2016/07/25 Python

解决Python字典写入文件出行首行有空格的问题

2017/09/27 Python

在pandas中一次性删除dataframe的多个列方法

2018/04/10 Python

django manage.py扩展自定义命令方法

2018/05/27 Python

Python网络爬虫之爬取微博热搜

2019/04/18 Python

Python深拷贝与浅拷贝用法实例分析

2019/05/05 Python

python实现在多维数组中挑选符合条件的全部元素

2019/11/26 Python

什么是python的id函数

2020/06/11 Python

html5用video标签流式加载的实现

2020/05/20 HTML / CSS

触发器(trigger)的功能都有哪些？写出一个触发器的例子

2012/09/17 面试题

宿舍保安职务说明书

2014/02/25 职场文书

企业文明单位申报材料

2014/05/16 职场文书

服装发布会策划方案

2014/05/22 职场文书

2014坚持党风廉政建设思想汇报

2014/09/18 职场文书

党员转正介绍人意见

2015/06/03 职场文书

小程序后台PHP版本部署运行 LNMP+WNMP

2021/04/01 Servers

浅谈GO中的Channel以及死锁的造成

2022/03/18 Golang

Win11 PC上的Outlook搜索错误怎么办?

2022/07/15 数码科技