Python爬虫之urllib基础用法教程


Posted in Python onOctober 12, 2019

综述

本系列文档用于对Python爬虫技术进行简单的教程讲解,巩固自己技术知识的同时,万一一不小心又正好对你有用那就更好了。

Python 版本是3.7.4

urllib库介绍

它是 Python 内置的HTTP请求库,也就是说我们不需要额外安装即可使用,它包含四个模块(主要对前三个模块进行学习):

  • request : 它是最基本的 HTTP 请求模块,我们可以用它来模拟发送一请求,就像在浏览器里输入网址然后敲击回车一样,只需要给库方法传入 URL 还有额外的参数,就可以模拟实现这个过程了。
  • error : 异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后进行重试或其他操作保证程序不会意外终止。
  • parse : 用于解析URL,提供了许多URL处理方法,比如拆分、解析、合并等等的方法,以及对参数的拼接等待。
  • robotparser : 主要是用来识别网站的robots.txt协议文件,然后判断网站的那些数据可以爬,哪些数据不可以爬的,其实用的比较少。

urllib.request 介绍

urlopen()

1.参数说明(仅写了四个最常用的参数)

url : 爬取目标的URL;
data : 请求参数,如果设置该参数,则请求默认为post请求;没有默认为get请求;
timeout : 用于设置超时时间,单位为秒;
context : 必须是一个ssl.SSLContext类型,用来指定SSL设置,忽略未认证的CA证书;

2.具体用法

GET 请求方式

# 导入urllib库
import urllib.request
 
 # 向指定的url发送请求,并返回服务器响应的类文件对象
 url = "http://www.baidu.com"
 response = urllib.request.urlopen(url=url)
 print(type(response))
 
 # 类文件对象支持文件对象的操作方法,如read()方法读取文件全部内容,返回字符串
 html = response.read()
 # html = response.readline() # 读取一行
 # html = response.readlines() # 读取多行,返回列表
 # 打印响应结果(byte类型)
 print(html)
 # 打印响应结果(utf-8类型)
 # 二进制和字符串之间的相互转码使用 encode() 和 decode() 函数
 # encode() 和 decode() 可带参数,不写默认utf-8,其他不再特别说明
 print(html.decode())
 # 打印状态码
 # print(response.get_code())
 print(response.status)
 # 获取响应头
 print(response.getheaders())
 # 获取响应头Server信息
 print(response.getheader('Server'))
 # 获取响应结果原因
 print(response.reason)

POST 请求方式

# 导入urllib库
import urllib.parse
import urllib.request
 
 # 向指定的url发送请求,并返回
 post_url = 'https://fanyi.baidu.com/sug'
 # 传入参数
 form_data = {
 'kw': 'honey'
 }
 # 格式化参数
 form_data = urllib.parse.urlencode(form_data).encode()
 
 response = urllib.request.urlopen(url=post_url, data=form_data)
 # 打印服务器响应的类文件对象
 print(type(response))
 
 # 类文件对象支持文件对象的操作方法,如read()方法读取文件全部内容,返回字符串
 html = response.read()
 # 打印响应结果(byte类型)
 print(html)
 # 打印响应结果(utf-8类型)
 print(html.decode())
 # 打印状态码
 print(response.status)
 # print(response.getcode())
 # 获取响应头
 print(response.getheaders())
 # 获取响应头Server信息
 print(response.getheader('Server'))
 # 获取响应结果原因
 print(response.reason)

urlretrleve()

1.参数说明

url : 下载链接地址;
filename : 指定保存本地路径(如果参数未指定,urllib会生成一个临时文件保存数据);
reporthook : 是一个回调函数,当连接上服务器、以及相应的数据块传输完毕时会触发该回调,我们可以利用这个回调函数来显示当前的下载进度;
data : 指post导服务器的数据,该方法返回一个包含两个元素的(filename, headers) 元组,filename 表示保存到本地的路径,header表示服务器的响应头;

2.具体用法

# 引入所需要的库
import os
import urllib.request
 
 
 # 定义回调函数
 def call_back(a, b, c):
 """
 图片下载回调
 :param a: 已经下载的数据块
 :param b: 数据块的大小
 :param c: 远程文件的大小
 :return: 
 """
 per = 100.0 * a * b / c
 if per > 100:
 per = 100
 print('%.2f%%' % per)
 
 
 # 定义下下载的地址
 url = 'http://www.baidu.com'
 # 构造文件保存路径
 path = os.path.abspath('.')
 file_path = os.path.join(path, 'baidu.html')
 # 进行下载
 urllib.request.urlretrieve(url, file_path, call_back)

urllib.parse 介绍

urlencode()

1.参数说明

query : url参数,可以是字符串,也可以是字典;
encoding : 编码方式;

2.具体用法

# 引入所需要的库
import urllib.parse
# 参数数据
 data = {
 'name': '张三',
 'age': 26
 }
 # 进行编码
 ret = urllib.parse.urlencode(data)
 print(ret)

parse_s()

1.参数说明

qs : url参数,编码后的字符串;
encoding : 字符方式;

2.具体用法

# 引入所需要的库
import urllib.parse
# 参数数据
data = {
 'name': '张三',
 'age': 26
 }
 # 进行编码
 ret1 = urllib.parse.urlencode(data)
 print(ret1)
 # 进行解码
 ret2 = urllib.parse.parse_qs(ret1)
 print(ret2)

urlparse()

1.参数说明

url : url地址字符串;

2.具体用法

# 引入所需要的库
import urllib.parse
# 声明url
 url = "https://www.baidu.com/s?wd=urlparse&rsv_spt=1&rsv_iqid=0x921f00fe005646ef&issp=1&f=8"
 # 进行url解析
 ret = urllib.parse.urlparse(url)
 print(ret)
 print('scheme:', ret.scheme) # 协议
 print('netloc:', ret.netloc) # 域名服务器
 print('path:', ret.path) # 相对路径
 print('params:', ret.params) # 路径端参数
 print('fragment:', ret.fragment) # 片段
 print('query:', ret.query) # 查询
 
 # urlunparse() 与 urlparse() 对应相反函数
 # 使用urlparse的格式组合成一个url,可以直接将urlparse的返回传递组合
 ret1 = urllib.parse.urlunparse(ret)
 print(ret1)

urlsplit()

1.参数说明

url : url地址字符串;

2.具体用法

# 引入所需要的库
import urllib.parse
# 声明url
 url = "https://www.baidu.com/s?wd=urlparse&rsv_spt=1&rsv_iqid=0x921f00fe005646ef&issp=1&f=8"
 # 进行url解析
 ret = urllib.parse.urlsplit(url)
 print(ret)
 print('scheme:', ret.scheme) # 协议
 print('netloc:', ret.netloc) # 域名服务器
 print('path:', ret.path) # 相对路径
 print('fragment:', ret.fragment) # 片段
 print('query:', ret.query) # 查询
 
 # urlunsplit() 与 urlsplit() 对应相反函数
 # 使用urlsplit的格式组合成一个url,可以直接将urlsplit的返回传递组合
 ret1 = urllib.parse.urlunsplit(ret)
 print(ret1)
 
 # 此函数和urlparse函数的区别在于此函数没有params

urljoin()

1.参数说明

qs : url参数,编码后的字符串;
encoding : 字符方式;

2.具体用法

# 引入所需要的库
import urllib.parse
 
 # 声明url
 url = "https://www.baidu.com/"
 # 参数数据
 data = {
 'name': '张三',
 'age': 26
 }
 # 格式化参数
 data = urllib.parse.urlencode(data)
 # 进行url拼接
 ret = urllib.parse.urljoin(url, data)
 print(ret)

urllib.error 介绍

我们在爬虫的时候发请求的时候难免出现错误,如访问不到服务器或者访问被禁止等等,error分为URLError和HTTPError两类:

1.URLError

没有网
服务器链接失败
找不大指定服务器

2.HTTPError

是URLError的子类

3.两者区别和联系

1).URLError封装的错误信息一般是由网络引起的,包括url错误
2).HTTPError封装的错误信息一般是服务器返回了错误状态码
3).URLError是OSERROR的子类,HTTPError是URLError的子类
4).【注意】两个同时捕获的时候需要将子类放在上面,父类放在下面

用法

# 引入所需要的库
import urllib.error
import urllib.request
 
 # 一个访问异常的url
 url = 'https://www.mz.com/156427/100'
 # 捕获异常
 try:
 ret = urllib.request.urlopen(url)
 print(ret)
 except urllib.error.HTTPError as e:
 print(e.getcode())
 except urllib.error.URLError as e:
 print(e)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
使用Python获取CPU、内存和硬盘等windowns系统信息的2个例子
Apr 15 Python
python排序方法实例分析
Apr 30 Python
Python 实现文件的全备份和差异备份详解
Dec 27 Python
离线安装Pyecharts的步骤以及依赖包流程
Apr 23 Python
python使用两种发邮件的方式smtp和outlook示例
Jun 02 Python
python之pandas用法大全
Mar 13 Python
Python 从列表中取值和取索引的方法
Dec 25 Python
Python3.4解释器用法简单示例
Mar 22 Python
简单了解python PEP的一些知识
Jul 13 Python
python爬虫爬取图片的简单代码
Jan 18 Python
Python文件的操作示例的详细讲解
Apr 08 Python
详解Python牛顿插值法
May 11 Python
python 生成器和迭代器的原理解析
Oct 12 #Python
python 表格打印代码实例解析
Oct 12 #Python
Django+uni-app实现数据通信中的请求跨域的示例代码
Oct 12 #Python
python3.7将代码打包成exe程序并添加图标的方法
Oct 11 #Python
python 多进程并行编程 ProcessPoolExecutor的实现
Oct 11 #Python
Python 中list ,set,dict的大规模查找效率对比详解
Oct 11 #Python
Python 网络编程之UDP发送接收数据功能示例【基于socket套接字】
Oct 11 #Python
You might like
PHP的fsockopen、pfsockopen函数被主机商禁用的解决办法
2014/07/08 PHP
MyEclipse常用配置图文教程
2014/09/11 PHP
支付宝服务窗API接口开发php版本
2016/07/20 PHP
php验证身份证号码正确性的函数
2016/07/20 PHP
php微信公众平台配置接口开发程序
2016/09/22 PHP
PHP Laravel 上传图片、文件等类封装
2017/08/16 PHP
Thinkphp5.0 框架Model模型简单用法分析
2019/10/11 PHP
正则表达式判断是否存在中文和全角字符和判断包含中文字符串长度
2008/09/27 Javascript
JavaScript的parseInt 取整使用
2011/05/09 Javascript
JavaScript里实用的原生API汇总
2015/05/14 Javascript
jquery使用each方法遍历json格式数据实例
2015/05/18 Javascript
jquery实现叠层3D文字特效代码分享
2015/08/21 Javascript
Javascript自执行匿名函数(function() { })()的原理浅析
2016/05/15 Javascript
基于Swiper实现移动端页面图片轮播效果
2017/12/28 Javascript
利用Angular7开发一个Radio组件的全过程
2019/07/11 Javascript
vue.js路由mode配置之去掉url上默认的#方法
2019/11/01 Javascript
Vue实现渲染数据后控制滚动条位置(推荐)
2019/12/09 Javascript
Vue仿Bibibili首页的问题
2021/01/21 Vue.js
[01:01:01]完美世界DOTA2联赛循环赛 GXR vs FTD BO2第一场 10.29
2020/10/29 DOTA
利用Python3分析sitemap.xml并抓取导出全站链接详解
2017/07/04 Python
Python实现识别手写数字 Python图片读入与处理
2020/03/23 Python
python实现txt文件格式转换为arff格式
2018/05/31 Python
使用pandas将numpy中的数组数据保存到csv文件的方法
2018/06/14 Python
75条笑死人的知乎神回复,用60行代码就爬完了
2019/05/06 Python
Python如何基于selenium实现自动登录博客园
2019/12/16 Python
python统计字符的个数代码实例
2020/02/07 Python
使用Bazel编译TensorBoard教程
2020/02/15 Python
pygame实现飞机大战
2020/03/11 Python
Stutterheim瑞典:瑞典高级外套时装品牌
2019/06/24 全球购物
FirstCry阿联酋儿童和婴儿产品网上购物:FirstCry.ae
2021/02/22 全球购物
幼儿园秋游感想
2014/03/12 职场文书
迎新晚会主持词
2014/03/24 职场文书
2014年党支部书记工作总结
2014/12/04 职场文书
吧主申请感言怎么写
2015/08/03 职场文书
保护环境建议书作文300字
2015/09/14 职场文书
Windows server 2012 配置Telnet以及用法详解
2022/04/28 Servers