编程 Python

关于python爬虫应用urllib库作用分析

Posted in Python onSeptember 04, 2021

一、urllib库是什么？

urllib库用于操作网页 URL，并对网页的内容进行抓取处理

urllib包包含以下几个模块：

urllib.request - 打开和读取 URL。

urllib.error - 包含 urllib.request 抛出的异常。

urllib.parse - 解析 URL。

urllib.robotparser - 解析 robots.txt 文件

python爬虫主要用到的urllib库中的request和parse模块

二、urllib库的使用

下面我们来详细说明一下这两个常用模块的基本运用

urllib.request模块

urllib.request 定义了一些打开 URL 的函数和类，包含授权验证、重定向、浏览器 cookies等。

语法如下：

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None,

capath=None, cadefault=False, context=None)

url：url 地址。

data：发送到服务器的其他数据对象，默认为 None。

timeout：设置访问超时时间。

cafile 和 capath：cafile 为 CA 证书， capath 为 CA 证书的路径，使用 HTTPS 需要用到。

cadefault：已经被弃用。

context：ssl.SSLContext类型，用来指定 SSL 设置。

# -*- codeing = utf-8 -*-
# @Author: Y-peak
# @Time : 2021/9/2 19:24
# @FileName : testUrllib.py
# Software : PyCharm
import urllib.request
#get请求
response = urllib.request.urlopen("http://www.baidu.com")  #返回的是存储网页数据的对象
#print(response)  可以尝试打印一下看一下
print(response.read().decode('utf-8')) #通过read将数据读取出来, 使用utf-8解码防止有的地方出现乱码

关于python爬虫应用urllib库作用分析

将其打印的内容写到一个html文件中，打开和百度一毛一样

# -*- codeing = utf-8 -*-
# @Author: Y-peak
# @Time : 2021/9/2 19:24
# @FileName : testUrllib.py
# Software : PyCharm
import urllib.request
response = urllib.request.urlopen("http://www.baidu.com")  #返回的是存储网页数据的对象
data = response.read().decode('utf-8')  #通过read将数据读取出来, 使用utf-8解码防止有的地方出现乱码
#print(data)
with open("index.html",'w',encoding='utf-8') as wfile: #或者你们也可以常规打开，不过需要最后关闭记得close()
    wfile.write(data)
    print("读取结束")

关于python爬虫应用urllib库作用分析

urllib.parse模块

有时我们爬虫需要模拟浏览器进行用户登录等操作，这个时候我们就需要进行post请求

但是post必须有一个获取请求之后的响应，也就是我们需要有一个服务器。给大家介绍一个免费的服务器网址，就是用来测试用的http://httpbin.org/。主要用来测试http和https的

关于python爬虫应用urllib库作用分析

我们可以尝试执行一下，去获取对应的响应。

关于python爬虫应用urllib库作用分析

可以用Linux命令去发起请求，URL地址为http://httpbin.org/post。得到下方的响应。

关于python爬虫应用urllib库作用分析

我们也可以通过爬虫来实现

# -*- codeing = utf-8 -*-
# @Author: Y-peak
# @Time : 2021/9/2 19:24
# @FileName : testUrllib.py
# Software : PyCharm
import urllib.request
import urllib.parse #解析器
data = bytes(urllib.parse.urlencode({"hello":"world"}),encoding='utf-8')  #转换为二进制数据包，里面是键值对（有时输入的用户名：密码就是这样的），还有一些编码解码的数值等.这里就是按照utf-8的格式进行解析封装生成二进制数据包
response = urllib.request.urlopen("http://httpbin.org/post",data=data)  #返回的请求
print(response.read().decode('utf-8'))      #通过read将数据读取出来, 使用utf-8解码防止有的地方出现乱码

两个响应结果对比是不是一样几乎

关于python爬虫应用urllib库作用分析

相当于进行了一次模拟的post请求。这样有些需要登录的网站也是可以爬取的。

利用try-except，进行超时处理

一般进行爬虫时，不可能一直等待响应。有时网络不好或者网页有反爬或者一些其他东西时。无法快速爬出。我们就可以进入下一个网页继续去爬。利用timeout属性就好

# -*- codeing = utf-8 -*-
# @Author: Y-peak
# @Time : 2021/9/2 19:24
# @FileName : testUrllib.py
# Software : PyCharm
import urllib.request
try:
    response = urllib.request.urlopen("http://httpbin.org/get",timeout=0.01)  #返回的是存储网页数据的对象, 直接用这个网址的get请求了.timeout表示超时，超过0.01秒不响应就报错，避免持续等待
    print(response.read().decode('utf-8'))      #通过read将数据读取出来, 使用utf-8解码防止有的地方出现乱码
except urllib.error.URLError as e:
    print("超时了\t\t错误为：",e)

status状态码 && getheaders()

status:

返回200，正确响应可以爬取
报错404，没有找到网页
报错418，老子知道你就是爬虫
getheaders():获取Response Headers

关于python爬虫应用urllib库作用分析

也可以通过gethead(“xx”) 获取xx对应的值，比如：上图 gethead(content-encoding) 为 gzip

突破反爬

首先打开任何一个网页按F12找到Response Headers，拉到最下面找到 User-Agent。将其复制保存下来，为反爬做准备。

关于python爬虫应用urllib库作用分析

下面我们进行尝试，直接爬取豆瓣，直接来个418，知道你是爬虫，我们来伪装一下

关于python爬虫应用urllib库作用分析

为什么418呢，因为如果是直接进行请求访问的话，发过去的User-Agent 是下面的，直接告诉浏览器我们是爬虫。我们需要伪装

关于python爬虫应用urllib库作用分析

# -*- codeing = utf-8 -*-
# @Author: Y-peak
# @Time : 2021/9/2 19:24
# @FileName : testUrllib.py
# Software : PyCharm
import urllib.request
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36"
}
request = urllib.request.Request("http://douban.com", headers=headers) #返回的是请求，将我们伪装成浏览器发送的请求
response = urllib.request.urlopen(request)  #返回的是存储网页数据的对象
data = response.read().decode('utf-8')     #通过read将数据读取出来, 使用utf-8解码防止有的地方出现乱码
with open("index.html",'w',encoding='utf-8') as wfile: #或者你们也可以常规打开，不过需要最后关闭记得close()
    wfile.write(data)

当然反爬不可能如此简单，上面将讲的那个 post请求，也是十分常见的突破反爬的方式，不行就将整个Response Headers全部模仿。下面还有个例子作为参考。和上面的post访问的网址一样

浏览器访问结果

关于python爬虫应用urllib库作用分析

爬虫访问结果

# -*- codeing = utf-8 -*-
# @Author: Y-peak
# @Time : 2021/9/3 0:47
# @FileName : testUrllib.py
# Software : PyCharm

import urllib.request
import urllib.parse
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36"
}
url = "http://httpbin.org/post"
data = (bytes)(urllib.parse.urlencode({"账户":"密码"}),encoding = 'utf-8')
request = urllib.request.Request(url, data = data,headers=headers, method='POST') #返回的是请求
response = urllib.request.urlopen(request)  #返回的是存储网页数据的对象
data = response.read().decode('utf-8')     #通过read将数据读取出来, 使用utf-8解码防止有的地方出现乱码
print(data)

关于python爬虫应用urllib库作用分析

以上就是关于python爬虫应用urllib库作用分析的详细内容，更多关于python爬虫urllib库分析的资料请关注三水点靠木其它相关文章！

关于python爬虫应用urllib库作用分析

- Author -

Y-peak

- Original Sources -

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python中正则表达式的用法实例汇总

Aug 18 Python

Python中的Matplotlib模块入门教程

Apr 15 Python

实例讲解Python编程中@property装饰器的用法

Jun 20 Python

Python中super()函数简介及用法分享

Jul 11 Python

Sublime开发python程序的示例代码

Jan 24 Python

在python中用print()输出多个格式化参数的方法

Jul 16 Python

tensorflow 获取checkpoint中的变量列表实例

Feb 11 Python

基于spring boot 日志(logback)报错的解决方式

Feb 20 Python

python删除某个目录文件夹的方法

May 26 Python

python 实现朴素贝叶斯算法的示例

Sep 30 Python

pycharm进入时每次都是insert模式的解决方式

Feb 05 Python

Python turtle实现贪吃蛇游戏

Jun 18 Python

解决pycharm下载库时出现Failed to install package的问题

关于python类SortedList详解

Sep 04 #Python

Python3.8官网文档之类的基础语法阅读

Sep 04 #Python

python实现Nao机器人的单目测距

Sep 04 #Python

python读取mnist数据集方法案例详解

Sep 04 #Python

Pyqt5将多个类组合在一个界面显示的完整示例

Sep 04 #Python

一小时学会TensorFlow2之基本操作2实例代码

You might like

php 生成唯一id的几种解决方法

2013/03/08 PHP

PHP中is_file()函数使用指南

2015/05/08 PHP

PHP文件上传问题汇总（文件大小检测、大文件上传处理）

2015/12/24 PHP

PHP操作MySQL中BLOB字段的方法示例【存储文本与图片】

2017/09/15 PHP

php微信开发之图片回复功能

2018/06/14 PHP

php中访问修饰符的知识点总结

2019/01/27 PHP

很酷的javascript loading效果代码

2008/06/18 Javascript

传递参数的标准方法(jQuery.ajax)

2008/11/19 Javascript

Javascript typeof 用法

2008/12/28 Javascript

纯js实现背景图片切换效果代码

2010/11/14 Javascript

javascript数字格式化通用类 accounting.js使用

2012/08/24 Javascript

Javascript中call的两种用法实例

2013/12/13 Javascript

js实现简单的碰壁反弹效果

2016/08/30 Javascript

JavaScript生成验证码并实现验证功能

2016/09/24 Javascript

js控制台输出的方法(详解)

2016/11/26 Javascript

JS获取数组中出现次数最多及第二多元素的方法

2017/10/27 Javascript

Vue父子组件双向绑定传值的实现方法

2018/07/31 Javascript

ES6中定义类和对象的方法示例

2019/07/31 Javascript

Layui动态生成select下拉选择框不显示的解决方法

2019/09/24 Javascript

vue 强制组件重新渲染(重置)的两种方案

2019/10/29 Javascript

vue中的循环对象属性和属性值用法

2020/09/04 Javascript

[01:28]2014DOTA2国际邀请赛中国区预选赛四大豪门直升机抵达会场

2014/05/24 DOTA

[01:11]回顾历届DOTA2国际邀请赛中国区预选赛

2017/06/26 DOTA

[01:05:40]VG vs Newbee 2018国际邀请赛小组赛BO2 第二场 8.17

2018/08/20 DOTA

Python实现获取磁盘剩余空间的2种方法

2017/06/07 Python

PyTorch上实现卷积神经网络CNN的方法

2018/04/28 Python

python中的print()输出

2019/04/12 Python

Django处理Ajax发送的Get请求代码详解

2019/07/29 Python

基于 Django 的手机管理系统实现过程详解

2019/08/16 Python

Pytorch的mean和std调查实例

2020/01/02 Python

css3实现背景动态渐变效果

2019/12/10 HTML / CSS

Happy Socks英国官网：购买五颜六色的袜子

2020/11/03 全球购物

建筑毕业生自我鉴定

2013/10/18 职场文书

质监局领导班子对照检查材料思想汇报

2014/09/27 职场文书

关于幸福的感言

2015/08/03 职场文书

2016年幼儿园教研活动总结

2016/04/05 职场文书