编程 Python

python爬虫请求头的使用

Posted in Python onDecember 01, 2020

爬虫请求头

网页获取：

通过urlopen来进行获取

requset.urlopen(url,data,timeout)

第一个参数url即为URL，第二个参数data是访问URL时要传送的数据，第三个timeout是设置超时时间。
第二三个参数是可以不传送的，data默认为空None，timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT
第一个参数URL是必须要加入的，执行urlopen方法之后，返回一个response对象，返回信息便保存在这里面

from urllib.request import urlopen

url = "https://www.baidu.com/"
respons = urlopen(url)#最简单的爬取情况这样爬取大部分网页无法爬取成功

response对象：

response.read()
read()方法就是读取文件里的全部内容，返回bytes类型

print(type(respons.read()))#结果为bytes类型所以需要进行转码
print(type(respons.read().decode()))#通过decode转码结果为str

response.getcode()
返回 HTTP的响应码，成功返回200，4服务器页面出错，5服务器问题

response.geturl()
返回返回实际数据的实际URL，防止重定向问题

response.info()
返回服务器响应的HTTP报头

Request对象

Request对象，由于urlopen参数可以传入一个request请求（可以理解成为再加一步封装的功能）因为在构建请求时还需要加入好多内容，通过构建一个request，服务器响应请求得到应答，这样显得逻辑上清晰明确

from urllib.request import urlopen,Request
from fake_useragent import UserAgent#这个包可以随机生成User-Agent

url = "https://www.baidu.com/"
headers = {"User-Agent":UserAgent().firefox}#生成火狐的
request = Request(url,headers=headers)
response = urlopen(request)

a=response.read().decode()

Get请求

浏览器通过GET方法发出请求
爬虫主要通过get再url中加入请求的参数，由于中文的需要转码通过
Urllib.parse.urlencode() 针对多个参数进行转码操作输入格式为字典类型
Urllib.parse.quote() 针对单个字符串进行转码操作
Str格式.format( ) 用于拼接字符串

post请求

一般在需要登录的地方用的比较多
需要在request请求中加如一个data用来传入参数
参数的形式要以字典格式通过urllib.parse.urlencode()进行转换成字符串形式
再通过encode()函数对字符串进行转码（默认值就可以）

发送请求/响应header头的含义

名称	含义
Accept	告诉服务器，客户端支持的数据类型
Accept-Charset	告诉服务器，客户端采用的编码
Accept-Encoding	告诉服务器，客户机支持的数据压缩格式
Accept-Language	告诉服务器，客户机的语言环境
Host	客户机通过这个头告诉服务器，想访问的主机名
If-Modified-Since	客户机通过这个头告诉服务器，资源的缓存时间
Referer	客户机通过这个头告诉服务器，它是从哪个资源来访问服务器的。（一般用于防盗链）
User-Agent	客户机通过这个头告诉服务器，客户机的软件环境
Cookie	客户机通过这个头告诉服务器，可以向服务器带数据
Refresh	服务器通过这个头，告诉浏览器隔多长时间刷新一次
Content-Type	服务器通过这个头，回送数据的类型
Content-Language	服务器通过这个头，告诉服务器的语言环境
Server	服务器通过这个头，告诉浏览器服务器的类型
Content-Encoding	服务器通过这个头，告诉浏览器数据采用的压缩格式
Content-Length	服务器通过这个头，告诉浏览器回送数据的长度

Ajax请求
用于提取动态的页面网页数据根据拖动进行显示
通过浏览器工具箱，查找包的信息，找到url的规律进行爬取
如果无法知道要循环多少次则规定一个死循环，爬取页面为空时停止循环
也可以通过改变url一次性输出更多的网页信息（只要服务器允许）

https请求
因为在有些浏览器中存在很多证书所以在大部分网页爬取的时候不用改变证书或者添加证书但有些自己写证书的网站需要进行这一步操作
https请求=在http上加ssl，http请求是明文直接可以看见，为了安全要加上ssl
可以选择忽略证书进行爬取 context = ssl._create_unverified_context()

到此这篇关于python爬虫请求头的使用的文章就介绍到这了,更多相关python爬虫请求头内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

python爬虫请求头的使用

- Author -

Klose_10

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python单元测试实例详解

May 25 Python

对Python 除法负数取商的取整方式详解

Dec 12 Python

Python-ElasticSearch搜索查询的讲解

Feb 25 Python

python爬虫实现中英翻译词典

Jun 25 Python

django的csrf实现过程详解

Jul 26 Python

使用python脚本自动创建pip.ini配置文件代码实例

Sep 20 Python

计算pytorch标准化(Normalize)所需要数据集的均值和方差实例

Jan 15 Python

python ImageDraw类实现几何图形的绘制与文字的绘制

Feb 26 Python

python 还原梯度下降算法实现一维线性回归

Oct 22 Python

详解Django关于StreamingHttpResponse与FileResponse文件下载的最优方法

Jan 07 Python

python 进制转换 int、bin、oct、hex的原理

Jan 13 Python

python图像处理基本操作总结（PIL库、Matplotlib及Numpy）

Jun 08 Python

在pycharm创建scrapy项目的实现步骤

Dec 01 #Python

Python实现迪杰斯特拉算法并生成最短路径的示例代码

Dec 01 #Python

python 检测图片是否有马赛克

Dec 01 #Python

python中pop()函数的语法与实例

Dec 01 #Python

python爬虫多次请求超时的几种重试方法(6种)

Dec 01 #Python

python爬虫搭配起Bilibili唧唧的流程分析

Dec 01 #Python

python爬虫看看虎牙女主播中谁最“顶”步骤详解

Dec 01 #Python

You might like

星际争霸, 教主第一视角, ZvT经典龙蛇演义

2020/03/02 星际争霸

snoopy 强大的PHP采集类使用实例代码

2010/12/09 PHP

php中this关键字用法分析

2016/12/07 PHP

PHP简单验证码功能机制实例详解

2019/03/27 PHP

JQuery的Validation插件中Remote验证的中文问题

2010/07/26 Javascript

jQuery Mobile页面跳转后未加载外部JS原因分析及解决

2013/03/18 Javascript

javascript拖拽上传类库DropzoneJS使用方法

2013/12/05 Javascript

node.js正则表达式获取网页中所有链接的代码实例

2014/06/03 Javascript

原生js和jQuery随意改变div属性style的名称和值

2014/10/22 Javascript

JQuery限制复选框checkbox可选中个数的方法

2015/04/20 Javascript

Javascript通过overflow控制列表闭合与展开的方法

2015/05/15 Javascript

Javascript实现div层渐隐效果的方法

2015/05/30 Javascript

简介JavaScript中Math.cos()余弦方法的使用

2015/06/15 Javascript

一种新的javascript对象创建方式Object.create()

2015/12/28 Javascript

Jquery遍历select option和添加移除option的实现方法

2016/08/26 Javascript

关于Javascript中document.cookie的使用

2017/03/08 Javascript

详谈js原型继承的一些问题

2017/09/06 Javascript

微信小程序实现发红包功能

2018/07/11 Javascript

json 带斜杠时如何解析的实现

2019/08/12 Javascript

mac PyCharm添加Python解释器及添加package路径的方法

2018/10/29 Python

python实现动态创建类的方法分析

2019/06/25 Python

Django中Middleware中的函数详解

2019/07/18 Python

Django ORM 练习题及答案

2019/07/19 Python

Flask使用Pyecharts在单个页面展示多个图表的方法

2019/08/05 Python

Python + Requests + Unittest接口自动化测试实例分析

2019/12/12 Python

Python中免验证跳转到内容页的实例代码

2020/10/23 Python

html5 的a标签 Href 拨电话的写法

2013/11/04 HTML / CSS

在数据文件自动增长时，自动增长是否会阻塞对文件的更新

2014/05/01 面试题

群众路线四风自我剖析材料

2014/10/08 职场文书

2015年暑假工作总结

2015/07/13 职场文书

周末问候语大全

2015/11/10 职场文书

2016反腐倡廉警示教育心得体会

2016/01/13 职场文书

公文写作：教你写“建议书”

2019/05/07 职场文书

Python提取PDF指定内容并生成新文件

2021/06/09 Python

教你如何用Python实现人脸识别（含源代码）

2021/06/23 Python

nginx从安装到配置详细说明(安装,安全配置,防盗链,动静分离,配置 HTTPS,性能优化)

2022/02/12 Servers