编程 Python

python 爬虫请求模块requests详解

Posted in Python onDecember 04, 2020

requests

相比urllib，第三方库requests更加简单人性化，是爬虫工作中常用的库

requests安装

初级爬虫的开始主要是使用requests模块
安装requests模块：
Windows系统：
cmd中：

pip install requests

mac系统中：
终端中：

pip3 install requests

requests库的基本使用

import requests

url = 'https://www.csdn.net/'
reponse = requests.get(url)
#返回unicode格式的数据(str) 
print(reponse.text)

python 爬虫请求模块requests详解

响应对象response的⽅法

response.text 返回unicode格式的数据(str)
response.content 返回字节流数据(⼆进制)
response.content.decode(‘utf-8') ⼿动进⾏解码
response.url 返回url
response.encode() = ‘编码'

状态码

response.status_code: 检查响应的状态码

python 爬虫请求模块requests详解

例如：
200 : 请求成功
301 : 永久重定向
302 : 临时重定向
403 : 服务器拒绝请求
404 : 请求失败(服务器⽆法根据客户端的请求找到资源（⽹⻚）)
500 : 服务器内部请求

# 导入requests
import requests
# 调用requests中的get()方法来向服务器发送请求，括号内的url参数就是我们
# 需要访问的网址，然后将获取到的响应通过变量response保存起来
url = 'https://www.csdn.net/' # csdn官网链接链接
response = requests.get(url)
print(response.status_code) # response.status_code: 检查响应的状态码

200

请求⽅式

requests的几种请求方式：

p = requests.get(url)
p = requests.post(url)
p = requests.put(url,data={'key':'value'})
p = requests.delete(url)
p = requests.head(url)
p = requests.options(url)

GET请求

HTTP默认的请求方法就是GET
* 没有请求体
* 数据必须在1K之内！
* GET请求数据会暴露在浏览器的地址栏中

GET请求常用的操作：
1. 在浏览器的地址栏中直接给出URL，那么就一定是GET请求
2. 点击页面上的超链接也一定是GET请求
3. 提交表单时，表单默认使用GET请求，但可以设置为POST

POST请求

(1). 数据不会出现在地址栏中
(2). 数据的大小没有上限
(3). 有请求体
(4). 请求体中如果存在中文，会使用URL编码！

requests.post()用法与requests.get()完全一致，特殊的是requests.post()有一个data参数，用来存放请求体数据

请求头

当我们打开一个网页时，浏览器要向网站服务器发送一个HTTP请求头，然后网站服务器根据HTTP请求头的内容生成当此请求的内容发送给服务器。
我们可以手动设定请求头的内容：

import requests

header = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}

url = 'https://www.csdn.net/'
reponse = requests.get(url,headers=header)
#打印文本形式
print(reponse.text)

requests设置代理

使⽤requests添加代理只需要在请求⽅法中(get/post)传递proxies参数就可以了

cookie

cookie ：通过在客户端记录的信息确定⽤户身份

HTTP是⼀种⽆连接协议,客户端和服务器交互仅仅限于请求/响应过程,结束后断开,下⼀次请求时,服务器会认为是⼀个新的客户端,为了维护他们之间的连接, 让服务器知道这是前⼀个⽤户发起的请求,必须在⼀个地⽅保存客户端信息。

requests操作Cookies很简单，只需要指定cookies参数即可

import requests
#这段cookies是从CSDN官网控制台中复制的
header = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36',
      'cookie': 'uuid_tt_dd=10_30835064740-1583844255125-466273; dc_session_id=10_1583844255125.696601; __gads=ID=23811027bd34da29:T=1583844256:S=ALNI_MY6f7VlmNJKxrkHd2WKUIBQ34Bbnw; UserName=xdc1812547560; UserInfo=708aa833b2064ba9bb8ab0be63866b58; UserToken=708aa833b2064ba9bb8ab0be63866b58; UserNick=xdc1812547560; AU=F85; UN=xdc1812547560; BT=1590317415705; p_uid=U000000; Hm_ct_6bcd52f51e9b3dce32bec4a3997715ac=6525*1*10_30835064740-1583844255125-466273!5744*1*xdc1812547560; Hm_up_6bcd52f51e9b3dce32bec4a3997715ac=%7B%22islogin%22%3A%7B%22value%22%3A%221%22%2C%22scope%22%3A1%7D%2C%22isonline%22%3A%7B%22value%22%3A%221%22%2C%22scope%22%3A1%7D%2C%22isvip%22%3A%7B%22value%22%3A%220%22%2C%22scope%22%3A1%7D%2C%22uid_%22%3A%7B%22value%22%3A%22xdc1812547560%22%2C%22scope%22%3A1%7D%7D; log_Id_click=1; Hm_lvt_feacd7cde2017fd3b499802fc6a6dbb4=1595575203; Hm_up_feacd7cde2017fd3b499802fc6a6dbb4=%7B%22islogin%22%3A%7B%22value%22%3A%221%22%2C%22scope%22%3A1%7D%2C%22isonline%22%3A%7B%22value%22%3A%221%22%2C%22scope%22%3A1%7D%2C%22isvip%22%3A%7B%22value%22%3A%220%22%2C%22scope%22%3A1%7D%2C%22uid_%22%3A%7B%22value%22%3A%22xdc1812547560%22%2C%22scope%22%3A1%7D%7D; Hm_ct_feacd7cde2017fd3b499802fc6a6dbb4=5744*1*xdc1812547560!6525*1*10_30835064740-1583844255125-466273; Hm_up_facf15707d34a73694bf5c0d571a4a72=%7B%22islogin%22%3A%7B%22value%22%3A%221%22%2C%22scope%22%3A1%7D%2C%22isonline%22%3A%7B%22value%22%3A%221%22%2C%22scope%22%3A1%7D%2C%22isvip%22%3A%7B%22value%22%3A%220%22%2C%22scope%22%3A1%7D%2C%22uid_%22%3A%7B%22value%22%3A%22xdc1812547560%22%2C%22scope%22%3A1%7D%7D; Hm_ct_facf15707d34a73694bf5c0d571a4a72=5744*1*xdc1812547560!6525*1*10_30835064740-1583844255125-466273; announcement=%257B%2522isLogin%2522%253Atrue%252C%2522announcementUrl%2522%253A%2522https%253A%252F%252Flive.csdn.net%252Froom%252Fyzkskaka%252Fats4dBdZ%253Futm_source%253D908346557%2522%252C%2522announcementCount%2522%253A0%257D; Hm_lvt_facf15707d34a73694bf5c0d571a4a72=1596946584,1597134917,1597155835,1597206739; searchHistoryArray=%255B%2522%25E8%258F%259C%25E9%25B8%259FIT%25E5%25A5%25B3%2522%252C%2522%25E5%25AE%25A2%25E6%259C%258D%2522%255D; log_Id_pv=7; log_Id_view=8; dc_sid=c0efd34d6da090a1fccd033091e0dc53; TY_SESSION_ID=7d77f76f-a4b1-43ef-9bb5-0aebee8ee475; c_ref=https%3A//www.baidu.com/link; c_first_ref=www.baidu.com; c_first_page=https%3A//www.csdn.net/; Hm_lvt_6bcd52f51e9b3dce32bec4a3997715ac=1597245305,1597254589,1597290418,1597378513; c_segment=1; dc_tos=qf1jz2; Hm_lpvt_6bcd52f51e9b3dce32bec4a3997715ac=1597387359'}

url = 'https://www.csdn.net/'
reponse = requests.get(url,headers=header)
#打印文本形式
print(reponse.text)

session

session ：通过在服务端记录的信息确定⽤户身份
这⾥这个session就是⼀个指的是会话
会话对象是一种高级的用法，可以跨请求保持某些参数，比如在同一个Session实例之间保存Cookie，像浏览器一样，我们并不需要每次请求Cookie，Session会自动在后续的请求中添加获取的Cookie，这种处理方式在同一站点连续请求中特别方便

处理不信任的SSL证书

什么是SSL证书？
SSL证书是数字证书的⼀种，类似于驾驶证、护照和营业执照的电⼦副本。

因为配置在服务器上，也称为SSL服务器证书。SSL 证书就是遵守 SSL协议，由受信任的数字证书颁发机构CA，在验证服务器身份后颁发，具有服务器身份验证和数据传输加密功能
我们来爬一个证书不太合格的网站

python 爬虫请求模块requests详解

import requests
url = 'https://inv-veri.chinatax.gov.cn/'

resp = requests.get(url)

print(resp.text)

它报了一个错

python 爬虫请求模块requests详解

我们来修改一下代码

import requests
url = 'https://inv-veri.chinatax.gov.cn/'

resp = requests.get(url,verify = False)

print(resp.text)

我们的代码又能成功爬取了

python 爬虫请求模块requests详解

到此这篇关于python 爬虫请求模块requests的文章就介绍到这了,更多相关python 爬虫requests模块内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

python 爬虫请求模块requests详解

- Author -

码农一号已就位

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

深入理解Python中各种方法的运作原理

Jun 15 Python

使用Python实现简单的服务器功能

Aug 25 Python

从头学Python之编写可执行的.py文件

Nov 28 Python

Random 在 Python 中的使用方法

Aug 09 Python

Python批量生成特定尺寸图片及图画任意文字的实例

Jan 30 Python

Python函数装饰器常见使用方法实例详解

Mar 30 Python

Python使用到第三方库PyMuPDF图片与pdf相互转换

May 03 Python

pytorch使用Variable实现线性回归

May 21 Python

Django框架model模型对象验证实现方法分析

Oct 02 Python

使用Python完成15位18位身份证的互转功能

Nov 06 Python

解决pyqt5异常退出无提示信息的问题

Apr 08 Python

python 窃取摄像头照片的实现示例

Jan 08 Python

Python爬虫之Selenium鼠标事件的实现

Dec 04 #Python

Selenium 配置启动项参数的方法

Dec 04 #Python

Python爬虫逆向分析某云音乐加密参数的实例分析

Dec 04 #Python

浅谈Selenium 控制浏览器的常用方法

Dec 04 #Python

详解Selenium 元素定位和WebDriver常用方法

Dec 04 #Python

Selenium 安装和简单使用的实现

Dec 04 #Python

python 爬虫之selenium可视化爬虫的实现

Dec 04 #Python

You might like

php对二维数组按指定键值key排序示例代码

2013/11/26 PHP

PHP文件及文件夹操作之创建、删除、移动、复制

2016/07/13 PHP

php自定义排序uasort函数示例【二维数组按指定键值排序】

2019/06/19 PHP

JavaScript中的null和undefined解析

2012/04/14 Javascript

关于JavaScript的面向对象和继承有利新手学习

2013/01/11 Javascript

你必须知道的Javascript知识点之"this指针"的应用

2013/04/23 Javascript

单击和双击事件的冲突处理示例代码

2014/04/03 Javascript

JS拖拽组件学习使用

2016/01/19 Javascript

JS组件系列之JS组件封装过程详解

2017/04/28 Javascript

详细讲解vue2+vuex+axios

2017/05/27 Javascript

vue如何从接口请求数据

2017/06/22 Javascript

Vue 2.5.2下axios + express 本地请求404的解决方法

2018/02/21 Javascript

详解解决使用axios发送json后台接收不到的问题

2018/06/27 Javascript

Bootstrap fileinput 上传新文件移除时触发服务器同步删除的配置

2018/10/08 Javascript

深入解读Node.js中的koa源码

2019/06/17 Javascript

JS实现排行榜文字向上滚动轮播效果

2019/11/26 Javascript

vue实现打地鼠小游戏

2020/08/21 Javascript

[26:24]完美副总裁、DOTA2负责人蔡玮专访：电竞如人生

2014/09/11 DOTA

[01:33]真香警告！DOTA2勇士令状不朽珍藏Ⅱ饰品欣赏

2018/06/26 DOTA

一些Centos Python 生产环境的部署命令(推荐)

2018/05/07 Python

使用python3实现操作串口详解

2019/01/01 Python

Django框架模型简单介绍与使用分析

2019/07/18 Python

Django Haystack 全文检索与关键词高亮的实现

2020/02/17 Python

python网络编程之五子棋游戏

2020/05/14 Python

Python Pivot table透视表使用方法解析

2020/09/11 Python

python3.9.1环境安装的方法(图文)

2021/02/02 Python

python 高阶函数简单介绍

2021/02/19 Python

HTML5输入框下拉菜单功能的示例代码

2020/09/08 HTML / CSS

彼得罗夫美国官网：Peter Thomas Roth美国（青瓜面膜）

2017/11/05 全球购物

Maison Lab荷兰：名牌Outlet购物

2018/08/10 全球购物

Clos19英国：高档香槟、葡萄酒和烈酒在线购物平台

2020/07/10 全球购物

大二法学专业职业生涯规划范文

2014/02/12 职场文书

学校欢迎标语

2014/06/18 职场文书

司法局群众路线教育实践活动整改措施

2014/09/17 职场文书

客房部经理岗位职责

2015/02/02 职场文书

CI Games宣布《堕落之王2》使用虚幻引擎5制作预计将于2023年正式发售

2022/04/11 其他游戏