编程 Python

python爬虫---requests库的用法详解

Posted in Python onSeptember 28, 2020

requests是python实现的简单易用的HTTP库，使用起来比urllib简洁很多

因为是第三方库，所以使用前需要cmd安装

pip install requests

安装完成后import一下，正常则说明可以开始使用了。

基本用法：

requests.get()用于请求目标网站，类型是一个HTTPresponse类型

import requestsresponse = requests.get('http://www.baidu.com')
print(response.status_code) # 打印状态码
print(response.url) # 打印请求url
print(response.headers) # 打印头信息
print(response.cookies) # 打印cookie信息
print(response.text) #以文本形式打印网页源码
print(response.content) #以字节流形式打印

运行结果：

状态码：200

url：www.baidu.com

headers信息

python爬虫---requests库的用法详解

各种请求方式：

import requests

requests.get('http://httpbin.org/get')
requests.post('http://httpbin.org/post')
requests.put('http://httpbin.org/put')
requests.delete('http://httpbin.org/delete')
requests.head('http://httpbin.org/get')
requests.options('http://httpbin.org/get')

基本的get请求

import requests

response = requests.get('http://httpbin.org/get')
print(response.text)

结果

python爬虫---requests库的用法详解

带参数的GET请求：

第一种直接将参数放在url内

import requests

response = requests.get(http://httpbin.org/get?name=gemey&age=22)
print(response.text)

结果

python爬虫---requests库的用法详解

另一种先将参数填写在dict中，发起请求时params参数指定为dict

import requests

data = {
  'name': 'tom',
  'age': 20
}

response = requests.get('http://httpbin.org/get', params=data)
print(response.text)

结果同上

解析json

import requests

response = requests.get('http://httpbin.org/get')
print(response.text)
print(response.json()) #response.json()方法同json.loads(response.text)
print(type(response.json()))

结果

python爬虫---requests库的用法详解

简单保存一个二进制文件

二进制内容为response.content

import requests

response = requests.get('http://img.ivsky.com/img/tupian/pre/201708/30/kekeersitao-002.jpg')
b = response.content
with open('F://fengjing.jpg','wb') as f:
  f.write(b)

为你的请求添加头信息

import requests
heads = {}
heads['User-Agent'] = 'Mozilla/5.0 ' \
             '(Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 ' \
             '(KHTML, like Gecko) Version/5.1 Safari/534.50'
 response = requests.get('http://www.baidu.com',headers=headers)

使用代理

同添加headers方法，代理参数也要是一个dict

这里使用requests库爬取了IP代理网站的IP与端口和类型

因为是免费的，使用的代理地址很快就失效了。

import requests
import re

def get_html(url):
  proxy = {
    'http': '120.25.253.234:812',
    'https' '163.125.222.244:8123'
  }
  heads = {}
  heads['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'
  req = requests.get(url, headers=heads,proxies=proxy)
  html = req.text
  return html

def get_ipport(html):
  regex = r'<td data-title="IP">(.+)</td>'
  iplist = re.findall(regex, html)
  regex2 = '<td data-title="PORT">(.+)</td>'
  portlist = re.findall(regex2, html)
  regex3 = r'<td data-title="类型">(.+)</td>'
  typelist = re.findall(regex3, html)
  sumray = []
  for i in iplist:
    for p in portlist:
      for t in typelist:
        pass
      pass
    a = t+','+i + ':' + p
    sumray.append(a)
  print('高匿代理')
  print(sumray)


if __name__ == '__main__':
  url = 'http://www.kuaidaili.com/free/'
  get_ipport(get_html(url))

结果：

python爬虫---requests库的用法详解

基本POST请求：

import requests

data = {'name':'tom','age':'22'}

response = requests.post('http://httpbin.org/post', data=data)

python爬虫---requests库的用法详解

获取cookie

#获取cookie
import requests

response = requests.get('http://www.baidu.com')
print(response.cookies)
print(type(response.cookies))
for k,v in response.cookies.items():
  print(k+':'+v)

结果：

python爬虫---requests库的用法详解

会话维持

import requests

session = requests.Session()
session.get('http://httpbin.org/cookies/set/number/12345')
response = session.get('http://httpbin.org/cookies')
print(response.text)

结果：

python爬虫---requests库的用法详解

证书验证设置

import requests
from requests.packages import urllib3

urllib3.disable_warnings() #从urllib3中消除警告
response = requests.get('https://www.12306.cn',verify=False) #证书验证设为FALSE
print(response.status_code)打印结果：200

超时异常捕获

import requests
from requests.exceptions import ReadTimeout

try:
  res = requests.get('http://httpbin.org', timeout=0.1)
  print(res.status_code)
except ReadTimeout:
  print(timeout)

异常处理

在你不确定会发生什么错误时，尽量使用try...except来捕获异常

所有的requests exception：

Exceptions

import requests
from requests.exceptions import ReadTimeout,HTTPError,RequestException

try:
  response = requests.get('http://www.baidu.com',timeout=0.5)
  print(response.status_code)
except ReadTimeout:
  print('timeout')
except HTTPError:
  print('httperror')
except RequestException:
  print('reqerror')

25行代码带你爬取4399小游戏数据

import requests
import parsel
import csv
f = open('4399游戏.csv', mode='a', encoding='utf-8-sig', newline='')

csv_writer = csv.DictWriter(f, fieldnames=['游戏地址', '游戏名字'])
csv_writer.writeheader()
for page in range(1, 106):
  url = 'http://www.4399.com/flash_fl/5_{}.htm'.format(page)
  headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
  }
  response = requests.get(url=url, headers=headers)
  response.encoding = response.apparent_encoding
  selector = parsel.Selector(response.text)
  lis = selector.css('#classic li')
  for li in lis:
    dit ={}
    data_url = li.css('a::attr(href)').get()
    new_url = 'http://www.4399.com' + data_url.replace('http://', '/')
    dit['游戏地址'] = new_url
    title = li.css('img::attr(alt)').get()
    dit['游戏名字'] = title
    print(new_url, title)
    csv_writer.writerow(dit)
f.close()

到此这篇关于python爬虫---requests库的用法详解的文章就介绍到这了,更多相关python requests库内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

python爬虫---requests库的用法详解

- Author -

AGENTFITZ

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

带你了解python装饰器

Jun 15 Python

python出现"IndentationError: unexpected indent"错误解决办法

Oct 15 Python

Python实现求解一元二次方程的方法示例

Jun 20 Python

win7 x64系统中安装Scrapy的方法

Nov 18 Python

django echarts饼图数据动态加载的实例

Aug 12 Python

docker django无法访问redis容器的解决方法

Aug 21 Python

在tensorflow中设置使用某一块GPU、多GPU、CPU的操作

Feb 07 Python

python生成并处理uuid的实现方式

Mar 03 Python

python遍历路径破解表单的示例

Nov 21 Python

Python进度条的使用

May 17 Python

python四个坐标点对图片区域最小外接矩形进行裁剪

Jun 04 Python

教你用Python+selenium搭建自动化测试环境

Jun 18 Python

如何在scrapy中捕获并处理各种异常

Sep 28 #Python

python向企业微信发送文字和图片消息的示例

Sep 28 #Python

python利用tkinter实现图片格式转换的示例

Sep 28 #Python

python在CMD界面读取excel所有数据的示例

Sep 28 #Python

python调用摄像头的示例代码

Sep 28 #Python

python 调用API接口获取和解析 Json数据

Sep 28 #Python

记录一下scrapy中settings的一些配置小结

Sep 28 #Python

You might like

四月新番又没了，《Re：从零开始的异世界生活》第二季延期至7月播出

2020/05/06 日漫

php简单的会话类代码

2011/08/08 PHP

深入分析php中接口与抽象类的区别

2013/06/08 PHP

PHP扩展开发教程(总结)

2015/11/04 PHP

PHP 实现人民币小写转换成大写的方法及大小写转换函数

2017/11/17 PHP

Javascript的IE和Firefox兼容性汇编(zz)

2007/02/02 Javascript

jquery中event对象属性与方法小结

2013/12/18 Javascript

js(JavaScript)实现TAB标签切换效果的简单实例

2014/02/26 Javascript

一个简单的jQuery计算器实现了连续计算功能

2014/07/21 Javascript

Node.js安装教程和NPM包管理器使用详解

2014/08/16 Javascript

javascript验证邮件地址和MX记录的方法

2015/06/16 Javascript

基于jquery实现人物头像跟随鼠标转动

2015/08/23 Javascript

下一代Bootstrap的5个特点超酷炫！

2016/06/17 Javascript

vue图片加载与显示默认图片实例代码

2017/03/16 Javascript

js自定义弹框插件的封装

2020/08/24 Javascript

深入解析koa之中间件流程控制

2019/06/17 Javascript

简单了解vue中父子组件如何相互传递值（基础向）

2019/07/12 Javascript

vue 实现微信浮标效果

2019/09/01 Javascript

解决vscode进行vue格式化,会自动补分号和双引号的问题

2020/10/26 Javascript

[52:40]完美世界DOTA2联赛PWL S2 Magma vs GXR 第一场 11.29

2020/12/02 DOTA

Python 爬虫爬取指定博客的所有文章

2016/02/17 Python

TensorFlow实现Softmax回归模型

2018/03/09 Python

基于python生成器封装的协程类

2019/03/20 Python

Python实现平行坐标图的绘制(plotly)方式

2019/11/22 Python

Python3.6安装卸载、执行命令、执行py文件的方法详解

2020/02/20 Python

python 对象真假值的实例(哪些视为False)

2020/12/11 Python

纯html5+css3下拉导航菜单实现代码

2013/03/18 HTML / CSS

绿色美容，有机护肤品和化妆品：Safe & Chic

2018/10/29 全球购物

大学毕业生简单自荐信

2013/11/05 职场文书

计算机专业大学生的自我评价

2013/11/14 职场文书

中国文明网签名寄语

2014/01/18 职场文书

财务部绩效考核方案

2014/05/04 职场文书

环境科学专业教师求职信

2014/07/12 职场文书

英语邀请函范文

2015/02/02 职场文书

教师工作决心书

2015/02/04 职场文书

委托收款证明

2015/06/23 职场文书