编程 Python

Python爬虫headers处理及网络超时问题解决方案

Posted in Python onJune 19, 2020

1、请求headers处理

我们有时请求服务器时，无论get或post请求，会出现403错误，这是因为服务器拒绝了你的访问，这时我们可以通过模拟浏览器的头部信息进行访问，这样就可以解决反爬设置的问题。

import requests
# 创建需要爬取网页的地址
url = 'https://www.baidu.com/'   
# 创建头部信息
headers = {'User-Agent':'OW64; rv:59.0) Gecko/20100101 Firefox/59.0'}
# 发送网络请求
response = requests.get(url, headers=headers)  
# 以字节流形式打印网页源码
print(response.content)

结果：

b'<!DOCTYPE html><!--STATUS OK-->\n\n\n  \n  \n              <html><head><meta http-equiv="Content-Type" content="text/html;charset=utf-8"><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"><meta content="always" name="referrer"><meta name="theme-color" content="#2932e1"><meta name="description" content="\xe5\x85\xa8\xe7\x90\x83\xe6\x9c\x80\xe5\xa4\xa7\xe7\x9a\x84\xe4\xb8\xad\xe6\x96\x87\xe6\x90\x9c\xe7\xb4\xa2\xe5\xbc\x95\xe6\x93\x8e\xe3\x80\x81\xe8\x87\xb4\xe5\x8a\x9b\xe4\xba\x8e\xe8\xae\xa9\xe7\xbd\x91\xe6\xb0\x91\xe6\x9b\xb4\xe4\xbe\xbf\xe6\x8d\xb7\xe5\x9c\xb0\xe8\x8e\xb7\xe5\x8f\x96\xe4\xbf\xa1\xe6\x81\xaf\xef\xbc\x8c\xe6\x89\xbe\xe5\x88\xb0\xe6\x89\x80\xe6\xb1\x82\xe3\x80\x82\xe7\x99\xbe\xe5\xba\xa6\xe8\xb6\x85\xe8\xbf\x87\xe5\x8d\x83\xe4\xba\xbf\xe7\x9a\x84\xe4\xb8\xad\xe6\x96\x87\xe7\xbd\x91\xe9\xa1\xb5\xe6\x95\xb0\xe6\x8d\xae\xe5\xba\x93\xef\xbc\x8c\xe5\x8f\xaf\xe4\xbb\xa5\xe7\x9e\xac\xe9\x97\xb4\xe6\x89\xbe\xe5\x88\xb0\xe7\x9b\xb8\xe5\x85\xb3\xe7\x9a\x84\xe6\x90\x9c\xe7\xb4\xa2\xe7\xbb\x93\xe6\x9e\x9c\xe3\x80\x82"><link rel="shortcut icon" href="/favicon.ico" rel="external nofollow" type="image/x-icon" /><link rel="search" type="application/opensearchdescription+xml" href="/content-search.xml" rel="external nofollow" title="\xe7\x99\xbe\xe5\xba\xa6\xe6\x90\x9c\xe7\xb4\xa2" /><link rel="icon" sizes="any" mask href="//www.baidu.com/img/baidu_85beaf5496f291521eb75ba38eacbd87.svg" rel="external nofollow" ><link rel="dns-prefetch" href="//dss0.bdstatic.com" rel="external nofollow" /><link rel="dns-prefetch" href="//dss1.bdstatic.com" rel="external nofollow" /><link rel="dns-prefetch" href="//ss1.bdstatic.com" rel="external nofollow" /><link rel="dns-prefetch" href="//sp0.baidu.com" rel="external nofollow" /><link rel="dns-prefetch" href="//sp1.baidu.com" rel="external nofollow" /><link rel="dns-prefetch" href="//sp2.baidu.com" rel="external nofollow" />

2、网络超时问题

在访问一个网页时，如果该网页长时间未响应，系统就会判断该网页超时，而无法打开网页。下面通过代码来模拟一个网络超时的现象。

import requests
# 循环发送请求50次
for a in range(1, 50):
  # 捕获异常
  try:
    # 设置超时为0.5秒
    response = requests.get('https://www.baidu.com/', timeout=0.5)
    # 打印状态码
    print(response.status_code)
  # 捕获异常
  except Exception as e:
    # 打印异常信息
    print('异常'+str(e))

结果：

以上代码中，模拟进行了50次循环请求，设置超时时间为0.5秒，在0.5秒内服务器未作出相应视为超时，程序会将超时信息打印在控制台中。

说起网络异常信息，requests模块同样提供了三种常见的网络异常类，示例代码如下：

import requests
# 导入requests.exceptions模块中的三种异常类
from requests.exceptions import ReadTimeout,HTTPError,RequestException
# 循环发送请求50次
for a in range(1, 50):
  # 捕获异常
  try:
    # 设置超时为0.5秒
    response = requests.get('https://www.baidu.com/', timeout=0.5)
    # 打印状态码
    print(response.status_code)
  # 超时异常
  except ReadTimeout:
    print('timeout')
  # HTTP异常
  except HTTPError:
    print('httperror')
  # 请求异常
  except RequestException:
    print('reqerror')

结果：

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python爬虫headers处理及网络超时问题解决方案

- Author -

夏日的向日葵

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python3.x版本中新的字符串格式化方法

Apr 24 Python

pytorch对可变长度序列的处理方法详解

Dec 08 Python

python使用正则筛选信用卡

Jan 27 Python

Python爬虫 scrapy框架爬取某招聘网存入mongodb解析

Jul 31 Python

Python 解码Base64 得到码流格式文本实例

Jan 09 Python

通过Turtle库在Python中绘制一个鼠年福鼠

Feb 03 Python

python生成大写32位uuid代码

Mar 03 Python

PyCharm GUI界面开发和exe文件生成的实现

Mar 04 Python

使用Dajngo 通过代码添加xadmin用户和权限(组)

Jul 03 Python

python爬虫破解字体加密案例详解

Mar 02 Python

Python Socket编程详解

Apr 25 Python

Python实现PIL图像处理库绘制国际象棋棋盘

Jul 16 Python

sklearn和keras的数据切分与交叉验证的实例详解

Jun 19 #Python

Python虚拟环境的创建和包下载过程分析

Jun 19 #Python

通过实例解析python创建进程常用方法

Jun 19 #Python

keras model.fit 解决validation_spilt=num 的问题

Jun 19 #Python

为什么是 Python -m

Jun 19 #Python

Python 私有属性和私有方法应用场景分析

Jun 19 #Python

Python基于network模块制作电影人物关系图

Jun 19 #Python

You might like

星际争霸 Starcraft 发展史

2020/03/14 星际争霸

转PHP手册及PHP编程标准

2006/12/17 PHP

谈谈新手如何学习PHP 默默经典版本

2009/08/04 PHP

PHP中使用file_get_contents抓取网页中文乱码问题解决方法

2014/12/17 PHP

Nginx下ThinkPHP5的配置方法详解

2017/08/01 PHP

PHP 对象接口简单实现方法示例

2020/04/13 PHP

Javascript动态创建表格及删除行列的方法

2015/05/15 Javascript

jquery validate demo 基础

2015/10/29 Javascript

jQuery插件实现多级联动菜单效果

2015/12/01 Javascript

jQuery Dialog对话框事件用法实例分析

2016/05/10 Javascript

详解能在多种前端框架下使用的表格控件

2017/01/11 Javascript

基于bootstrop常用类总结(推荐)

2017/09/11 Javascript

基于Particles.js制作超炫粒子动态背景效果(仿知乎)

2017/09/13 Javascript

详解vue中引入stylus及报错解决方法

2017/09/22 Javascript

JavaScript实现浅拷贝与深拷贝的方法分析

2018/07/05 Javascript

JavaScript常见继承模式实例小结

2019/01/11 Javascript

在vue项目中引入highcharts图表的方法

2019/01/21 Javascript

JS使用数组实现的队列功能示例

2019/03/04 Javascript

Vue中key的作用示例代码详解

2020/06/10 Javascript

JS实现超级好看的鼠标小尾巴特效

2020/12/01 Javascript

Python实现对百度云的文件上传(实例讲解)

2017/10/21 Python

Python 记录日志的灵活性和可配置性介绍

2018/02/27 Python

漂亮的Django Markdown富文本app插件的实现

2019/01/02 Python

详解Django-restframework 之频率源码分析

2019/02/27 Python

Django框架文件上传与自定义图片上传路径、上传文件名操作分析

2019/05/10 Python

django框架事务处理小结【ORM 事务及raw sql,customize sql 事务处理】

2019/06/27 Python

python palywright库基本使用

2021/01/21 Python

利用HTML5绘制点线面组成的3D图形的示例

2015/05/12 HTML / CSS

乌克兰在线商店的价格比较：Price.ua

2019/07/26 全球购物

研究生自我鉴定范文

2013/10/30 职场文书

厨师岗位职责

2013/11/12 职场文书

年终考核评语

2014/01/19 职场文书

大学生党员自我评价范文

2014/04/09 职场文书

2014年高中教师工作总结

2014/12/19 职场文书

社区党务工作总结2015

2015/05/19 职场文书

pycharm安装深度学习pytorch的d2l包失败问题解决

2022/03/25 Python