编程 Python

python爬虫请求头设置代码

Posted in Python onJuly 28, 2020

一、requests设置请求头:

import requests

url="http://www.targetweb.com"

headers={

'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

'Cache-Control':'max-age=0',

'Connection':'keep-alive',

'Referer':'http://www.baidu.com/',

'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400'}

res=requests.get(url,headers=headers)

#图片下载时要用到字节流，请求方式如下

#res=requests.get(url,stream=True,headers)

二、Selenium+Chrome请求头设置:

from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument('lang=zh_CN.UTF-8')# 设置中文
options.add_argument('user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400"')# 设置头部
browser = webdriver.Chrome(chrome_options=options)
url="http://www.targetweb.com"
browser.get(url)
browser.quit()

三、selenium+phantomjs请求头设置：

from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
des_cap = dict(DesiredCapabilities.PHANTOMJS)
des_cap["phantomjs.page.settings.userAgent"] = ("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400")
browser = webdriver.PhantomJS(desired_capabilities=des_cap)
url="http://www.targetweb.com"
browser.get(url)
browser.quit()

四、爬虫框架scrapy设置请求头：

在settings.py文件中添加如下：

DEFAULT_REQUEST_HEADERS = {
'accept': 'image/webp,*/*;q=0.8',
'accept-language': 'zh-CN,zh;q=0.8',
'referer': 'https://www.baidu.com/',
'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400',}

五、Python异步Aiohttp请求头设置:

import aiohttp
url="http://www.targetweb.com"
headers={
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Cache-Control':'max-age=0',
'Connection':'keep-alive',
'Referer':'http://www.baidu.com/',
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400'}
asyncwithaiohttp.ClientSession(headers=headers)assession:
asyncwithsession.get(url)asresp:
print(resp.status)
print(awaitresp.text())

内容扩展：

1、为什么要设置headers?

在请求网页爬取的时候，输出的text信息中会出现抱歉，无法访问等字眼，这就是禁止爬取，需要通过反爬机制去解决这个问题。

headers是解决requests请求反爬的方法之一，相当于我们进去这个网页的服务器本身，假装自己本身在爬取数据。

对反爬虫网页，可以设置一些headers信息，模拟成浏览器取访问网站。

2、 headers在哪里找？

谷歌或者火狐浏览器，在网页面上点击：右键?>检查?>剩余按照图中显示操作，需要按Fn+F5刷新出网页来

有的浏览器是点击：右键->查看元素，刷新

以上就是python爬虫请求头设置代码的详细内容，更多关于python爬虫请求头如何设置的资料请关注三水点靠木其它相关文章！

python爬虫请求头设置代码

- Author -

yang

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python正则分析nginx的访问日志

Jan 17 Python

Python实现的下载网页源码功能示例

Jun 13 Python

Python解析json之ValueError: Expecting property name enclosed in double quotes: line 1 column 2（char 1）

Jul 06 Python

浅谈Django REST Framework限速

Dec 12 Python

python实现简单图片物体标注工具

Mar 18 Python

Python的对象传递与Copy函数使用详解

Dec 26 Python

Python阶乘求和的代码详解

Feb 14 Python

python GUI库图形界面开发之PyQt5布局控件QGridLayout详细使用方法与实例

Mar 06 Python

解决flask接口返回的内容中文乱码的问题

Apr 03 Python

Python 字典中的所有方法及用法

Jun 10 Python

python实现学生信息管理系统源码

Feb 22 Python

pdf论文中python画的图Type 3 fonts字体不兼容的解决方案

Apr 24 Python

详解python安装matplotlib库三种失败情况

Jul 28 #Python

最简单的matplotlib安装教程(小白)

Jul 28 #Python

Python 如何实现访问者模式

Jul 28 #Python

Matplotlib 折线图plot()所有用法详解

Jul 28 #Python

matplotlib.pyplot.plot()参数使用详解

Jul 28 #Python

matplotlib图例legend语法及设置的方法

Jul 28 #Python

Matplotlib中%matplotlib inline如何使用

Jul 28 #Python

You might like

Symfony控制层深入详解

2016/03/17 PHP

javascript 原型继承介绍

2011/08/30 Javascript

javascript中IE浏览器不支持NEW DATE()带参数的解决方法

2012/03/01 Javascript

JS动态获取当前时间,并写到特定的区域

2013/05/03 Javascript

让JavaScript的Alert弹出框失效的方法禁止弹出警告框

2014/09/03 Javascript

Javascript前端UI框架Kit使用指南之Kitjs简介

2014/11/28 Javascript

jQuery中unwrap()方法用法实例

2015/01/16 Javascript

javascript实现点击按钮让DIV层弹性移动的方法

2015/02/24 Javascript

详解js跨域原理以及2种解决方案

2015/12/09 Javascript

Bootstrap每天必学之折叠（Collapse）插件

2016/04/25 Javascript

js实现年月日表单三级联动

2020/04/17 Javascript

vue中如何引入jQuery和Bootstrap

2017/04/10 jQuery

解析NodeJS异步I/O的实现

2017/04/13 NodeJs

利用js将ajax获取到的后台数据动态加载至网页中的方法

2018/08/08 Javascript

vue异步axios获取的数据渲染到页面的方法

2018/08/09 Javascript

vue样式穿透 ::v-deep的具体使用

2020/06/04 Javascript

解决vant框架做H5时踩过的坑(下拉刷新、上拉加载等)

2020/11/11 Javascript

python 算法排序实现快速排序

2012/06/05 Python

python生成随机mac地址的方法

2015/03/16 Python

Python判断文件和文件夹是否存在的方法

2015/05/21 Python

python实现斐波那契数列的方法示例

2017/01/12 Python

python僵尸进程产生的原因

2017/07/21 Python

Python多进程编程常用方法解析

2020/03/26 Python

Jupyter notebook设置背景主题,字体大小及自动补全代码的操作

2020/04/13 Python

解决import tensorflow as tf 出错的原因

2020/04/16 Python

Pycharm安装第三方库失败解决方案

2020/11/17 Python

python抢购软件/插件/脚本附完整源码

2021/03/04 Python

使用layui实现左侧菜单栏及动态操作tab项的方法

2020/11/10 HTML / CSS

MCM英国官网：奢侈皮具制品

2017/04/18 全球购物

微软中国官方旗舰店：销售Surface、Xbox One、笔记本电脑、Office

2018/07/23 全球购物

公司离职证明范本

2014/01/13 职场文书

管事部库房保管员岗位职责

2014/02/21 职场文书

2014银行授权委托书样本

2014/10/04 职场文书

小学生通知书评语

2014/12/31 职场文书

运动会800米赞词

2015/07/22 职场文书

MySQL 数据恢复的多种方法汇总

2021/06/21 MySQL