python爬虫请求头设置代码


Posted in Python onJuly 28, 2020

一、requests设置请求头:

import requests

url="http://www.targetweb.com"

headers={

'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

'Cache-Control':'max-age=0',

'Connection':'keep-alive',

'Referer':'http://www.baidu.com/',

'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400'}

res=requests.get(url,headers=headers)

#图片下载时要用到字节流,请求方式如下

#res=requests.get(url,stream=True,headers)

二、Selenium+Chrome请求头设置:

from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument('lang=zh_CN.UTF-8')# 设置中文
options.add_argument('user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400"')# 设置头部
browser = webdriver.Chrome(chrome_options=options)
url="http://www.targetweb.com"
browser.get(url)
browser.quit()

三、selenium+phantomjs请求头设置:

from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
des_cap = dict(DesiredCapabilities.PHANTOMJS)
des_cap["phantomjs.page.settings.userAgent"] = ("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400")
browser = webdriver.PhantomJS(desired_capabilities=des_cap)
url="http://www.targetweb.com"
browser.get(url)
browser.quit()

四、爬虫框架scrapy设置请求头:

在settings.py文件中添加如下:

DEFAULT_REQUEST_HEADERS = {
'accept': 'image/webp,*/*;q=0.8',
'accept-language': 'zh-CN,zh;q=0.8',
'referer': 'https://www.baidu.com/',
'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400',}

五、Python异步Aiohttp请求头设置:

import aiohttp
url="http://www.targetweb.com"
headers={
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Cache-Control':'max-age=0',
'Connection':'keep-alive',
'Referer':'http://www.baidu.com/',
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400'}
asyncwithaiohttp.ClientSession(headers=headers)assession:
asyncwithsession.get(url)asresp:
print(resp.status)
print(awaitresp.text())

内容扩展:

1、为什么要设置headers? 

在请求网页爬取的时候,输出的text信息中会出现抱歉,无法访问等字眼,这就是禁止爬取,需要通过反爬机制去解决这个问题。

headers是解决requests请求反爬的方法之一,相当于我们进去这个网页的服务器本身,假装自己本身在爬取数据。

对反爬虫网页,可以设置一些headers信息,模拟成浏览器取访问网站 。

2、 headers在哪里找? 

谷歌或者火狐浏览器,在网页面上点击:右键?>检查?>剩余按照图中显示操作,需要按Fn+F5刷新出网页来 

有的浏览器是点击:右键->查看元素,刷新

以上就是python爬虫请求头设置代码的详细内容,更多关于python爬虫请求头如何设置的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
python 解析html之BeautifulSoup
Jul 07 Python
python基础教程之lambda表达式使用方法
Feb 12 Python
pycharm 使用心得(八)如何调用另一文件中的函数
Jun 06 Python
Python open()文件处理使用介绍
Nov 30 Python
Python中is与==判断的区别
Mar 28 Python
python正则表达式re之compile函数解析
Oct 25 Python
使用Django和Python创建Json response的方法
Mar 26 Python
python 实现selenium断言和验证的方法
Feb 13 Python
Python搭建代理IP池实现检测IP的方法
Oct 27 Python
Python实现密码薄文件读写操作
Dec 16 Python
详解如何在pyqt中通过OpenCV实现对窗口的透视变换
Sep 20 Python
python实现批量移动文件
Apr 05 Python
详解python安装matplotlib库三种失败情况
Jul 28 #Python
最简单的matplotlib安装教程(小白)
Jul 28 #Python
Python 如何实现访问者模式
Jul 28 #Python
Matplotlib 折线图plot()所有用法详解
Jul 28 #Python
matplotlib.pyplot.plot()参数使用详解
Jul 28 #Python
matplotlib图例legend语法及设置的方法
Jul 28 #Python
Matplotlib中%matplotlib inline如何使用
Jul 28 #Python
You might like
Windows下PHP5和Apache的安装与配置
2006/09/05 PHP
Laravel 的数据库迁移的方法
2017/07/31 PHP
PHP生成腾讯云COS接口需要的请求签名
2018/05/20 PHP
PHP中__set()实例用法和基础讲解
2019/07/23 PHP
兼容IE和Firefox火狐的上下、左右循环无间断滚动JS代码
2013/04/19 Javascript
详解JavaScript ES6中的Generator
2015/07/28 Javascript
jquery实现的V字形显示效果代码
2015/10/27 Javascript
jQuery progressbar通过Ajax请求实现后台进度实时功能
2016/10/11 Javascript
Vue.js组件tab实现选项卡切换
2020/03/23 Javascript
Bootstrap警告(Alerts)的实现方法
2017/03/22 Javascript
vue 使用vue-i18n做全局中英文切换的方法
2018/10/29 Javascript
Javascript模拟实现new原理解析
2020/03/03 Javascript
[53:44]DOTA2-DPC中国联赛 正赛 PSG.LGD vs Magma BO3 第一场 1月31日
2021/03/11 DOTA
浅谈Python的文件类型
2016/05/30 Python
Python模拟登陆淘宝并统计淘宝消费情况的代码实例分享
2016/07/04 Python
python函数装饰器之带参数的函数和带参数的装饰器用法示例
2019/11/06 Python
基于Numba提高python运行效率过程解析
2020/03/02 Python
使用python实现微信小程序自动签到功能
2020/04/27 Python
Python3爬虫关于识别点触点选验证码的实例讲解
2020/07/30 Python
Python接收手机短信的代码整理
2020/08/02 Python
python中pyqtgraph知识点总结
2021/01/26 Python
浅谈HTML5新增和废弃的标签
2019/04/28 HTML / CSS
OPPO手机官方商城:中国手机市场出货量第一品牌
2017/10/18 全球购物
轻化专业学生实习自我鉴定
2013/09/20 职场文书
校三好学生主要事迹
2014/01/11 职场文书
最新奶茶店创业计划书范文
2014/02/08 职场文书
企业读书活动总结
2014/06/30 职场文书
信用卡逾期证明示例
2014/09/13 职场文书
党员对照检查材料
2014/09/22 职场文书
小学生校园广播稿
2014/09/28 职场文书
2014年班组工作总结
2014/11/20 职场文书
2014年政协委员工作总结
2014/12/01 职场文书
行为习惯主题班会
2015/08/14 职场文书
丧事答谢词大全
2015/09/30 职场文书
小学秋季运动会加油口号及加油稿
2019/08/19 职场文书
Python中tkinter的用户登录管理的实现
2021/04/22 Python