python爬虫添加请求头代码实例


Posted in Python onDecember 28, 2019

这篇文章主要介绍了python爬虫添加请求头代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

request

import requests


headers = {
  # 'Accept': 'application/json, text/javascript, */*; q=0.01',
  # 'Accept': '*/*',
  # 'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,en-US;q=0.7',
  # 'Cache-Control': 'no-cache',
  # 'accept-encoding': 'gzip, deflate, br',
  'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36',
  'Referer': 'https://www.google.com/'
}

resp = requests.get('http://httpbin.org/get', headers=headers)
print(resp.content)

urllib

import urllib, urllib2
def get_page_source(url):
  headers = {'Accept': '*/*',
        'Accept-Language': 'en-US,en;q=0.8',
        'Cache-Control': 'max-age=0',
        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36',
        'Connection': 'keep-alive',
        'Referer': 'http://www.baidu.com/'
        }
  req = urllib2.Request(url, None, headers)
  response = urllib2.urlopen(req)
  page_source = response.read()
  return page_source

phantomjs请求页面

from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
def get_headers_driver():
  desire = DesiredCapabilities.PHANTOMJS.copy()
  headers = {'Accept': '*/*',
        'Accept-Language': 'en-US,en;q=0.8',
        'Cache-Control': 'max-age=0',
        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36',
        'Connection': 'keep-alive',
        'Referer': 'http://www.baidu.com/'
        }
  for key, value in headers.iteritems():
    desire['phantomjs.page.customHeaders.{}'.format(key)] = value
  driver = webdriver.PhantomJS(desired_capabilities=desire, service_args=['--load-images=yes'])#将yes改成no可以让浏览器不加载图片
  return driver

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
在Python中使用swapCase()方法转换大小写的教程
May 20 Python
Python读取图片属性信息的实现方法
Sep 11 Python
Python 专题二 条件语句和循环语句的基础知识
Mar 19 Python
python实现推箱子游戏
Mar 25 Python
python+tkinter实现学生管理系统
Aug 20 Python
python cv2读取rtsp实时码流按时生成连续视频文件方式
Dec 25 Python
pycharm通过ssh连接远程服务器教程
Feb 12 Python
Python paramiko 模块浅谈与SSH主要功能模拟解析
Feb 29 Python
python GUI库图形界面开发之PyQt5 MDI(多文档窗口)QMidArea详细使用方法与实例
Mar 05 Python
Python 生成VOC格式的标签实例
Mar 10 Python
python实现扫雷游戏的示例
Oct 20 Python
python Gabor滤波器讲解
Oct 26 Python
python使用rsa非对称加密过程解析
Dec 28 #Python
Python遍历字典方式就实例详解
Dec 28 #Python
python基于opencv检测程序运行效率
Dec 28 #Python
把vgg-face.mat权重迁移到pytorch模型示例
Dec 27 #Python
Pytorch 多维数组运算过程的索引处理方式
Dec 27 #Python
Pytorch 之修改Tensor部分值方式
Dec 27 #Python
pytorch 实现tensor与numpy数组转换
Dec 27 #Python
You might like
xml+php动态载入与分页
2006/10/09 PHP
从网上搜到的phpwind 0day的代码
2006/12/07 PHP
由php if 想到的些问题
2008/03/22 PHP
将时间以距今多久的形式表示,PHP,js双版本
2012/09/25 PHP
详谈PHP文件目录基础操作
2014/11/11 PHP
PHP实现路由映射到指定控制器
2016/08/13 PHP
PHP中常用的魔术方法
2017/04/28 PHP
PHP ADODB实现分页功能简单示例
2018/05/25 PHP
js函数般调用正则
2008/04/08 Javascript
利用javascript移动div层-javascript 拖动层
2009/03/22 Javascript
javascript计时器编写过程与实现方法
2016/02/29 Javascript
BootStrap tab选项卡使用小结
2020/08/09 Javascript
bootstrap table操作技巧分享
2017/02/15 Javascript
JavaScript内置对象math,global功能与用法实例分析
2019/06/10 Javascript
js中offset,client , scroll 三大元素知识点总结
2019/09/11 Javascript
vue请求数据的三种方式
2020/03/04 Javascript
微信小程序实现多选框功能的实例代码
2020/06/24 Javascript
JS判断数组是否包含某元素实现方法汇总
2020/06/24 Javascript
Vue $emit()不能触发父组件方法的原因及解决
2020/07/28 Javascript
[55:25]2018DOTA2亚洲邀请赛3月29日 小组赛A组 VG VS OG
2018/03/30 DOTA
Python构造函数及解构函数介绍
2015/02/26 Python
html5 application cache遇到的严重问题
2012/12/26 HTML / CSS
美国最大的在线寄售和旧货店:Swap.com
2018/08/27 全球购物
动物科学专业毕业生的自我评价
2013/11/29 职场文书
最新奶茶店创业计划书
2014/01/25 职场文书
回门宴父母答谢词
2014/01/26 职场文书
秋季红领巾广播稿
2014/01/27 职场文书
运动会标语
2014/06/21 职场文书
乒乓球兴趣小组活动总结
2014/07/08 职场文书
对照四风自我剖析材料
2014/10/07 职场文书
全国法制宣传日活动总结2014
2014/11/01 职场文书
2015年推广普通话演讲稿
2015/03/20 职场文书
小学班主任工作总结2015
2015/04/07 职场文书
东京审判观后感
2015/06/01 职场文书
《观潮》教学反思
2016/02/17 职场文书
基于python实现银行管理系统
2021/04/20 Python