Python urllib库如何添加headers过程解析


Posted in Python onOctober 05, 2020

对于请求一些网站,我们需要加上请求头才可以完成网页的抓取,不然会得到一些错误,无法返回抓取的网页。下面,介绍两种添加请求头的方法。

方法一:借助build_opener和addheaders完成

import urllib.request
url="http://www.meizitu.com"
#注意:在urllib 中headers是元组
headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE")

opener=urllib.request.build_opener()
opener.addheaders=[headers]
data=opener.open(url)
print(data.read())

注意:此处的headers要写为一个元组类型才可以。写为字典类型的话会报错!

方法二、创建一个Request实例对象

# 案例1
import urllib.request
url="http://www.meizitu.com"
#注意:在urllib 中这种的headers 是需要是字典的
headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE"}
req=urllib.request.Request(url=url,headers=headers)
file=urllib.request.urlopen(req)

#出现有些解码错误的话,加上“ignore”就可以啦
print(file.read().decode("utf-8",'ignore'))

注意:此处的headers要写为一个字典类型才可以。

创建一个Reques对象,把需要的headers,url,proxy 都放进去,或者在post 请求中还可以把编码过后的data 值放进去,再用urlopen 打开,就比较方便了。

另外,这种方法还可以用add_headers()来添加headers,代码如下:

import urllib.request
try:
  url="http://www.meizitu.com"
  req=urllib.request.Request(url=url)

  req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE")
  file=urllib.request.urlopen(req,timeout=10.1)

  print(file.read().decode("utf-8",'ignore'))
except Exception as e:
  print("时间超时",str(e))

总结:通过以上两种方法,可以完成请求头的相关参数设置,但是得注意headers是用字典类型来传入还是元组类型。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中的map、reduce和filter浅析
Apr 26 Python
Python 执行字符串表达式函数(eval exec execfile)
Aug 11 Python
Python中二维列表如何获取子区域元素的组成
Jan 19 Python
在Python web中实现验证码图片代码分享
Nov 09 Python
Python get获取页面cookie代码实例
Sep 12 Python
一篇文章彻底搞懂Python中可迭代(Iterable)、迭代器(Iterator)与生成器(Generator)的概念
May 13 Python
通过pycharm使用git的步骤(图文详解)
Jun 13 Python
Python中生成一个指定长度的随机字符串实现示例
Nov 06 Python
使用sklearn对多分类的每个类别进行指标评价操作
Jun 11 Python
keras自定义损失函数并且模型加载的写法介绍
Jun 15 Python
Python中openpyxl实现vlookup函数的实例
Oct 28 Python
基于Python-Pycharm实现的猴子摘桃小游戏(源代码)
Feb 20 Python
Python3获取cookie常用三种方案
Oct 05 #Python
Python collections.deque双边队列原理详解
Oct 05 #Python
Python全局变量与global关键字常见错误解决方案
Oct 05 #Python
Python定时任务框架APScheduler原理及常用代码
Oct 05 #Python
Python xmltodict模块安装及代码实例
Oct 05 #Python
Python pathlib模块使用方法及实例解析
Oct 05 #Python
Python fileinput模块如何逐行读取多个文件
Oct 05 #Python
You might like
PHP开发文件系统实例讲解
2006/10/09 PHP
PHP调用JAVA的WebService简单实例
2014/03/11 PHP
PHP实现使用优酷土豆视频地址获取swf播放器分享地址
2014/06/05 PHP
PHP strtotime函数用法、实现原理和源码分析
2015/02/04 PHP
php使用Jpgraph绘制3D饼状图的方法
2015/06/10 PHP
EarthLiveSharp中cloudinary的CDN图片缓存自动清理python脚本
2017/04/04 PHP
php+jQuery实现的三级导航栏下拉菜单显示效果
2017/08/10 PHP
Javascript miscellanea -display data real time, using window.status
2007/01/09 Javascript
javascript html 静态页面传参数
2009/04/10 Javascript
js中巧用cssText属性批量操作样式
2011/03/13 Javascript
更快的异步执行(setTimeout多浏览器)
2014/08/12 Javascript
jQuery实现延迟跳转的方法
2015/06/05 Javascript
JavaScript实现打字效果的方法
2015/07/10 Javascript
js滑动提示效果代码分享
2016/03/10 Javascript
jqueryMobile 动态添加元素,展示刷新视图的实现方法
2016/05/28 Javascript
jQuery Ajax 异步加载显示等待效果代码分享
2016/08/01 Javascript
vue.js单页面应用实例的简单实现
2017/04/10 Javascript
你点的 ES6一些小技巧,请查收
2018/04/25 Javascript
在LayUI图片上传中,解决由跨域问题引起的请求接口错误的方法
2019/09/24 Javascript
基于openlayers实现角度测量功能
2020/09/28 Javascript
vue 全局封装loading加载教程(全局监听)
2020/11/05 Javascript
Vue 使用iframe引用html页面实现vue和html页面方法的调用操作
2020/11/16 Javascript
[02:33]DOTA2亚洲邀请赛趣味视频之吐真话筒
2018/03/31 DOTA
python socket 超时设置 errno 10054
2014/07/01 Python
Python json模块dumps、loads操作示例
2018/09/06 Python
Python matplotlib学习笔记之坐标轴范围
2019/06/28 Python
如何基于python实现脚本加密
2019/12/28 Python
一份全面的PHP面试问题考卷
2012/07/15 面试题
请描述一下”is a”关系和”has a”关系
2015/02/03 面试题
生物化工专业个人自荐信
2013/09/26 职场文书
《鸟的天堂》教学反思
2014/02/27 职场文书
安全生产一岗双责责任书
2014/07/28 职场文书
六一儿童节活动总结
2014/08/27 职场文书
2014法院四风问题对照检查材料思想汇报
2014/10/04 职场文书
老干部工作汇报材料
2014/10/28 职场文书
教师纪律作风整顿心得体会
2016/01/23 职场文书