python 爬虫出现403禁止访问错误详解


Posted in Python onMarch 11, 2017

python 爬虫解决403禁止访问错误

在Python写爬虫的时候,html.getcode()会遇到403禁止访问的问题,这是网站对自动化爬虫的禁止,要解决这个问题,需要用到python的模块urllib2模块

urllib2模块是属于一个进阶的爬虫抓取模块,有非常多的方法,比方说连接url=//3water.com/qysh123对于这个连接就有可能出现403禁止访问的问题

解决这个问题,需要以下几步骤:

<span style="font-size:18px;">req = urllib2.Request(url) 
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36") 
req.add_header("GET",url) 
req.add_header("Host","blog.csdn.net") 
req.add_header("Referer","//3water.com/")

其中User-Agent是浏览器特有的属性,通过浏览器查看源代码就可以查看到

然后

html=urllib2.urlopen(req)


print html.read()

就可以把网页代码全部下载下来,而没有了403禁止访问的问题。

对于以上问题,可以封装成函数,供以后调用方便使用,具体代码:

#-*-coding:utf-8-*- 
 
import urllib2 
import random 
 
url="//3water.com/article/1.htm" 
 
my_headers=["Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36", 
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36", 
"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0" 
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14", 
"Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)" 
  
] 
def get_content(url,headers): 
 ''''' 
 @获取403禁止访问的网页 
 ''' 
 randdom_header=random.choice(headers) 
 
 req=urllib2.Request(url) 
 req.add_header("User-Agent",randdom_header) 
 req.add_header("Host","blog.csdn.net") 
 req.add_header("Referer","//3water.com/") 
 req.add_header("GET",url) 
 
 content=urllib2.urlopen(req).read() 
 return content 
 
print get_content(url,my_headers)

其中用到了random随机函数,自动获取已经写好的浏览器类型的User-Agent信息,在自定义函数中需要写出自己的Host,Referer,GET信息等,解决这几个问题,就可以顺利访问了,不再出现403访问的信息。

当然如果访问频率过快的话,有些网站还是会过滤的,解决这个需要用到代理IP的方法。。。具体的自己解决

感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

Python 相关文章推荐
Python中类的定义、继承及使用对象实例详解
Apr 30 Python
Python验证码识别处理实例
Dec 28 Python
Django基础之Model操作步骤(介绍)
May 27 Python
matplotlib简介,安装和简单实例代码
Dec 26 Python
python3实现公众号每日定时发送日报和图片
Feb 24 Python
dataframe设置两个条件取值的实例
Apr 12 Python
Numpy 改变数组维度的几种方法小结
Aug 02 Python
pybind11和numpy进行交互的方法
Jul 04 Python
python2.7的flask框架之引用js&amp;css等静态文件的实现方法
Aug 22 Python
Python转换itertools.chain对象为数组的方法
Feb 07 Python
python GUI框架pyqt5 对图片进行流式布局的方法(瀑布流flowlayout)
Mar 12 Python
浅谈Python数学建模之线性规划
Jun 23 Python
Python如何读取MySQL数据库表数据
Mar 11 #Python
python3.5 + PyQt5 +Eric6 实现的一个计算器代码
Mar 11 #Python
Python搭建HTTP服务器和FTP服务器
Mar 09 #Python
开源Web应用框架Django图文教程
Mar 09 #Python
Python运算符重载详解及实例代码
Mar 07 #Python
利用Python中的pandas库对cdn日志进行分析详解
Mar 07 #Python
python下os模块强大的重命名方法renames详解
Mar 07 #Python
You might like
基于php中使用excel的简单介绍
2013/08/02 PHP
CodeIgniter框架URL路由总结
2014/09/03 PHP
Yii2 rbac权限控制操作步骤实例教程
2016/04/29 PHP
thinkphp多表查询两表有重复相同字段的完美解决方法
2016/09/22 PHP
php实现将数据做成json的格式给前端使用
2018/08/21 PHP
PHP中md5()函数的用法讲解
2019/03/30 PHP
奇妙的js
2007/09/24 Javascript
javascript 模拟点击广告
2010/01/02 Javascript
jquery图片放大镜功能的实例代码
2013/03/26 Javascript
Backbone.js的Hello World程序实例
2015/06/19 Javascript
浅谈关于JavaScript API设计的一些建议和准则
2015/06/24 Javascript
Vue 单文件中的数据传递示例
2017/03/21 Javascript
Vue计算属性的学习笔记
2017/03/22 Javascript
Angular2下使用pdf插件的方法详解
2017/04/29 Javascript
用JS实现根据当前时间随机生成流水号或者订单号
2018/05/31 Javascript
解决vue点击控制单个样式的问题
2018/09/05 Javascript
vue-router的两种模式的区别
2019/05/30 Javascript
vue router总结 $router和$route及router与 router与route区别
2019/07/05 Javascript
js实现跟随鼠标移动的小球
2019/08/26 Javascript
浅析js实现网页截图的两种方式
2019/11/01 Javascript
Vue 解决多级动态面包屑导航的问题
2019/11/04 Javascript
[01:28]2014DOTA2国际邀请赛中国区预选赛四大豪门直升机抵达会场
2014/05/24 DOTA
python的dict,set,list,tuple应用详解
2014/07/24 Python
Python实现代码统计工具(终极篇)
2016/07/04 Python
Python处理文本文件中控制字符的方法
2017/02/07 Python
详解Python如何生成词云的方法
2018/06/01 Python
简单了解python shutil模块原理及使用方法
2020/04/28 Python
如何理解Python中包的引入
2020/05/29 Python
德国化妆品和天然化妆品网上商店:kosmetikfuchs.de
2017/06/09 全球购物
大韩航空官方网站:Korean Air
2017/10/25 全球购物
白酒市场开发计划书
2014/01/09 职场文书
2014年幼儿园元旦活动方案
2014/02/13 职场文书
应届大专生自荐书
2014/06/16 职场文书
初中毕业典礼演讲稿
2014/09/09 职场文书
2015年妇幼保健工作总结
2015/05/19 职场文书
公安纪律作风整顿心得体会
2016/01/23 职场文书