python网络爬虫之如何伪装逃过反爬虫程序的方法


Posted in Python onNovember 23, 2017

有的时候,我们本来写得好好的爬虫代码,之前还运行得Ok, 一下子突然报错了。

报错信息如下:

Http 800 Internal internet error

这是因为你的对象网站设置了反爬虫程序,如果用现有的爬虫代码,会被拒绝。

之前正常的爬虫代码如下:

from urllib.request import urlopen
...
html = urlopen(scrapeUrl)
bsObj = BeautifulSoup(html.read(), "html.parser")

这个时候,需要我们给我们的爬虫代码做下伪装,

给它添加表头伪装成是来自浏览器的请求

修改后的代码如下:

import urllib.parse
import urllib.request
from bs4 import BeautifulSoup
...
req = urllib.request.Request(scrapeUrl)
req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)') 
response = urllib.request.urlopen(req) 
html = response.read()
 
bsObj = BeautifulSoup(html, "html.parser")

Ok,一切搞定,又可以继续爬了。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python操作MySQL数据库9个实用实例
Dec 11 Python
Python heapq使用详解及实例代码
Jan 25 Python
Python中的浮点数原理与运算分析
Oct 12 Python
Python 通过requests实现腾讯新闻抓取爬虫的方法
Feb 22 Python
python实现顺时针打印矩阵
Mar 02 Python
Django ORM 查询管理器源码解析
Aug 05 Python
python3 requests库实现多图片爬取教程
Dec 18 Python
Python 音频生成器的实现示例
Dec 24 Python
Python使用requests xpath 并开启多线程爬取西刺代理ip实例
Mar 06 Python
python中requests库+xpath+lxml简单使用
Apr 29 Python
Python数据类型最全知识总结
May 31 Python
Python用tkinter实现自定义记事本的方法详解
Mar 31 Python
Python实现的基数排序算法原理与用法实例分析
Nov 23 #Python
Scrapy抓取京东商品、豆瓣电影及代码分享
Nov 23 #Python
python简单图片操作:打开\显示\保存图像方法介绍
Nov 23 #Python
python分析作业提交情况
Nov 22 #Python
Python分析学校四六级过关情况
Nov 22 #Python
linux环境下的python安装过程图解(含setuptools)
Nov 22 #Python
python使用正则表达式替换匹配成功的组并输出替换的次数
Nov 22 #Python
You might like
也谈php网站在线人数统计
2008/04/09 PHP
php四种基础算法代码实例
2013/10/29 PHP
php给图片添加文字水印方法汇总
2015/08/27 PHP
PHP创建/删除/复制文件夹、文件
2016/05/03 PHP
php更新cookie内容的详细方法
2019/09/30 PHP
JavaScript 封装Ajax传递的数据代码
2009/06/05 Javascript
jQuery 判断元素上是否绑定了事件
2009/10/28 Javascript
js继承的实现代码
2010/08/05 Javascript
分享有关jQuery中animate、slide、fade等动画的连续触发、滞后反复执行的bug
2016/01/10 Javascript
JS中用childNodes获取子元素换行会产生一个子元素
2016/12/08 Javascript
jQuery快速高效制作网页交互特效
2017/02/24 Javascript
JavaScript基于replace+正则实现ES6的字符串模版功能
2017/04/25 Javascript
详解node-ccap模块生成captcha验证码
2017/07/01 Javascript
微信小程序实现列表页的点赞和取消点赞功能
2018/11/02 Javascript
JavaScript实现飞舞的泡泡效果
2020/02/07 Javascript
JS严格模式原理与用法实例分析
2020/04/27 Javascript
JavaScript中条件语句的优化技巧总结
2020/12/04 Javascript
python33 urllib2使用方法细节讲解
2013/12/03 Python
使用Python的Treq on Twisted来进行HTTP压力测试
2015/04/16 Python
实例说明Python中比较运算符的使用
2015/05/13 Python
Python中在for循环中嵌套使用if和else语句的技巧
2016/06/20 Python
在Pytorch中使用样本权重(sample_weight)的正确方法
2019/08/17 Python
在spyder IPython console中,运行代码加入参数的实例
2020/04/20 Python
Python3 + Appium + 安卓模拟器实现APP自动化测试并生成测试报告
2021/01/27 Python
css3中flex布局宽度不生效的解决
2020/12/09 HTML / CSS
HTML5新控件之日期和时间选择输入的实现代码
2018/09/13 HTML / CSS
Blue Nile中国官网:全球知名的钻石和珠宝网络零售商
2020/03/22 全球购物
旅游管理专业学生求职信
2013/09/28 职场文书
美工的岗位职责
2013/11/14 职场文书
出纳员岗位职责风险
2014/03/06 职场文书
三爱活动实施方案
2014/03/19 职场文书
和谐家庭演讲稿
2014/05/24 职场文书
2014年财务工作自我评价
2014/09/23 职场文书
2015年大学生工作总结
2015/04/21 职场文书
我在伊朗长大观后感
2015/06/16 职场文书
运动会三级跳加油稿
2015/07/21 职场文书