python网络爬虫之如何伪装逃过反爬虫程序的方法


Posted in Python onNovember 23, 2017

有的时候,我们本来写得好好的爬虫代码,之前还运行得Ok, 一下子突然报错了。

报错信息如下:

Http 800 Internal internet error

这是因为你的对象网站设置了反爬虫程序,如果用现有的爬虫代码,会被拒绝。

之前正常的爬虫代码如下:

from urllib.request import urlopen
...
html = urlopen(scrapeUrl)
bsObj = BeautifulSoup(html.read(), "html.parser")

这个时候,需要我们给我们的爬虫代码做下伪装,

给它添加表头伪装成是来自浏览器的请求

修改后的代码如下:

import urllib.parse
import urllib.request
from bs4 import BeautifulSoup
...
req = urllib.request.Request(scrapeUrl)
req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)') 
response = urllib.request.urlopen(req) 
html = response.read()
 
bsObj = BeautifulSoup(html, "html.parser")

Ok,一切搞定,又可以继续爬了。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python3中set(集合)的语法总结分享
Mar 24 Python
Linux CentOS7下安装python3 的方法
Jan 21 Python
Python 使用PIL中的resize进行缩放的实例讲解
Aug 03 Python
对Python 窗体(tkinter)文本编辑器(Text)详解
Oct 11 Python
python批量修改图片后缀的方法(png到jpg)
Oct 25 Python
Ubuntu下升级 python3.7.1流程备忘(推荐)
Dec 10 Python
Python XML转Json之XML2Dict的使用方法
Jan 15 Python
基于Python的ModbusTCP客户端实现详解
Jul 13 Python
python matplotlib 画dataframe的时间序列图实例
Nov 20 Python
基于TensorFlow常量、序列以及随机值生成实例
Jan 04 Python
Pycharm2020.1安装中文语言插件的详细教程(不需要汉化)
Aug 07 Python
健身房被搭讪?用python写了个小米计时器助人为乐
Jun 08 Python
Python实现的基数排序算法原理与用法实例分析
Nov 23 #Python
Scrapy抓取京东商品、豆瓣电影及代码分享
Nov 23 #Python
python简单图片操作:打开\显示\保存图像方法介绍
Nov 23 #Python
python分析作业提交情况
Nov 22 #Python
Python分析学校四六级过关情况
Nov 22 #Python
linux环境下的python安装过程图解(含setuptools)
Nov 22 #Python
python使用正则表达式替换匹配成功的组并输出替换的次数
Nov 22 #Python
You might like
东芝TOSHIBA RP-F11电路分析
2021/03/02 无线电
php中switch与ifelse的效率区别及适用情况分析
2015/02/12 PHP
MacOS 安装 PHP的图片裁剪扩展Tclip
2015/03/25 PHP
smarty自定义函数用法示例
2016/05/20 PHP
php中__toString()方法用法示例
2016/12/07 PHP
常用PHP封装分页工具类
2017/01/14 PHP
php验证码生成器
2017/05/24 PHP
jquery 仿QQ校友的DIV模拟窗口效果源码
2010/03/24 Javascript
A标签触发onclick事件而不跳转的多种解决方法
2013/06/27 Javascript
javascript中负数算术右移、逻辑右移的奥秘探索
2013/10/17 Javascript
为指定的元素添加遮罩层的示例代码
2014/01/15 Javascript
解决node-webkit 不支持html5播放mp4视频的方法
2015/03/11 Javascript
js+css实现回到顶部按钮(back to top)
2016/03/02 Javascript
Javascript实现通过选择周数显示开始日和结束日的实现代码
2016/05/30 Javascript
vue之数据交互实例代码
2017/06/16 Javascript
JS判断微信扫码的方法
2017/08/07 Javascript
JS实现将对象转化为数组的方法分析
2019/01/21 Javascript
js实现时分秒倒计时
2019/12/03 Javascript
深入讲解Python函数中参数的使用及默认参数的陷阱
2016/03/13 Python
对Python进行数据分析_关于Package的安装问题
2017/05/22 Python
用Eclipse写python程序
2018/02/10 Python
python 通过logging写入日志到文件和控制台的实例
2018/04/28 Python
python pandas.DataFrame选取、修改数据最好用.loc,.iloc,.ix实现
2018/06/11 Python
Django在admin后台集成TinyMCE富文本编辑器的例子
2019/08/09 Python
python 消费 kafka 数据教程
2019/12/21 Python
python从Oracle读取数据生成图表
2020/10/14 Python
详解Python流程控制语句
2020/10/28 Python
Topman美国官网:英国著名的国际平价时尚男装品牌
2017/12/22 全球购物
Anthropologie英国:美国家喻户晓的休闲服装和家居产品品牌
2018/12/05 全球购物
美国最大婚纱连锁店运营商:David’s Bridal
2019/03/12 全球购物
人力资源行政经理自我评价
2013/10/23 职场文书
董事长岗位职责
2013/11/30 职场文书
计算机专业职业规划
2014/02/28 职场文书
房地产广告词大全
2014/03/19 职场文书
2015年乡镇妇联工作总结
2015/05/19 职场文书
大学生读书笔记范文
2015/07/01 职场文书