python网络爬虫之如何伪装逃过反爬虫程序的方法


Posted in Python onNovember 23, 2017

有的时候,我们本来写得好好的爬虫代码,之前还运行得Ok, 一下子突然报错了。

报错信息如下:

Http 800 Internal internet error

这是因为你的对象网站设置了反爬虫程序,如果用现有的爬虫代码,会被拒绝。

之前正常的爬虫代码如下:

from urllib.request import urlopen
...
html = urlopen(scrapeUrl)
bsObj = BeautifulSoup(html.read(), "html.parser")

这个时候,需要我们给我们的爬虫代码做下伪装,

给它添加表头伪装成是来自浏览器的请求

修改后的代码如下:

import urllib.parse
import urllib.request
from bs4 import BeautifulSoup
...
req = urllib.request.Request(scrapeUrl)
req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)') 
response = urllib.request.urlopen(req) 
html = response.read()
 
bsObj = BeautifulSoup(html, "html.parser")

Ok,一切搞定,又可以继续爬了。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
举例详解Python中threading模块的几个常用方法
Jun 18 Python
python多线程socket编程之多客户端接入
Sep 12 Python
详解Django之admin组件的使用和源码剖析
May 04 Python
python虚拟环境迁移方法
Jan 03 Python
Pandas中Series和DataFrame的索引实现
Jun 27 Python
Python Threading 线程/互斥锁/死锁/GIL锁
Jul 21 Python
Django中自定义查询对象的具体使用
Oct 13 Python
4款Python 类型检查工具,你选择哪个呢?
Oct 30 Python
Python虚拟环境virtualenv创建及使用过程图解
Dec 08 Python
Python进阶学习之带你探寻Python类的鼻祖-元类
May 08 Python
Pytest中conftest.py的用法
Jun 27 Python
为了顺利买到演唱会的票用Python制作了自动抢票的脚本
Oct 16 Python
Python实现的基数排序算法原理与用法实例分析
Nov 23 #Python
Scrapy抓取京东商品、豆瓣电影及代码分享
Nov 23 #Python
python简单图片操作:打开\显示\保存图像方法介绍
Nov 23 #Python
python分析作业提交情况
Nov 22 #Python
Python分析学校四六级过关情况
Nov 22 #Python
linux环境下的python安装过程图解(含setuptools)
Nov 22 #Python
python使用正则表达式替换匹配成功的组并输出替换的次数
Nov 22 #Python
You might like
详解PHP的Yii框架的运行机制及其路由功能
2016/03/17 PHP
php使用redis的几种常见操作方式和用法示例
2020/02/20 PHP
jQuery.Autocomplete实现自动完成功能(详解)
2010/07/13 Javascript
javascript jscroll模拟html元素滚动条
2012/12/18 Javascript
修改file按钮的默认样式实现代码
2013/04/23 Javascript
javascript用户注册提示效果的简单实例
2013/08/17 Javascript
js document.write()使用介绍
2014/02/21 Javascript
动态创建script标签实现跨域资源访问的方法介绍
2014/02/28 Javascript
jquery中常用的函数和属性详细解析
2014/03/07 Javascript
JS选项卡动态替换banner图片路径的方法
2015/05/11 Javascript
JavaScript取得键盘按下方向键是哪个的方法
2015/08/04 Javascript
JS实现三个层重叠点击互相切换的方法
2015/10/06 Javascript
jQuery+CSS实现一个侧滑导航菜单代码
2016/05/09 Javascript
js中遍历Map对象的方法
2016/07/27 Javascript
解析利用javascript如何判断一个数为素数
2016/12/08 Javascript
jQuery图片拖动组件Dropzone用法示例
2017/01/17 Javascript
JS和JQuery实现雪花飘落效果
2017/11/30 jQuery
webpack多入口文件页面打包配置详解
2018/01/09 Javascript
JavaScript基于数组实现的栈与队列操作示例
2018/12/22 Javascript
微信小程序五子棋游戏的悔棋实现方法【附demo源码下载】
2019/02/20 Javascript
ES6函数和数组用法实例分析
2020/05/23 Javascript
[02:53]DOTA2亚洲邀请赛 NewBee战队巡礼
2015/02/03 DOTA
phpsir 开发 一个检测百度关键字网站排名的python 程序
2009/09/17 Python
python使用Matplotlib绘制分段函数
2018/09/25 Python
在pycharm中使用git版本管理以及同步github的方法
2019/01/16 Python
PyCharm导入python项目并配置虚拟环境的教程详解
2019/10/13 Python
python如何处理程序无法打开
2020/06/16 Python
Python模块zipfile原理及使用方法详解
2020/08/04 Python
Python jieba库分词模式实例用法
2021/01/13 Python
一级方程式赛车官方网上商店:F1 Store(支持中文)
2018/01/12 全球购物
Johnson Fitness澳大利亚:高级健身器材
2021/03/16 全球购物
日语专业推荐信
2013/11/12 职场文书
医生见习报告范文
2014/11/03 职场文书
2016年优秀教师先进事迹材料
2016/02/26 职场文书
Python办公自动化解决world文件批量转换
2021/09/15 Python
MySQL数据库查询之多表查询总结
2022/08/05 MySQL