python网络爬虫之如何伪装逃过反爬虫程序的方法


Posted in Python onNovember 23, 2017

有的时候,我们本来写得好好的爬虫代码,之前还运行得Ok, 一下子突然报错了。

报错信息如下:

Http 800 Internal internet error

这是因为你的对象网站设置了反爬虫程序,如果用现有的爬虫代码,会被拒绝。

之前正常的爬虫代码如下:

from urllib.request import urlopen
...
html = urlopen(scrapeUrl)
bsObj = BeautifulSoup(html.read(), "html.parser")

这个时候,需要我们给我们的爬虫代码做下伪装,

给它添加表头伪装成是来自浏览器的请求

修改后的代码如下:

import urllib.parse
import urllib.request
from bs4 import BeautifulSoup
...
req = urllib.request.Request(scrapeUrl)
req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)') 
response = urllib.request.urlopen(req) 
html = response.read()
 
bsObj = BeautifulSoup(html, "html.parser")

Ok,一切搞定,又可以继续爬了。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
使用Python获取Linux系统的各种信息
Jul 10 Python
python使用分治法实现求解最大值的方法
May 12 Python
解决python 自动安装缺少模块的问题
Oct 22 Python
Python3爬虫学习之爬虫利器Beautiful Soup用法分析
Dec 12 Python
Python 实现交换矩阵的行示例
Jun 26 Python
使用Python爬虫库BeautifulSoup遍历文档树并对标签进行操作详解
Jan 25 Python
通过Turtle库在Python中绘制一个鼠年福鼠
Feb 03 Python
在pycharm中实现删除bookmark
Feb 14 Python
详解pyinstaller生成exe的闪退问题解决方案
Jun 19 Python
基于Python pyecharts实现多种图例代码解析
Aug 10 Python
python中Matplotlib绘制直线的实例代码
Jul 04 Python
Python调用腾讯API实现人脸身份证比对功能
Apr 04 Python
Python实现的基数排序算法原理与用法实例分析
Nov 23 #Python
Scrapy抓取京东商品、豆瓣电影及代码分享
Nov 23 #Python
python简单图片操作:打开\显示\保存图像方法介绍
Nov 23 #Python
python分析作业提交情况
Nov 22 #Python
Python分析学校四六级过关情况
Nov 22 #Python
linux环境下的python安装过程图解(含setuptools)
Nov 22 #Python
python使用正则表达式替换匹配成功的组并输出替换的次数
Nov 22 #Python
You might like
967 个函式
2006/10/09 PHP
浅谈PHP检查数组中是否存在某个值 in_array 函数
2016/06/13 PHP
使用ThinkPHP生成缩略图及显示
2017/04/27 PHP
如果文字过长,则将过长的部分变成省略号显示
2006/06/26 Javascript
jquery 使用点滴函数代码
2011/05/20 Javascript
JS验证邮箱格式是否正确的代码
2013/12/05 Javascript
jQuery使用addClass()方法给元素添加多个class样式
2015/03/26 Javascript
jQuery插件实现可输入和自动匹配的下拉框
2016/10/24 Javascript
JS+CSS实现下拉刷新/上拉加载插件
2017/03/31 Javascript
jQuery操作css样式
2017/05/15 jQuery
JS设计模式之惰性模式(二)
2017/09/29 Javascript
一个简易时钟效果js实现代码
2020/03/25 Javascript
使用Easyui实现查询条件的后端传递并自动刷新表格的两种方法
2019/09/09 Javascript
JS表单验证插件之数据与逻辑分离操作实例分析【策略模式】
2020/05/01 Javascript
VUE 实现element upload上传图片到阿里云
2020/08/12 Javascript
python的即时标记项目练习笔记
2014/09/18 Python
跟老齐学Python之让人欢喜让人忧的迭代
2014/10/02 Python
Python cx_freeze打包工具处理问题思路及解决办法
2016/02/13 Python
《与孩子一起学编程》python自测题
2018/05/27 Python
python解压TAR文件至指定文件夹的实例
2019/06/10 Python
Django REST framework 视图和路由详解
2019/07/19 Python
50行Python代码获取高考志愿信息的实现方法
2019/07/23 Python
Django admin.py 在修改/添加表单界面显示额外字段的方法
2019/08/22 Python
利用Python绘制有趣的万圣节南瓜怪效果
2019/10/31 Python
python集合删除多种方法详解
2020/02/10 Python
Python导入父文件夹中模块并读取当前文件夹内的资源
2020/11/19 Python
使用CSS3滤镜的filter:blur属性制作毛玻璃模糊效果的方法
2016/07/08 HTML / CSS
白兰氏健康Mall:BRAND’S
2017/11/13 全球购物
英国领先的品牌珠宝和配件供应商:Acotis Jewellery
2018/03/07 全球购物
美国在线咖啡、茶和餐厅供应商:LollicupStore
2018/05/04 全球购物
经销商培训邀请函
2014/01/21 职场文书
房地产开盘策划方案
2014/02/10 职场文书
走群众路线学习笔记
2014/11/06 职场文书
签订劳动合同通知书
2015/04/16 职场文书
离婚起诉书怎么写
2015/05/19 职场文书
Java 语言中Object 类和System 类详解
2021/07/07 Java/Android