Python爬虫设置Cookie解决网站拦截并爬取蚂蚁短租的问题


Posted in Python onFebruary 22, 2021

我们在编写Python爬虫时,有时会遇到网站拒绝访问等反爬手段,比如这么我们想爬取蚂蚁短租数据,它则会提示“当前访问疑似黑客攻击,已被网站管理员设置为拦截”提示,如下图所示。此时我们需要采用设置Cookie来进行爬取,下面我们进行详细介绍。非常感谢我的学生承峰提供的思想,后浪推前浪啊!

一. 网站分析与爬虫拦截

当我们打开蚂蚁短租搜索贵阳市,反馈如下图所示结果。

Python爬虫设置Cookie解决网站拦截并爬取蚂蚁短租的问题

我们可以看到短租房信息呈现一定规律分布,如下图所示,这也是我们要爬取的信息。

Python爬虫设置Cookie解决网站拦截并爬取蚂蚁短租的问题

通过浏览器审查元素,我们可以看到需要爬取每条租房信息都位于<dd></dd>节点下。

Python爬虫设置Cookie解决网站拦截并爬取蚂蚁短租的问题

很多人学习python,不知道从何学起。
很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。
很多已经做案例的人,却不知道如何去学习更加高深的知识。
那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!
QQ群:810735403

在定位房屋名称,如下图所示,位于<div class="room-detail clearfloat"></div>节点下。

Python爬虫设置Cookie解决网站拦截并爬取蚂蚁短租的问题

接下来我们写个简单的BeautifulSoup进行爬取。

# -*- coding: utf-8 -*-
import urllib
import re
from bs4 import BeautifulSoup
import codecs
 
url = 'http://www.mayi.com/guiyang/?map=no'
response=urllib.urlopen(url)
contents = response.read()
soup = BeautifulSoup(contents, "html.parser")
print soup.title
print soup
#短租房名称
for tag in soup.find_all('dd'):
 for name in tag.find_all(attrs={"class":"room-detail clearfloat"}):
 fname = name.find('p').get_text()
 print u'[短租房名称]', fname.replace('\n','').strip()

但很遗憾,报错了,说明蚂蚁金服防范措施还是挺到位的。

Python爬虫设置Cookie解决网站拦截并爬取蚂蚁短租的问题

二. 设置Cookie的BeautifulSoup爬虫

添加消息头的代码如下所示,这里先给出代码和结果,再教大家如何获取Cookie。

# -*- coding: utf-8 -*-
import urllib2
import re
from bs4 import BeautifulSoup
 
#爬虫函数
def gydzf(url):
 user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"
 headers={"User-Agent":user_agent}
 request=urllib2.Request(url,headers=headers)
 response=urllib2.urlopen(request)
 contents = response.read()
 soup = BeautifulSoup(contents, "html.parser")
 for tag in soup.find_all('dd'):
 #短租房名称
 for name in tag.find_all(attrs={"class":"room-detail clearfloat"}):
 fname = name.find('p').get_text()
 print u'[短租房名称]', fname.replace('\n','').strip()
 #短租房价格
 for price in tag.find_all(attrs={"class":"moy-b"}):
 string = price.find('p').get_text()
 fprice = re.sub("[¥]+".decode("utf8"), "".decode("utf8"),string)
 fprice = fprice[0:5]
 print u'[短租房价格]', fprice.replace('\n','').strip()
 #评分及评论人数
 for score in name.find('ul'):
 fscore = name.find('ul').get_text()
 print u'[短租房评分/评论/居住人数]', fscore.replace('\n','').strip()
 #网页链接url
 url_dzf = tag.find(attrs={"target":"_blank"})
 urls = url_dzf.attrs['href']
 print u'[网页链接]', urls.replace('\n','').strip()
 urlss = 'http://www.mayi.com' + urls + ''
 print urlss
 
#主函数
if __name__ == '__main__':
 i = 1
 while i<10:
 print u'页码', i
 url = 'http://www.mayi.com/guiyang/' + str(i) + '/?map=no'
 gydzf(url)
 i = i+1
 else:
 print u"结束"

输出结果如下图所示:

页码 1
[短租房名称] 大唐东原财富广场--城市简约复式民宿
[短租房价格] 298
[短租房评分/评论/居住人数] 5.0分·5条评论·二居·可住3人
[网页链接] /room/851634765
http://www.mayi.com/room/851634765
[短租房名称] 大唐东原财富广场--清新柠檬复式民宿
[短租房价格] 568
[短租房评分/评论/居住人数] 2条评论·三居·可住6人
[网页链接] /room/851634467
http://www.mayi.com/room/851634467
 
...
 
页码 9
[短租房名称] 【高铁北站公园旁】美式风情+超大舒适安逸
[短租房价格] 366
[短租房评分/评论/居住人数] 3条评论·二居·可住5人
[网页链接] /room/851018852
http://www.mayi.com/room/851018852
[短租房名称] 大营坡(中大国际购物中心附近)北欧小清新三室
[短租房价格] 298
[短租房评分/评论/居住人数] 三居·可住6人
[网页链接] /room/851647045
http://www.mayi.com/room/851647045

Python爬虫设置Cookie解决网站拦截并爬取蚂蚁短租的问题

接下来我们想获取详细信息

Python爬虫设置Cookie解决网站拦截并爬取蚂蚁短租的问题

这里作者主要是提供分析Cookie的方法,使用浏览器打开网页,右键“检查”,然后再刷新网页。在“NetWork”中找到网页并点击,在弹出来的Headers中就隐藏这这些信息。

Python爬虫设置Cookie解决网站拦截并爬取蚂蚁短租的问题

最常见的两个参数是Cookie和User-Agent,如下图所示:

Python爬虫设置Cookie解决网站拦截并爬取蚂蚁短租的问题

然后在Python代码中设置这些参数,再调用Urllib2.Request()提交请求即可,核心代码如下:

user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) ... Chrome/61.0.3163.100 Safari/537.36"
 cookie="mediav=%7B%22eid%22%3A%22387123...b3574ef2-21b9-11e8-b39c-1bc4029c43b8"
 headers={"User-Agent":user_agent,"Cookie":cookie}
 request=urllib2.Request(url,headers=headers)
 response=urllib2.urlopen(request)
 contents = response.read()
 soup = BeautifulSoup(contents, "html.parser")
 for tag1 in soup.find_all(attrs={"class":"main"}):

注意,每小时Cookie会更新一次,我们需要手动修改Cookie值即可,就是上面代码的cookie变量和user_agent变量。完整代码如下所示:

import urllib2
import re
from bs4 import BeautifulSoup
import codecs
import csv
 
c = open("ycf.csv","wb") #write 写
c.write(codecs.BOM_UTF8)
writer = csv.writer(c)
writer.writerow(["短租房名称","地址","价格","评分","可住人数","人均价格"])
 
#爬取详细信息
def getInfo(url,fname,fprice,fscore,users):
 #通过浏览器开发者模式查看访问使用的user_agent及cookie设置访问头(headers)避免反爬虫,且每隔一段时间运行要根据开发者中的cookie更改代码中的cookie
 user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36"
 cookie="mediav=%7B%22eid%22%3A%22387123%22eb7; mayi_uuid=1582009990674274976491; sid=42200298656434922.85.130.130"
 headers={"User-Agent":user_agent,"Cookie":cookie}
 request=urllib2.Request(url,headers=headers)
 response=urllib2.urlopen(request)
 contents = response.read()
 soup = BeautifulSoup(contents, "html.parser")
 #短租房地址
 for tag1 in soup.find_all(attrs={"class":"main"}):
 print u'短租房地址:'
 for tag2 in tag1.find_all(attrs={"class":"desWord"}):
 address = tag2.find('p').get_text()
 print address
 #可住人数
 print u'可住人数:'
 for tag4 in tag1.find_all(attrs={"class":"w258"}):
 yy = tag4.find('span').get_text()
 print yy
 fname = fname.encode("utf-8")
 address = address.encode("utf-8")
 fprice = fprice.encode("utf-8")
 fscore = fscore.encode("utf-8")
 fpeople = yy[2:3].encode("utf-8")
 ones = int(float(fprice))/int(float(fpeople))
 #存储至本地
 writer.writerow([fname,address,fprice,fscore,fpeople,ones])
 
#爬虫函数
def gydzf(url):
 user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"
 headers={"User-Agent":user_agent}
 request=urllib2.Request(url,headers=headers)
 response=urllib2.urlopen(request)
 contents = response.read()
 soup = BeautifulSoup(contents, "html.parser")
 for tag in soup.find_all('dd'):
 #短租房名称
 for name in tag.find_all(attrs={"class":"room-detail clearfloat"}):
 fname = name.find('p').get_text()
 print u'[短租房名称]', fname.replace('\n','').strip()
 #短租房价格
 for price in tag.find_all(attrs={"class":"moy-b"}):
 string = price.find('p').get_text()
 fprice = re.sub("[¥]+".decode("utf8"), "".decode("utf8"),string)
 fprice = fprice[0:5]
 print u'[短租房价格]', fprice.replace('\n','').strip()
 #评分及评论人数
 for score in name.find('ul'):
 fscore = name.find('ul').get_text()
 print u'[短租房评分/评论/居住人数]', fscore.replace('\n','').strip()
 #网页链接url
 url_dzf = tag.find(attrs={"target":"_blank"})
 urls = url_dzf.attrs['href']
 print u'[网页链接]', urls.replace('\n','').strip()
 urlss = 'http://www.mayi.com' + urls + ''
 print urlss
 getInfo(urlss,fname,fprice,fscore,user_agent)
 
#主函数
if __name__ == '__main__':
 i = 0
 while i<33:
 print u'页码', (i+1)
 if(i==0):
 url = 'http://www.mayi.com/guiyang/?map=no'
 if(i>0):
 num = i+2 #除了第一页是空的,第二页开始按2顺序递增
 url = 'http://www.mayi.com/guiyang/' + str(num) + '/?map=no'
 gydzf(url)
 i=i+1
 
c.close()

输出结果如下,存储本地CSV文件:

Python爬虫设置Cookie解决网站拦截并爬取蚂蚁短租的问题

同时,大家可以尝试Selenium爬取蚂蚁短租,应该也是可行的方法。

到此这篇关于Python爬虫设置Cookie解决网站拦截并爬取蚂蚁短租的文章就介绍到这了,更多相关Python爬虫爬取蚂蚁短租内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python实现简单截取中文字符串的方法
Jun 15 Python
在Python的Django框架中更新数据库数据的方法
Jul 17 Python
django之跨表查询及添加记录的示例代码
Oct 16 Python
python 阶乘累加和的实例
Feb 01 Python
Python分支语句与循环语句应用实例分析
May 07 Python
Pytorch中accuracy和loss的计算知识点总结
Sep 10 Python
python动态视频下载器的实现方法
Sep 16 Python
Python for循环及基础用法详解
Nov 08 Python
Pycharm及python安装详细步骤及PyCharm配置整理(推荐)
Jul 31 Python
浅谈tensorflow中dataset.shuffle和dataset.batch dataset.repeat注意点
Jun 08 Python
Anaconda使用IDLE的实现示例
Sep 23 Python
Django执行源生mysql语句实现过程解析
Nov 12 Python
Python爬虫爬取微博热搜保存为 Markdown 文件的源码
Feb 22 #Python
Python爬虫制作翻译程序的示例代码
Feb 22 #Python
Python爬虫爬取ts碎片视频+验证码登录功能
Feb 22 #Python
sklearn中的交叉验证的实现(Cross-Validation)
Feb 22 #Python
Python爬虫分析微博热搜关键词的实现代码
Feb 22 #Python
anaconda升级sklearn版本的实现方法
Feb 22 #Python
详解Python 中的 defaultdict 数据类型
Feb 22 #Python
You might like
长波有什么东西
2021/03/01 无线电
vBulletin Forum 2.3.xx SQL Injection
2006/10/09 PHP
php跨域cookie共享使用方法
2014/02/20 PHP
PHP依赖倒置(Dependency Injection)代码实例
2014/10/11 PHP
PHP实现QQ空间自动回复说说的方法
2015/12/02 PHP
PHP实现动态添加XML中数据的方法
2018/03/30 PHP
php-fpm添加service服务的例子
2018/04/27 PHP
window.parent调用父框架时 ie跟火狐不兼容问题
2009/07/30 Javascript
JQuery 操作select标签实现代码
2010/05/14 Javascript
网站繁简切换的JS遇到页面卡死的解决方法
2014/03/12 Javascript
jquery实现类似淘宝星星评分功能实例
2014/09/12 Javascript
jQuery中prop()方法用法实例
2015/01/05 Javascript
jQuery使用hide方法隐藏指定元素class样式用法实例
2015/03/30 Javascript
javascript中sort() 方法使用详解
2015/08/30 Javascript
微信小程序 五星评分(包括半颗星评分)实例代码
2016/12/14 Javascript
浅谈angularjs中响应回车事件
2017/04/24 Javascript
socket.io学习教程之基础介绍(一)
2017/04/29 Javascript
详解vue 单页应用(spa)前端路由实现原理
2018/04/04 Javascript
详解Vue单元测试case写法
2018/05/24 Javascript
javascript关于“时间”的一次探索
2019/07/24 Javascript
使用 Jest 和 Supertest 进行接口端点测试实例详解
2020/04/25 Javascript
在Python中使用AOP实现Redis缓存示例
2017/07/11 Python
详解python字节码
2018/02/07 Python
Python + selenium + crontab实现每日定时自动打卡功能
2020/03/31 Python
一篇文章搞懂python的转义字符及用法
2020/09/03 Python
Fresh馥蕾诗英国官网:法国LVMH集团旗下高端天然护肤品牌
2018/11/01 全球购物
波兰快递服务:Globkurier.pl
2019/11/08 全球购物
岗位职责的构建方法
2014/02/01 职场文书
个人党性剖析材料
2014/02/03 职场文书
民主生活会对照检查材料(统计局)
2014/09/21 职场文书
党的群众路线教育实践活动专题组织生活会发言材料
2014/10/17 职场文书
走进毛泽东观后感
2015/06/04 职场文书
优秀团员主要事迹范文
2015/11/05 职场文书
自荐信范文
2019/05/20 职场文书
laravel ajax curd 搜索登录判断功能的实现
2021/04/17 PHP
Oracle创建只读账号的详细步骤
2021/06/07 Oracle