Python爬虫实战之爬取携程评论


Posted in Python onJune 02, 2021

一、分析数据源

这里的数据源是指html网页?还是Aajx异步。对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍。

提示:以下操作均不需要登录(当然登录也可以)

咱们先在浏览器里面搜索携程,然后在携程里面任意搜索一个景点:长隆野生动物世界,这里就以长隆野生动物世界为例,讲解如何去爬取携程评论数据。

 Python爬虫实战之爬取携程评论

页面下方则是评论数据

 Python爬虫实战之爬取携程评论

Python爬虫实战之爬取携程评论 Python爬虫实战之爬取携程评论

从上面两张图可以看出,点击评论下一页,浏览器的链接没有变化,说明数据是Ajax异步请求。因此我们就找到了数据是异步加载过来的,这时候需要去network里面是查看数据包

二、分析数据包

在network中找到下面这个数据包

 Python爬虫实战之爬取携程评论

查看Preview里面的内容(请求返回内容)

Python爬虫实战之爬取携程评论

可以看到数据已经请求到了,下面看一下数据是否是正确的(和网页内容一致)。

 Python爬虫实战之爬取携程评论

ok,没问题之后,下面开始编写Python程序去请求数据。

1.请求地址

Python爬虫实战之爬取携程评论

可以获取到请求链接和请求方式。

Python爬虫实战之爬取携程评论

这里请求不用添加请求头header也是可以的。其中postUrl是请求链接,data_1是请求参数。

2.请求参数

在network里可以看到请求参数

Python爬虫实战之爬取携程评论

在程序中的构建如下:

Python爬虫实战之爬取携程评论

其中需要关注的是arg中的pageIndex(页数),pageSize(每页条数)。

Python爬虫实战之爬取携程评论

最终结果如下:

Python爬虫实战之爬取携程评论

该景点的评论就可以成功爬取下来了。

三、采集全部评论

上面只是采集了第一页的评论数据,通过改变arg中的pageIndex(页数),就可以遍历爬取全部的评论。

Python爬虫实战之爬取携程评论

比如这个景点一共是300页。现在把循环给加上

最终的完整代码如下:

Python爬虫实战之爬取携程评论

到此这篇关于Python爬虫实战之爬取携程评论的文章就介绍到这了,更多相关Python爬取携程评论内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
解决python写的windows服务不能启动的问题
Apr 15 Python
python解析xml文件操作实例
Oct 05 Python
基于Python实现的百度贴吧网络爬虫实例
Apr 17 Python
Python的面向对象编程方式学习笔记
Jul 12 Python
Python实现登录接口的示例代码
Jul 21 Python
使用django-crontab实现定时任务的示例
Feb 26 Python
python如何读写json数据
Mar 21 Python
Python重新加载模块的实现方法
Oct 16 Python
Python常用模块之requests模块用法分析
May 15 Python
django框架模板语言使用方法详解
Jul 18 Python
Python基于OpenCV实现人脸检测并保存
Jul 23 Python
pandas 如何分割字符的实现方法
Jul 29 Python
Pytorch DataLoader shuffle验证方式
python 爬取吉首大学网站成绩单
python 批量压缩图片的脚本
Jun 02 #Python
python操作xlsx格式文件并读取
关于Numpy之repeat、tile的用法总结
Jun 02 #Python
Matlab如何实现矩阵复制扩充
Jun 02 #Python
给numpy.array增加维度的超简单方法
Jun 02 #Python
You might like
php使用$_POST或$_SESSION[]向js函数传参
2014/09/16 PHP
zend framework中使用memcache的方法
2016/03/04 PHP
PHP的全局错误处理详解
2016/04/25 PHP
php获取'/'传参的值简单方法
2017/07/13 PHP
php中curl和soap方式请求服务超时问题的解决
2018/06/11 PHP
基于jQuery的一个扩展form序列化到json对象
2010/12/09 Javascript
Javascript使用post方法提交数据实例
2015/08/03 Javascript
javascript如何定义对象数组
2016/06/07 Javascript
BootStrap Progressbar 实现大文件上传的进度条的实例代码
2016/06/27 Javascript
javascript 解决浏览器不支持的问题
2016/09/24 Javascript
AngularJS实践之使用ng-repeat中$index的注意点
2016/12/22 Javascript
JS实现类似百叶窗下拉菜单效果
2016/12/30 Javascript
如何在AngularJs中调用第三方插件库
2017/05/21 Javascript
基于js原生和ajax的get和post方法以及jsonp的原生写法实例
2017/10/16 Javascript
JavaScript重复元素处理方法分析【统计个数、计算、去重复等】
2017/12/14 Javascript
vue+SSM实现验证码功能
2018/12/07 Javascript
JQuery复选框全选效果如何实现
2020/05/08 jQuery
jQuery实现飞机大战小游戏
2020/07/05 jQuery
python中redis查看剩余过期时间及用正则通配符批量删除key的方法
2018/07/30 Python
对python 调用类属性的方法详解
2019/07/02 Python
使用django的ORM框架按月统计近一年内的数据方法
2019/07/18 Python
python傅里叶变换FFT绘制频谱图
2019/07/19 Python
利用Python库Scapy解析pcap文件的方法
2019/07/23 Python
matplotlib命令与格式之tick坐标轴日期格式(设置日期主副刻度)
2019/08/06 Python
详解基于Facecognition+Opencv快速搭建人脸识别及跟踪应用
2021/01/21 Python
Tory Burch德国官网:美国时尚生活品牌
2018/01/03 全球购物
英国领先的男装设计师服装独立零售商:Repertoire Fashion
2020/10/19 全球购物
房地产开发计划书
2014/01/10 职场文书
售后服务经理岗位职责范本
2014/02/22 职场文书
工程采购员岗位职责
2014/03/09 职场文书
辩论赛主持词
2014/03/18 职场文书
2015年学生会纪检部工作总结
2015/03/31 职场文书
2015年助理工程师工作总结
2015/04/03 职场文书
庆七一活动简报
2015/07/20 职场文书
会议承办单位欢迎词
2019/07/09 职场文书
Python数据分析入门之教你怎么搭建环境
2021/05/13 Python